Parser CSV/TSV

CSV (Comma-Separated Values) e um formato simples para dados tabulares, amplamente suportado por planilhas e bancos de dados. Esta ferramenta analisa arquivos CSV e TSV, detecta delimitadores automaticamente, trata campos entre aspas e exibe dados em uma tabela formatada.

Especificacoes

Casos de Uso Comuns

  • Pre-visualizar exportacoes CSV antes de importar para um banco de dados
  • Converter CSV para JSON para consumo de API
  • Validar exportacoes de dados de planilhas
  • Inspecao rapida de arquivos de log e dumps de dados

Funcionalidades

  • Detectar delimitador automaticamente (virgula, tabulacao, ponto e virgula, pipe)
  • Exibir como tabela formatada com cabecalhos
  • Converter para array JSON de objetos
  • Visualizacao interativa em arvore para representacao JSON
  • Copiar como tabela HTML
  • Transpor linhas e colunas

Exemplos

Dados de Usuarios

Experimente →

Um arquivo CSV com informacoes de usuarios.

name,email,role
Alice,alice@example.com,admin
Bob,bob@example.com,user
Charlie,"charlie@example.com",user

Dicas

  • A primeira linha e tipicamente tratada como cabecalhos.
  • Envolva campos contendo virgulas ou quebras de linha em aspas duplas.
  • Aspas duplas dentro de campos entre aspas sao escapadas como "".
  • TSV (separado por tabulacao) evita muitos problemas de aspas.

Entendendo Parser CSV/TSV

CSV (Comma-Separated Values) e um dos formatos de troca de dados mais antigos e amplamente suportados. Apesar de sua simplicidade, CSV tem ambiguidade suficiente para causar problemas persistentes de interoperabilidade. A RFC 4180 define um padrao, mas muitos produtores desviam dele, levando a problemas de parse em torno de delimitadores, aspas, codificacao e finais de linha.

A estrutura basica e um registro por linha com campos separados por virgulas. Quando um campo contem uma virgula, quebra de linha ou aspas duplas, ele deve ser delimitado por aspas duplas. Aspas duplas dentro de um campo entre aspas sao escapadas dobrando-as (""). O primeiro registro e comumente tratado como uma linha de cabecalho, embora isso seja convencao e nao requisito.

Variacoes de delimitadores sao comuns. TSV (Tab-Separated Values) usa tabulacoes, evitando a maioria dos problemas de aspas. Localidades europeias que usam virgulas como separadores decimais frequentemente usam ponto e virgula como delimitadores de campo. Arquivos delimitados por pipe aparecem em sistemas legados. Um bom parser CSV detecta automaticamente o delimitador analisando as primeiras linhas.

Codificacao de caracteres e outra fonte frequente de problemas. Excel no Windows salva CSV na codificacao local do sistema em vez de UTF-8. Abrir um CSV UTF-8 no Excel pode exibir caracteres embaralhados. Adicionar um BOM UTF-8 (byte order mark) no inicio do arquivo sinaliza ao Excel que o arquivo e codificado em UTF-8. Ao trocar arquivos CSV entre sistemas, sempre verifique a codificacao de caracteres.

Quando dados CSV parecem errados no Excel, as duas causas mais comuns sao incompatibilidades de codificacao e incompatibilidades de delimitador. Um arquivo UTF-8 aberto pelo Excel assumindo uma codificacao local exibira caracteres embaralhados, e adicionar um BOM geralmente corrige isso. Problemas de delimitador surgem em localidades europeias onde o Excel espera ponto e virgula em vez de virgulas. Usar o assistente Dados > De Texto em vez de clicar duas vezes no arquivo da controle explicito sobre configuracoes de codificacao e delimitador.

Pela RFC 4180, qualquer campo contendo uma virgula, quebra de linha ou aspas duplas deve ser delimitado por aspas duplas. Aspas duplas dentro de um campo entre aspas sao escapadas dobrando-as. A maioria das bibliotecas CSV trata isso corretamente, mas problemas aparecem quando arquivos sao editados manualmente ou analisados com divisao de string ingenue em vez de um parser CSV adequado. TSV (Tab-Separated Values) evita a maioria dessas complicacoes de aspas porque tabulacoes raramente aparecem em dados, tornando-o uma escolha popular em bioinformatica, ciencia de dados e contextos onde valores de campo frequentemente contem virgulas.

CSV e JSON servem necessidades diferentes de troca de dados. CSV e ideal para dados tabulares planos com colunas consistentes — e universalmente suportado por planilhas e ferramentas de dados e permanece compacto para grandes conjuntos de dados. JSON e a melhor escolha para dados aninhados ou hierarquicos e e o formato padrao para APIs. Para exportacoes de banco de dados, relatorios e fluxos de trabalho de planilhas, CSV permanece o padrao pratico.

← Voltar para todas as ferramentas