Analyseur CSV/TSV

CSV (Comma-Separated Values) est un format simple pour les données tabulaires, largement pris en charge par les tableurs et les bases de données. Cet outil analyse les fichiers CSV et TSV, détecte automatiquement les délimiteurs, gère les champs entre guillemets et affiche les données dans un tableau formaté.

Specifications

Cas d'utilisation courants

  • Prévisualiser les exports CSV avant l'import dans une base de données
  • Convertir du CSV en JSON pour la consommation API
  • Valider les exports de données depuis les tableurs
  • Inspection rapide des fichiers de logs et dumps de données

Fonctionnalites

  • Détection automatique du délimiteur (virgule, tabulation, point-virgule, pipe)
  • Affichage sous forme de tableau formaté avec en-têtes
  • Convertir en tableau JSON d'objets
  • Vue arborescente interactive pour la représentation JSON
  • Copier en tableau HTML
  • Transposer les lignes et les colonnes

Exemples

Données utilisateur

Essayer →

Un fichier CSV avec des informations utilisateur.

name,email,role
Alice,alice@example.com,admin
Bob,bob@example.com,user
Charlie,"charlie@example.com",user

Conseils

  • La première ligne est généralement traitée comme les en-têtes.
  • Encadrez les champs contenant des virgules ou des retours à la ligne avec des guillemets doubles.
  • Les guillemets doubles dans les champs entre guillemets sont échappés avec "".
  • TSV (séparé par tabulations) évite de nombreux problèmes de guillemets.

Comprendre Analyseur CSV/TSV

CSV (Comma-Separated Values) est l'un des formats d'échange de données les plus anciens et les plus largement pris en charge. Malgré sa simplicité, CSV présente suffisamment d'ambiguïtés pour causer des problèmes d'interopérabilité persistants. La RFC 4180 définit un standard, mais de nombreux producteurs s'en écartent, entraînant des problèmes d'analyse autour des délimiteurs, des guillemets, de l'encodage et des fins de ligne.

La structure de base est un enregistrement par ligne avec des champs séparés par des virgules. Quand un champ contient une virgule, un retour à la ligne ou un guillemet double, il doit être encadré de guillemets doubles. Les guillemets doubles dans un champ entre guillemets sont échappés en les doublant (""). Le premier enregistrement est généralement traité comme une ligne d'en-tête, bien que ce soit une convention plutôt qu'une obligation.

Les variations de délimiteur sont courantes. TSV (Tab-Separated Values) utilise des tabulations, évitant la plupart des problèmes de guillemets. Les locales européennes utilisant des virgules comme séparateurs décimaux utilisent souvent des points-virgules comme délimiteurs de champ. Les fichiers délimités par des pipes apparaissent dans les systèmes hérités. Un bon analyseur CSV détecte automatiquement le délimiteur en analysant les premières lignes.

L'encodage des caractères est une autre source fréquente de problèmes. Excel sous Windows enregistre le CSV dans l'encodage local du système plutôt qu'en UTF-8. L'ouverture d'un CSV UTF-8 dans Excel peut afficher des caractères corrompus. L'ajout d'un BOM UTF-8 (byte order mark) au début du fichier signale à Excel que le fichier est encodé en UTF-8. Lors de l'échange de fichiers CSV entre systèmes, vérifiez toujours l'encodage des caractères.

Quand les données CSV semblent erronées dans Excel, les deux causes les plus courantes sont les incompatibilités d'encodage et de délimiteur. Un fichier UTF-8 ouvert par Excel avec un encodage local supposé affichera des caractères corrompus, et l'ajout d'un BOM corrige généralement cela. Les problèmes de délimiteur surviennent dans les locales européennes où Excel attend des points-virgules plutôt que des virgules. L'utilisation de l'assistant d'importation Données > Depuis un fichier texte au lieu de double-cliquer sur le fichier donne un contrôle explicite sur l'encodage et le délimiteur.

Selon la RFC 4180, tout champ contenant une virgule, un retour à la ligne ou un guillemet double doit être encadré de guillemets doubles. Les guillemets doubles dans un champ entre guillemets sont échappés en les doublant. La plupart des bibliothèques CSV gèrent cela correctement, mais des problèmes apparaissent quand les fichiers sont édités manuellement ou analysés avec un découpage naïf de chaînes au lieu d'un vrai analyseur CSV. TSV (Tab-Separated Values) évite la plupart de ces complications de guillemets car les tabulations apparaissent rarement dans les données, ce qui en fait un choix populaire en bioinformatique, en science des données et dans les contextes où les valeurs de champs contiennent fréquemment des virgules.

CSV et JSON servent des besoins différents d'échange de données. CSV est idéal pour les données tabulaires plates avec des colonnes cohérentes — il est universellement pris en charge par les tableurs et les outils de données et reste compact pour les grands ensembles de données. JSON est le meilleur choix pour les données imbriquées ou hiérarchiques et est le format standard pour les API. Pour les exports de bases de données, les rapports et les workflows de tableurs, CSV reste le choix pratique par défaut.

← Retour a tous les outils