CSV/TSV-Parser
CSV (Comma-Separated Values) ist ein einfaches Format für tabellarische Daten, das von Tabellenkalkulationen und Datenbanken breit unterstützt wird. Dieses Tool parst CSV- und TSV-Dateien, erkennt Trennzeichen automatisch, verarbeitet Felder in Anführungszeichen und zeigt Daten in einer formatierten Tabelle an.
Spezifikationen
Haeufige Anwendungsfaelle
- CSV-Exporte vor dem Import in eine Datenbank prüfen
- CSV in JSON für API-Nutzung konvertieren
- Datenexporte aus Tabellenkalkulationen validieren
- Schnelle Inspektion von Logdateien und Datenauszügen
Funktionen
- Automatische Erkennung des Trennzeichens (Komma, Tabulator, Semikolon, Pipe)
- Darstellung als formatierte Tabelle mit Kopfzeilen
- Konvertierung in JSON-Array von Objekten
- Interaktive Baumansicht für die JSON-Darstellung
- Als HTML-Tabelle kopieren
- Zeilen und Spalten transponieren
Beispiele
Benutzerdaten
Ausprobieren →Eine CSV-Datei mit Benutzerinformationen.
name,email,role
Alice,alice@example.com,admin
Bob,bob@example.com,user
Charlie,"charlie@example.com",userTipps
- Die erste Zeile wird typischerweise als Kopfzeile behandelt.
- Felder, die Kommas oder Zeilenumbrüche enthalten, müssen in doppelte Anführungszeichen eingeschlossen werden.
- Doppelte Anführungszeichen innerhalb von Feldern in Anführungszeichen werden als "" escaped.
- TSV (tabulatorgetrennt) vermeidet viele Probleme mit Anführungszeichen.
Verstaendnis CSV/TSV-Parser
CSV (Comma-Separated Values) ist eines der ältesten und am weitesten verbreiteten Datenaustauschformate. Trotz seiner Einfachheit hat CSV genügend Mehrdeutigkeiten, um anhaltende Interoperabilitätsprobleme zu verursachen. RFC 4180 definiert einen Standard, aber viele Erzeuger weichen davon ab, was zu Parsing-Problemen bei Trennzeichen, Anführungszeichen, Zeichenkodierung und Zeilenenden führt.
Die grundlegende Struktur besteht aus einem Datensatz pro Zeile, wobei Felder durch Kommas getrennt sind. Wenn ein Feld ein Komma, einen Zeilenumbruch oder ein doppeltes Anführungszeichen enthält, muss es in doppelte Anführungszeichen eingeschlossen werden. Doppelte Anführungszeichen innerhalb eines Feldes in Anführungszeichen werden durch Verdoppelung ("") escaped. Der erste Datensatz wird üblicherweise als Kopfzeile behandelt, obwohl dies Konvention und keine Anforderung ist.
Variationen beim Trennzeichen sind üblich. TSV (Tab-Separated Values) verwendet Tabulatoren und vermeidet die meisten Probleme mit Anführungszeichen. Europäische Gebietsschemas, die Kommas als Dezimaltrennzeichen verwenden, nutzen oft Semikolons als Feldtrennzeichen. Pipe-getrennte Dateien kommen in Altsystemen vor. Ein guter CSV-Parser erkennt das Trennzeichen automatisch, indem er die ersten Zeilen analysiert.
Die Zeichenkodierung ist eine weitere häufige Problemquelle. Excel unter Windows speichert CSV in der System-Zeichenkodierung statt in UTF-8. Das Öffnen einer UTF-8-CSV in Excel kann verstümmelte Zeichen anzeigen. Das Hinzufügen eines UTF-8-BOM (Byte Order Mark) am Anfang der Datei signalisiert Excel, dass die Datei UTF-8-kodiert ist. Beim Austausch von CSV-Dateien zwischen Systemen überprüfen Sie immer die Zeichenkodierung.
Wenn CSV-Daten in Excel falsch aussehen, sind die zwei häufigsten Ursachen Kodierungsfehler und Trennzeichenfehler. Eine UTF-8-Datei, die von Excel mit einer lokalen Kodierung geöffnet wird, zeigt verstümmelte Zeichen an, und das Hinzufügen eines BOM behebt dies normalerweise. Trennzeichenprobleme entstehen in europäischen Gebietsschemas, in denen Excel Semikolons statt Kommas erwartet. Die Verwendung des Importassistenten (Daten > Aus Text) anstelle des Doppelklickens auf die Datei gibt explizite Kontrolle über Kodierung und Trennzeichen.
Gemäß RFC 4180 muss jedes Feld, das ein Komma, einen Zeilenumbruch oder ein doppeltes Anführungszeichen enthält, in doppelte Anführungszeichen eingeschlossen werden. Doppelte Anführungszeichen innerhalb eines Feldes in Anführungszeichen werden durch Verdoppelung escaped. Die meisten CSV-Bibliotheken handhaben dies korrekt, aber Probleme treten auf, wenn Dateien von Hand bearbeitet oder mit naivem String-Splitting anstelle eines richtigen CSV-Parsers analysiert werden. TSV (Tab-Separated Values) vermeidet die meisten dieser Probleme mit Anführungszeichen, da Tabulatoren selten in Daten vorkommen, was es zu einer beliebten Wahl in der Bioinformatik, Data Science und in Kontexten macht, in denen Feldwerte häufig Kommas enthalten.
CSV und JSON dienen unterschiedlichen Datenaustauschbedürfnissen. CSV ist ideal für flache, tabellarische Daten mit konsistenten Spalten — es wird universell von Tabellenkalkulationen und Datentools unterstützt und bleibt kompakt für große Datensätze. JSON ist die bessere Wahl für verschachtelte oder hierarchische Daten und ist das Standardformat für APIs. Für Datenbankexporte, Berichterstellung und Tabellenkalkulationsworkflows bleibt CSV der praktische Standard.