Parser CSV/TSV
CSV (Comma-Separated Values) e un formato semplice per i dati tabulari, ampiamente supportato da fogli di calcolo e database. Questo strumento analizza file CSV e TSV, rileva automaticamente i delimitatori, gestisce i campi tra virgolette e visualizza i dati in una tabella formattata.
Specifiche
Casi d'uso comuni
- Anteprima delle esportazioni CSV prima dell'importazione in un database
- Conversione di CSV in JSON per il consumo API
- Validazione delle esportazioni dati dai fogli di calcolo
- Ispezione rapida di file di log e dump di dati
Funzionalità
- Rilevamento automatico del delimitatore (virgola, tabulazione, punto e virgola, pipe)
- Visualizzazione come tabella formattata con intestazioni
- Conversione in array JSON di oggetti
- Vista ad albero interattiva per la rappresentazione JSON
- Copia come tabella HTML
- Trasposizione di righe e colonne
Esempi
Dati utente
Provalo →Un file CSV con informazioni sugli utenti.
name,email,role
Alice,alice@example.com,admin
Bob,bob@example.com,user
Charlie,"charlie@example.com",userSuggerimenti
- La prima riga e tipicamente trattata come intestazioni.
- Racchiudi i campi contenenti virgole o nuove righe tra doppi apici.
- I doppi apici all'interno dei campi tra virgolette sono preceduti da un altro doppio apice ("").
- TSV (separato da tabulazione) evita molti problemi di virgolettatura.
Approfondimenti Parser CSV/TSV
CSV (Comma-Separated Values) e uno dei formati di scambio dati piu vecchi e ampiamente supportati. Nonostante la sua semplicita, CSV presenta abbastanza ambiguita da causare problemi persistenti di interoperabilita. L'RFC 4180 definisce uno standard, ma molti produttori se ne discostano, causando problemi di analisi relativi a delimitatori, virgolettatura, codifica e terminazioni di riga.
La struttura di base e un record per riga con campi separati da virgole. Quando un campo contiene una virgola, un'interruzione di riga o un doppio apice, deve essere racchiuso tra doppi apici. I doppi apici all'interno di un campo tra virgolette sono preceduti dal raddoppio (""). Il primo record e comunemente trattato come riga di intestazione, anche se questa e una convenzione piuttosto che un requisito.
Le variazioni dei delimitatori sono comuni. TSV (Tab-Separated Values) usa le tabulazioni, evitando la maggior parte dei problemi di virgolettatura. Le localizzazioni europee che usano la virgola come separatore decimale spesso usano il punto e virgola come delimitatore di campo. I file delimitati da pipe appaiono nei sistemi legacy. Un buon parser CSV rileva automaticamente il delimitatore analizzando le prime righe.
La codifica dei caratteri e un'altra fonte frequente di problemi. Excel su Windows salva i CSV nella codifica locale del sistema piuttosto che in UTF-8. L'apertura di un CSV UTF-8 in Excel puo visualizzare caratteri incomprensibili. L'aggiunta di un BOM UTF-8 (byte order mark) all'inizio del file segnala a Excel che il file e codificato in UTF-8. Quando si scambiano file CSV tra sistemi, verifica sempre la codifica dei caratteri.
Quando i dati CSV appaiono errati in Excel, le due cause piu comuni sono discordanze di codifica e discordanze di delimitatore. Un file UTF-8 aperto da Excel con una codifica locale produce caratteri incomprensibili, e l'aggiunta di un BOM di solito risolve il problema. I problemi di delimitatore si verificano nelle localizzazioni europee dove Excel si aspetta il punto e virgola invece della virgola. L'uso della procedura guidata Dati > Da Testo invece del doppio clic sul file fornisce un controllo esplicito sia sulla codifica che sul delimitatore.
Secondo l'RFC 4180, qualsiasi campo contenente una virgola, un'interruzione di riga o un doppio apice deve essere racchiuso tra doppi apici. I doppi apici all'interno di un campo tra virgolette sono preceduti dal raddoppio. La maggior parte delle librerie CSV gestisce questo correttamente, ma i problemi compaiono quando i file vengono modificati manualmente o analizzati con una semplice suddivisione di stringhe invece di un parser CSV appropriato. TSV (Tab-Separated Values) evita la maggior parte di queste complicazioni perche le tabulazioni appaiono raramente nei dati, rendendolo una scelta popolare in bioinformatica, data science e contesti dove i valori dei campi contengono frequentemente virgole.
CSV e JSON servono diverse esigenze di scambio dati. CSV e ideale per dati tabulari piatti con colonne consistenti: e universalmente supportato da fogli di calcolo e strumenti dati e rimane compatto per grandi dataset. JSON e la scelta migliore per dati annidati o gerarchici ed e il formato standard per le API. Per esportazioni di database, reportistica e flussi di lavoro con fogli di calcolo, CSV rimane l'impostazione predefinita pratica.