Parser CSV/TSV

CSV (Comma-Separated Values) adalah format sederhana untuk data tabular, didukung secara luas oleh spreadsheet dan database. Alat ini mengurai file CSV dan TSV, mendeteksi otomatis delimiter, menangani field yang dikutip, dan menampilkan data dalam tabel terformat.

Spesifikasi

Kasus Penggunaan Umum

  • Pratinjau ekspor CSV sebelum mengimpor ke database
  • Mengonversi CSV ke JSON untuk konsumsi API
  • Memvalidasi ekspor data dari spreadsheet
  • Inspeksi cepat file log dan dump data

Fitur

  • Deteksi otomatis delimiter (koma, tab, titik koma, pipe)
  • Menampilkan sebagai tabel terformat dengan header
  • Mengonversi ke array JSON dari objek
  • Tampilan pohon interaktif untuk representasi JSON
  • Salin sebagai tabel HTML
  • Transposisi baris dan kolom

Contoh

Data Pengguna

Coba →

File CSV dengan informasi pengguna.

name,email,role
Alice,alice@example.com,admin
Bob,bob@example.com,user
Charlie,"charlie@example.com",user

Tips

  • Baris pertama biasanya diperlakukan sebagai header.
  • Bungkus field yang mengandung koma atau baris baru dalam tanda kutip ganda.
  • Tanda kutip ganda dalam field yang dikutip di-escape sebagai "".
  • TSV (dipisahkan tab) menghindari banyak masalah pengutipan.

Pemahaman Parser CSV/TSV

CSV (Comma-Separated Values) adalah salah satu format pertukaran data tertua dan paling didukung secara luas. Meskipun sederhana, CSV memiliki cukup ambiguitas untuk menyebabkan masalah interoperabilitas yang persisten. RFC 4180 mendefinisikan standar, tetapi banyak produsen menyimpang darinya, menyebabkan masalah penguraian terkait delimiter, pengutipan, encoding, dan akhir baris.

Struktur dasarnya adalah satu record per baris dengan field dipisahkan oleh koma. Ketika field mengandung koma, baris baru, atau tanda kutip ganda, field harus diapit dalam tanda kutip ganda. Tanda kutip ganda dalam field yang dikutip di-escape dengan menggandakannya (""). Record pertama biasanya diperlakukan sebagai baris header, meskipun ini adalah konvensi bukan keharusan.

Variasi delimiter umum terjadi. TSV (Tab-Separated Values) menggunakan tab, menghindari sebagian besar masalah pengutipan. Lokal Eropa yang menggunakan koma sebagai pemisah desimal sering menggunakan titik koma sebagai delimiter field. File yang dipisahkan pipe muncul di sistem lama. Parser CSV yang baik mendeteksi otomatis delimiter dengan menganalisis beberapa baris pertama.

Encoding karakter adalah sumber masalah yang sering terjadi. Excel di Windows menyimpan CSV dalam encoding lokal sistem daripada UTF-8. Membuka CSV UTF-8 di Excel mungkin menampilkan karakter yang kacau. Menambahkan BOM UTF-8 (byte order mark) di awal file memberi sinyal ke Excel bahwa file tersebut berenkode UTF-8. Saat bertukar file CSV antar sistem, selalu verifikasi encoding karakter.

Ketika data CSV terlihat salah di Excel, dua penyebab paling umum adalah ketidakcocokkan encoding dan ketidakcocokkan delimiter. File UTF-8 yang dibuka oleh Excel dengan asumsi encoding lokal akan menampilkan karakter yang kacau, dan menambahkan BOM biasanya memperbaiki ini. Masalah delimiter muncul di lokal Eropa di mana Excel mengharapkan titik koma alih-alih koma. Menggunakan wizard impor Data > From Text alih-alih mengklik dua kali file memberikan kontrol eksplisit atas pengaturan encoding dan delimiter.

Sesuai RFC 4180, field apa pun yang mengandung koma, baris baru, atau tanda kutip ganda harus diapit dalam tanda kutip ganda. Tanda kutip ganda dalam field yang dikutip di-escape dengan menggandakannya. Sebagian besar library CSV menangani ini dengan benar, tetapi masalah muncul ketika file diedit secara manual atau diurai dengan pemisahan string naif alih-alih parser CSV yang tepat. TSV (Tab-Separated Values) menghindari sebagian besar komplikasi pengutipan ini karena tab jarang muncul dalam data, menjadikannya pilihan populer dalam bioinformatika, ilmu data, dan konteks di mana nilai field sering mengandung koma.

CSV dan JSON melayani kebutuhan pertukaran data yang berbeda. CSV ideal untuk data tabular datar dengan kolom yang konsisten — didukung secara universal oleh spreadsheet dan alat data dan tetap ringkas untuk dataset besar. JSON adalah pilihan yang lebih baik untuk data bersarang atau hierarkis dan merupakan format standar untuk API. Untuk ekspor database, pelaporan, dan alur kerja spreadsheet, CSV tetap menjadi default yang praktis.

← Kembali ke semua alat