CSV/TSV Ayrıştırıcı
CSV (Virgülle Ayrılmış Değerler), tablo verileri için yaygın olarak elektronik tablolar ve veritabanları tarafından desteklenen basit bir formattır. Bu araç CSV ve TSV dosyalarını ayrıştırır, sınırlayıcıları otomatik algılar, tırnaklı alanları işler ve verileri biçimlendirilmiş bir tabloda görüntüler.
Spesifikasyonlar
Yaygin Kullanim Alanlari
- Veritabanına aktarmadan önce CSV dışa aktarımlarını önizleme
- API tüketimi için CSV'yi JSON'a dönüştürme
- Elektronik tablo veri dışa aktarımlarını doğrulama
- Günlük dosyalarını ve veri dökümlerini hızlı inceleme
Ozellikler
- Sınırlayıcıyı otomatik algılama (virgül, sekme, noktalı virgül, boru)
- Başlıklarla biçimlendirilmiş tablo olarak görüntüleme
- Nesne dizisi olarak JSON'a dönüştürme
- JSON gösterimi için etkileşimli ağaç görünümü
- HTML tablosu olarak kopyalama
- Satır ve sütunları transpoze etme
Ornekler
Kullanıcı Verileri
Deneyin →Kullanıcı bilgileri içeren bir CSV dosyası.
name,email,role
Alice,alice@example.com,admin
Bob,bob@example.com,user
Charlie,"charlie@example.com",userIpuclari
- İlk satır genellikle başlık olarak değerlendirilir.
- Virgül veya satır sonu içeren alanları çift tırnak içine alın.
- Tırnaklı alanlar içindeki çift tırnaklar "" olarak kaçış yapılır.
- TSV (sekmeyle ayrılmış) birçok tırnak sorununu önler.
Anlama CSV/TSV Ayrıştırıcı
CSV (Virgülle Ayrılmış Değerler), en eski ve en yaygın desteklenen veri alışveriş formatlarından biridir. Basitliğine rağmen, CSV kalıcı birlikte çalışabilirlik sorunlarına neden olacak kadar belirsizlik içerir. RFC 4180 bir standart tanımlar, ancak birçok üretici bundan saparak sınırlayıcılar, tırnaklama, kodlama ve satır sonları konusunda ayrıştırma sorunlarına yol açar.
Temel yapı, alanları virgülle ayrılmış her satırda bir kayıttır. Bir alan virgül, satır sonu veya çift tırnak içerdiğinde, çift tırnak içine alınmalıdır. Tırnaklı bir alan içindeki çift tırnaklar ikiye katlanarak kaçış yapılır (""). İlk kayıt genellikle başlık satırı olarak değerlendirilir, ancak bu bir gereklilik değil bir kuraldır.
Sınırlayıcı varyasyonları yaygındır. TSV (Sekmeyle Ayrılmış Değerler) sekmeler kullanarak çoğu tırnaklama sorununu önler. Ondalık ayırıcı olarak virgül kullanan Avrupa yerel ayarları genellikle alan sınırlayıcısı olarak noktalı virgül kullanır. Boru ile sınırlı dosyalar eski sistemlerde görülür. İyi bir CSV ayrıştırıcı, ilk birkaç satırı analiz ederek sınırlayıcıyı otomatik olarak algılar.
Karakter kodlaması, sık karşılaşılan sorunların bir diğer kaynağıdır. Windows'ta Excel, CSV'yi UTF-8 yerine sistem yerel kodlamasında kaydeder. UTF-8 bir CSV'yi Excel'de açmak bozuk karakterler gösterebilir. Dosyanın başına UTF-8 BOM (bayt sırası işareti) eklemek, Excel'e dosyanın UTF-8 kodlu olduğunu bildirir. Sistemler arasında CSV dosyaları alışverişi yaparken her zaman karakter kodlamasını doğrulayın.
CSV verileri Excel'de yanlış görünüyorsa, en yaygın iki neden kodlama uyumsuzlukları ve sınırlayıcı uyumsuzluklarıdır. Yerel bir kodlama varsayarak Excel tarafından açılan UTF-8 dosyası bozuk karakterler gösterecektir ve BOM eklemek genellikle bunu düzeltir. Sınırlayıcı sorunları, Excel'in virgül yerine noktalı virgül beklediği Avrupa yerel ayarlarında ortaya çıkar. Dosyayı çift tıklamak yerine Veri > Metinden Al içe aktarma sihirbazını kullanmak, hem kodlama hem de sınırlayıcı ayarları üzerinde açık kontrol sağlar.
RFC 4180'e göre, virgül, satır sonu veya çift tırnak içeren herhangi bir alan çift tırnak içine alınmalıdır. Tırnaklı bir alan içindeki çift tırnaklar ikiye katlanarak kaçış yapılır. Çoğu CSV kütüphanesi bunu doğru şekilde işler, ancak dosyalar elle düzenlendiğinde veya uygun bir CSV ayrıştırıcı yerine basit dize bölme ile ayrıştırıldığında sorunlar ortaya çıkar. TSV (Sekmeyle Ayrılmış Değerler), sekmeler verilerde nadiren göründüğü için bu tırnaklama komplikasyonlarının çoğunu önler ve biyoinformatik, veri bilimi ve alan değerlerinin sıklıkla virgül içerdiği bağlamlarda popüler bir seçimdir.
CSV ve JSON farklı veri alışveriş ihtiyaçlarına hizmet eder. CSV, tutarlı sütunlara sahip düz, tablo verileri için idealdir — elektronik tablolar ve veri araçları tarafından evrensel olarak desteklenir ve büyük veri setleri için kompakt kalır. JSON, iç içe geçmiş veya hiyerarşik veriler için daha iyi bir seçimdir ve API'ler için standart formattır. Veritabanı dışa aktarımları, raporlama ve elektronik tablo iş akışları için CSV pratik varsayılan olmaya devam eder.