Halaman ini menjelaskan cara mengurai file saat Anda menyiapkan data di ruang kerja Wrangler di Cloud Data Fusion Studio. Wrangler memungkinkan Anda mengurai file sebelum memuatnya ke ruang kerja Wrangler:
- Wrangler menyimpulkan jenis data dan memetakan setiap kolom ke jenis data yang disimpulkan dengan cara yang sama seperti plugin sumber file di Pipeline Studio.
- Jika inferensi skema tidak memungkinkan, Anda dapat mengimpor skema untuk format file, seperti JSON.
- Resep tidak menyertakan perintah penguraian, yang mengurangi logika transformasi selama pipeline berjalan.
- Saat Anda membuat pipeline dari Wrangler, plugin sumber menyertakan semua properti dan nilai penguraian yang sama dengan yang Anda tetapkan di Wrangler.
Membuat koneksi file
Untuk mengurai file sebelum memuat ke Wrangler, Anda harus menggunakan koneksi file, seperti File, Cloud Storage, atau Amazon S3.
- Buka ruang kerja Wrangler di Cloud Data Fusion.
- Klik panah luas Select data untuk melihat koneksi yang tersedia.
- Tambahkan koneksi untuk File, Cloud Storage, atau S3. Untuk informasi selengkapnya, lihat Membuat dan mengelola koneksi.
- Untuk membuka dialog opsi penguraian, buka panel Select data dan klik nama file.
Di dialog Parsing options, masukkan informasi berikut:
Di kolom Format, pilih format file data yang dibaca—misalnya, csv. Untuk mengetahui informasi selengkapnya, lihat Format yang didukung.
- Jika Anda memilih format pemisah, masukkan informasi pemisah di kolom Pemisah yang muncul.
- Jika Anda memilih format CSV, TSV, atau pemisah, kolom Enable quoted
values akan muncul. Jika data Anda diapit tanda kutip,
pilih Benar. Setelan ini memangkas tanda kutip dari output
yang diuraikan. Misalnya, input berikut,
1, "a, b, c"
, diuraikan menjadi dua kolom. Kolom pertama memiliki nilai:1
. Kolom kedua memiliki nilai:a, b, c
. Pemisah baris baru tidak boleh berada dalam tanda kutip. - Jika Anda memilih format teks, CSV, TSV, atau pemisah, kolom Gunakan baris pertama sebagai header akan muncul. Untuk menggunakan baris pertama setiap file sebagai header kolom, pilih Benar.
Di kolom File encoding, pilih jenis encoding file dari file sumber—misalnya, UTF-8.
Opsional: untuk mengimpor skema atau mengganti skema yang disimpulkan untuk file, klik Import Schema. Anda mengimpor skema untuk format, seperti JSON dan beberapa file Avro, yang tidak memungkinkan inferensi skema. Skema harus dalam format Avro.
Klik Confirm. File yang diuraikan akan muncul di ruang kerja Wrangler.
Format yang didukung
Format berikut didukung untuk penguraian file:
- Avro
- Blob (format blob memerlukan skema yang berisi kolom bernama
body
dari jenisbytes
) - CSV
- Dengan pembatas
- JSON
- Parquet
- Teks (format teks memerlukan skema yang berisi kolom bernama
body
dari jenisstring
) - TSV
Langkah selanjutnya
- Pelajari lebih lanjut Perintah Wrangler.