Urai file

Halaman ini menjelaskan cara mengurai file ketika Anda menyiapkan data di Wrangler ruang kerja Cloud Data Fusion Studio. Wrangler memungkinkan Anda mengurai file sebelum memuatnya ke ruang kerja Wrangler:

  • Wrangler menyimpulkan tipe data dan memetakan setiap kolom ke tipe data yang disimpulkan dalam dengan cara yang sama seperti plugin sumber file di Pipeline Studio.
  • Jika inferensi skema tidak memungkinkan, Anda dapat mengimpor skema untuk file , seperti JSON.
  • Resep ini tidak menyertakan perintah parse, yang akan mengurangi transformasi logika selama proses pipeline.
  • Saat Anda membuat pipeline dari Wrangler, plugin sumber menyertakan semua properti dan nilai penguraian yang sama yang Anda atur di Wrangler.

Membuat koneksi file

Untuk mengurai file sebelum memuatnya ke Wrangler, Anda harus menggunakan koneksi file, seperti File, Cloud Storage, atau Amazon S3.

  1. Buka ruang kerja Wrangler di Cloud Data Fusion.
  2. Klik panah peluas Pilih data untuk melihat koneksi yang tersedia.
  3. Tambahkan koneksi untuk File, Cloud Storage, atau S3. Untuk selengkapnya informasi selengkapnya, lihat Membuat dan mengelola koneksi.
  4. Untuk membuka dialog opsi penguraian, buka panel Pilih data, lalu klik nama {i>file<i}.
  5. Dalam dialog Opsi penguraian, masukkan informasi berikut:

    1. Di kolom Format, pilih format file data yang sedang baca—misalnya, csv. Untuk informasi selengkapnya, lihat Didukung format file.

      • Jika Anda memilih format pembatas, di kolom Pemisah yang muncul, masukkan informasi pembatas.
      • Jika Anda memilih format CSV, TSV, atau pembatas, tombol Aktifkan tanda kutip nilai akan muncul. Jika data Anda diberi tanda kutip, pilih Benar. Setelan ini memangkas tanda kutip dari yang diurai {i>output<i} tersebut. Misalnya, input berikut, 1, "a, b, c", mengurai menjadi dua {i>field<i}. Kolom pertama memiliki nilai: 1. Yang kedua memiliki nilai: a, b, c. {i>Newline delimiter<i} tidak boleh dalam tanda petik.
      • Jika Anda memilih format teks, CSV, TSV, atau pembatas, kolom Gunakan baris pertama sebagai header akan muncul. Untuk menggunakan baris pertama dari setiap file sebagai header kolom, pilih Benar.
    2. Di kolom File encoding, pilih jenis encoding file dari file sumber—misalnya, UTF-8.

    3. Opsional: untuk mengimpor skema atau mengganti skema yang disimpulkan untuk file, klik Import Schema. Anda mengimpor skema untuk format, seperti JSON dan beberapa file Avro, di mana inferensi skema tidak dimungkinkan. Tujuan skema harus dalam format Avro.

    4. Klik Confirm. File yang diuraikan akan muncul di ruang kerja Wrangler.

Format yang didukung

Format berikut didukung untuk penguraian file:

  • Avro
  • Blob (format blob memerlukan skema yang berisi kolom bernama body dari jenis bytes)
  • CSV
  • Dibatasi
  • JSON
  • Parquet
  • Teks (format teks memerlukan skema yang berisi kolom bernama body dari jenis string)
  • TSV

Langkah selanjutnya