Ringkasan Wrangler

Wrangler adalah alat persiapan data visual dalam antarmuka Cloud Data Fusion Studio. Alat ini memungkinkan Anda membersihkan dan mengubah data sebelum menggunakannya di pipeline Ekstrak, Transformasi, Muat (ETL). Wrangler menerapkan transformasi pada sampel data Anda di satu tempat (disebut Pratinjau) sebelum menjalankan logika di seluruh set data. Pratinjau ini membantu Anda menerapkan transformasi dan mendapatkan pemahaman tentang pengaruhnya terhadap seluruh set data.

Perintah Wrangler

Perintah adalah instruksi tunggal yang digunakan dalam Wrangler. Perintah ini menentukan cara memanipulasi data Anda, seperti mengubah, memfilter, atau melakukan perubahan pada masing-masing data.

Konsep berikut terkait dengan perintah:

Resep
Resep adalah serangkaian perintah. Perintah ini terdiri dari satu atau beberapa perintah.
Langkah transformasi
Langkah transformasi adalah implementasi perintah transformasi data, yang beroperasi pada satu kumpulan data atau kumpulan data. Langkah transformasi dapat menghasilkan nol atau beberapa data dari penerapan perintah. Wrangler menerapkan langkah-langkah transformasi sesuai urutan yang tercantum di urutan langkah.

Komponen Wrangler

Bagian berikut menjelaskan komponen Wrangler di Cloud Data Fusion Studio.

Ruang kerja Wrangler

Ruang kerja Wrangler adalah halaman di antarmuka Cloud Data Fusion Studio tempat Anda mengurai, menggabungkan, membersihkan, dan mentransformasi set data. Di halaman Ruang Kerja, Anda dapat melakukan hal berikut:

  • Tambahkan langkah-langkah transformasi ke urutan langkah menggunakan menu drop-down di setiap kolom.
  • Lihat atau hapus langkah dalam urutan langkah dengan memilih tab Langkah-langkah transformasi.
  • Temukan kolom dengan kolom kosong dan informasi lainnya dengan memeriksa panel Kualitas data.
  • Lihat skema untuk set data dengan mengklik More.
  • Buat pipeline data dengan plugin sumber untuk set data, dan transformasi Wrangler dengan urutan langkah yang berisi langkah-langkah transformasi, yang dijalankan saat pipeline berjalan.

Mode Daya Wrangler (CLI)

Untuk menentukan perintah menggunakan sintaksis deklaratif, gunakan Mode Daya (CLI). Fungsi ini berguna untuk tugas berikut:

  • Menggunakan perintah yang tidak tersedia di antarmuka Studio
  • Menambahkan perintah yang ditentukan pengguna
  • Menerapkan sebuah perintah ke beberapa kolom

Untuk menggunakan Mode Daya Wrangler, masukkan perintah di panel hitam di bagian bawah tab Data Wrangler.

Tab Wrangler Insights

Anda dapat menggunakan tab Insights di halaman Wrangler untuk melakukan penemuan data pada set data.

Batasan

  • Wrangler hanya didukung untuk pipeline ETL batch.
  • Wrangler menerapkan transformasi hanya pada data sampel. Sampel data ini terbatas pada 1.000 kumpulan data pertama.
  • Wrangler mengharuskan koneksi dibuat dengan sumber. Untuk mengetahui informasi selengkapnya, lihat Membuat dan mengelola koneksi.
  • Wrangler selalu membutuhkan setidaknya satu ruang kerja Wrangler agar terbuka.
  • Mengklik tombol Wrangle pada transformasi Wrangler tidak didukung.

Anda dapat mengakses Wrangler dengan dua cara dari antarmuka Cloud Data Fusion Studio:

  • Untuk membuka ruang kerja Cloud Data Fusion Wrangler, buka Cloud Data Fusion Studio dan klik Wrangler.
  • Untuk mengonfigurasi properti Wrangler, buka Cloud Data Fusion Studio, lalu klik Studio > Transformations > Wrangler.

Menghubungkan ke sumber data

Wrangler mendukung berbagai sumber data, seperti BigQuery, Cloud Storage, dan database eksternal (dengan konfigurasi tambahan). Untuk menggunakan Wrangler, Anda harus membuat koneksi dengan sumbernya.

Untuk membuat koneksi, buka daftar Koneksi, lalu pilih koneksi ke sumber data Anda. Untuk mengetahui informasi selengkapnya, lihat Membuat dan mengelola koneksi.

Menjelajahi dan melihat pratinjau data

Wrangler menampilkan sampel data Anda (biasanya 1.000 baris) untuk diperiksa. Anda bisa mendapatkan ringkasan skema data, termasuk jenis data dan statistik dasar.

Menerapkan perintah

Wrangler menawarkan berbagai perintah bawaan untuk tugas data wrangling umum.

  • Tarik perintah yang dipilih ke kolom tertentu atau jendela pratinjau data.
  • Setiap perintah memiliki opsi konfigurasi untuk menyesuaikan perilakunya.

Untuk informasi selengkapnya, lihat perintah command line Wrangler.

Melihat pratinjau hasil transformasi

Saat Anda menerapkan perintah, jendela pratinjau data akan diperbarui secara dinamis untuk mencerminkan perubahan. Dengan demikian, Anda dapat melihat dampak langsung dari setiap transformasi pada data.

Sempurnakan dan iterasi

Untuk meningkatkan proses data wrangling Anda, terus tambahkan perintah, ubah konfigurasi, dan tinjau pratinjau.

Antarmuka visual Wrangler membantu Anda bereksperimen dan memastikan transformasi Anda menghasilkan hasil yang diharapkan.

Menambahkan transformasi ke pipeline

Meskipun Wrangler sendiri bukan solusi penyimpanan persisten, Cloud Data Fusion menawarkan cara untuk menangkap logika wrangling Anda:

  • Buat pipeline. Dari ruang kerja Wrangler, konversikan transformasi Wrangler Anda menjadi pipeline Cloud Data Fusion dengan mengikuti langkah-langkah berikut:

    1. Klik Create pipeline.
    2. Pilih Pipeline batch. Halaman Pipeline Studio akan terbuka dengan pipeline yang memiliki sumber dan transformasi Wrangler.
  • Menerapkan transformasi. Jika Anda menggunakan plugin Wrangler di halaman Studio, konversikan transformasi Wrangler menjadi pipeline Cloud Data Fusion dengan mengklik Apply.

Edit Resep

Saat menggunakan ruang kerja Wrangler untuk membuat transformasi Wrangler, setelah menambahkan transformasi Wrangler ke pipeline, sebaiknya Anda menggunakan antarmuka Wrangler untuk menambahkan atau mengedit resep.

Dalam transformasi Wrangler, jika mengedit resep secara manual atau menambahkan langkah baru ke urutan langkah dan perubahan tersebut memengaruhi skema output, Anda harus memperbarui skema output dalam transformasi Wrangler secara manual agar sesuai dengan perubahan dalam urutan langkah. Hanya resep yang dibuat atau diedit di ruang kerja Wrangler yang akan otomatis membuat dan memperbarui skema output dalam transformasi Wrangler.

Untuk mengedit resep dalam transformasi Wrangler yang dibuat di antarmuka web Wrangler, ikuti langkah-langkah berikut:

  1. Buka node Wrangler di pipeline Anda, lalu klik Properties.
  2. Klik Wrangle.
  3. Edit atau tambahkan resep baru.
  4. Klik Apply.

Langkah selanjutnya