Wrangler adalah alat persiapan data visual dalam antarmuka Cloud Data Fusion Studio. Dengan SQL, Anda dapat membersihkan dan mengubah data sebelum menggunakannya di pipeline Ekstrak, Transformasi, Muat (ETL). Wrangler menerapkan transformasi pada sampel data Anda di satu tempat (disebut Pratinjau) sebelum menjalankan logika di seluruh set data. Pratinjau ini membantu Anda menerapkan transformasi dan mendapatkan pemahaman tentang pengaruhnya terhadap seluruh set data.
Perintah Wrangler
Perintah adalah satu petunjuk yang digunakan dalam Wrangler. Perintah menentukan cara memanipulasi data Anda, seperti mengubah, memfilter, atau memutar setiap kumpulan data.
Konsep berikut terkait dengan perintah:
- Resep
- Resep adalah kumpulan perintah. File ini terdiri dari satu atau beberapa perintah.
- Langkah transformasi
- Langkah transformasi adalah implementasi perintah transformasi data, yang beroperasi pada satu kumpulan data atau sekumpulan kumpulan data. Langkah transformasi dapat menghasilkan nol atau beberapa kumpulan data dari penerapan perintah. Wrangler menerapkan langkah-langkah transformasi sesuai urutan yang tercantum dalam resep.
Komponen Wrangler
Bagian berikut menjelaskan komponen Wrangler di Cloud Data Fusion Studio.
Ruang kerja Wrangler
Ruang kerja Wrangler adalah halaman di antarmuka Cloud Data Fusion Studio tempat Anda mengurai, menggabungkan, membersihkan, dan mengubah set data. Di halaman Ruang Kerja, Anda dapat melakukan hal berikut:
- Tambahkan langkah transformasi ke urutan langkah menggunakan menu drop-down di setiap kolom.
- Lihat atau hapus langkah dalam sebuah resep dengan memilih tab Langkah transformasi.
- Temukan kolom dengan kolom kosong dan informasi lainnya dengan memeriksa panel Kualitas data.
- Lihat skema untuk set data dengan mengklik Lainnya.
- Buat pipeline data dengan plugin sumber untuk set data, dan transformasi Wrangler dengan resep yang berisi langkah-langkah transformasi, yang dijalankan saat pipeline berjalan.
Mode Daya Wrangler (CLI)
Untuk menentukan perintah menggunakan sintaksis deklaratif, gunakan Mode Daya (CLI). Hal ini berguna untuk tugas berikut:
- Menggunakan perintah yang tidak tersedia di antarmuka Studio
- Menambahkan perintah yang ditentukan pengguna
- Menerapkan perintah ke beberapa kolom
Untuk menggunakan Mode Daya Wrangler, masukkan perintah di panel hitam di bagian bawah tab Data Wrangler.
Tab Insight Wrangler
Anda dapat menggunakan tab Insights di halaman Wrangler untuk melakukan penemuan data pada set data.
Batasan
- Wrangler hanya didukung untuk pipeline ETL batch.
- Wrangler hanya menerapkan transformasi pada data sampel. Data contoh ini dibatasi untuk 1.000 data pertama.
- Wrangler memerlukan koneksi yang dibuat dengan sumber. Untuk informasi selengkapnya, lihat Membuat dan mengelola koneksi.
- Wrangler selalu memerlukan setidaknya satu ruang kerja Wrangler yang terbuka.
- Mengklik tombol Wrangle di transformasi Wrangler tidak didukung.
Membuka Wrangler di Cloud Data Fusion
Anda dapat mengakses Wrangler dengan dua cara dari antarmuka Cloud Data Fusion Studio:
- Untuk membuka ruang kerja Cloud Data Fusion Wrangler, buka Cloud Data Fusion Studio, lalu klik Wrangler.
- Untuk mengonfigurasi properti Wrangler, buka Cloud Data Fusion Studio, lalu klik Studio > Transformations > Wrangler.
Menghubungkan ke sumber data
Wrangler mendukung berbagai sumber data, seperti BigQuery, Cloud Storage, dan database eksternal (dengan konfigurasi tambahan). Untuk menggunakan Wrangler, Anda harus membuat koneksi dengan sumber.
Untuk membuat koneksi, buka daftar Koneksi, lalu pilih koneksi ke sumber data Anda. Untuk informasi selengkapnya, lihat Membuat dan mengelola koneksi.
Menjelajahi dan melihat pratinjau data
Wrangler menampilkan sampel data Anda (biasanya 1.000 baris) untuk diperiksa. Anda bisa mendapatkan ringkasan skema data, termasuk jenis data dan statistik dasar.
Menerapkan perintah
Wrangler menawarkan berbagai perintah bawaan untuk tugas pengelolaan data umum.
- Tarik perintah yang dipilih ke kolom tertentu atau jendela pratinjau data.
- Setiap perintah memiliki opsi konfigurasi untuk menyesuaikan perilakunya.
Untuk informasi selengkapnya, lihat Perintah command line Wrangler.
Melihat pratinjau hasil transformasi
Saat Anda menerapkan perintah, jendela pratinjau data akan diperbarui secara dinamis untuk mencerminkan perubahan. Hal ini memungkinkan Anda melihat dampak langsung dari setiap transformasi pada data Anda.
Meningkatkan dan melakukan iterasi
Untuk meningkatkan proses pengelolaan data, terus tambahkan perintah, ubah konfigurasi, dan tinjau pratinjau.
Antarmuka visual Wrangler membantu Anda bereksperimen dan memastikan bahwa transformasi Anda menghasilkan hasil yang diharapkan.
Menambahkan transformasi ke pipeline
Meskipun Wrangler sendiri bukan solusi penyimpanan persisten, Cloud Data Fusion menawarkan cara untuk menangkap logika wrangle Anda:
Buat pipeline. Dari ruang kerja Wrangler, konversikan transformasi Wrangler Anda menjadi pipeline Cloud Data Fusion dengan mengikuti langkah-langkah berikut:
- Klik Create pipeline.
- Pilih Pipeline batch. Halaman Pipeline Studio akan terbuka dengan pipeline yang memiliki sumber dan transformasi Wrangler.
Terapkan transformasi. Jika Anda menggunakan plugin Wrangler di halaman Studio, konversikan transformasi Wrangler menjadi pipeline Cloud Data Fusion dengan mengklik Terapkan.
Mengedit Resep
Saat Anda menggunakan ruang kerja Wrangler untuk membuat transformasi Wrangler, setelah menambahkan transformasi Wrangler ke pipeline, sebaiknya gunakan antarmuka Wrangler untuk menambahkan atau mengedit resep.
Dalam transformasi Wrangler, jika Anda mengedit urutan langkah secara manual atau menambahkan langkah baru ke urutan langkah dan perubahan tersebut memengaruhi skema output, Anda harus memperbarui skema output secara manual dalam transformasi Wrangler agar cocok dengan perubahan dalam urutan langkah. Hanya resep yang dibuat atau diedit di ruang kerja Wrangler yang akan membuat dan memperbarui skema output secara otomatis dalam transformasi Wrangler.
Untuk mengedit resep dalam transformasi Wrangler yang dibuat di antarmuka web Wrangler, ikuti langkah-langkah berikut:
- Buka node Wrangler di pipeline Anda, lalu klik Properties.
- Klik Wrangle.
- Mengedit atau menambahkan resep baru.
- Klik Apply.
Langkah selanjutnya
- Pelajari perintah Wrangler CLI lebih lanjut.