Tutorial ini menunjukkan cara membangun pipeline yang dapat digunakan kembali yang membaca data dari Cloud Storage, melakukan pemeriksaan kualitas data, dan menulis ke Cloud Storage.
Pipeline yang dapat digunakan kembali memiliki struktur pipeline reguler, tetapi Anda dapat mengubah konfigurasi setiap node pipeline berdasarkan konfigurasi yang disediakan oleh server HTTP. Misalnya, pipeline statis dapat membaca data dari Cloud Storage, menerapkan transformasi, dan menulis ke tabel output BigQuery. Jika ingin tabel output transformasi dan BigQuery berubah berdasarkan file Cloud Storage yang dibaca pipeline, buat pipeline yang dapat digunakan kembali.
Tujuan
- Gunakan plugin Penyetel Argumen Cloud Storage untuk memungkinkan pipeline membaca berbagai input dalam setiap pengoperasian.
- Gunakan plugin Penyetel Argumen Cloud Storage agar pipeline dapat melakukan pemeriksaan kualitas yang berbeda di setiap pengoperasian.
- Menulis data output dari setiap pengoperasian ke Cloud Storage.
Biaya
Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:
- Cloud Data Fusion
- Cloud Storage
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Make sure that billing is enabled for your Google Cloud project.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Make sure that billing is enabled for your Google Cloud project.
-
Aktifkan API Cloud Data Fusion, Cloud Storage, BigQuery, and Dataproc.
- Membuat instance Cloud Data Fusion.
Buka antarmuka web Cloud Data Fusion
Saat menggunakan Cloud Data Fusion, Anda menggunakan Konsol Google Cloud dan antarmuka web Cloud Data Fusion yang terpisah. Di konsol Google Cloud, Anda dapat membuat project konsol Google Cloud, serta membuat dan menghapus instance Cloud Data Fusion. Di antarmuka web Cloud Data Fusion, Anda dapat menggunakan berbagai halaman, seperti Pipeline Studio atau Wrangler, untuk menggunakan fitur Cloud Data Fusion.
Di konsol Google Cloud, buka halaman Instances.
Di kolom Tindakan untuk instance, klik link Lihat Instance. Antarmuka web Cloud Data Fusion akan terbuka di tab browser baru.
Men-deploy plugin Penyetel Argumen Cloud Storage
Di antarmuka web Cloud Data Fusion, buka halaman Studio.
Di menu Actions, klik GCS Argument Setter.
Membaca dari Cloud Storage
- Di antarmuka web Cloud Data Fusion, buka halaman Studio.
- Klik arrow_drop_down Source, lalu pilih Cloud Storage. Node untuk sumber Cloud Storage muncul di pipeline.
Di node Cloud Storage, klik Properties.
Di kolom Nama referensi, masukkan nama.
Di kolom Path, masukkan
${input.path}
. Makro ini mengontrol jalur input Cloud Storage yang akan berada di pipeline yang berbeda.Di panel Output Schema di sebelah kanan, hapus kolom offset dari skema output dengan mengklik ikon sampah di baris kolom offset.
Klik Validasi dan atasi error.
Klik
untuk keluar dari dialog Properties.
Mengubah data Anda
- Di antarmuka web Cloud Data Fusion, buka pipeline data Anda di halaman Studio.
- Di menu drop-down Transform arrow_drop_down, pilih Wrangler.
- Di kanvas Pipeline Studio, tarik panah dari node Cloud Storage ke node Wrangler.
- Buka node Wrangler di pipeline Anda, lalu klik Properties.
- Di Nama kolom input, masukkan
body
. - Di kolom Recipe, masukkan
${directives}
. Makro ini mengontrol logika transformasi yang akan ada di pipeline yang berbeda. - Klik Validasi dan atasi error.
- Klik untuk keluar dari dialog Properties.
Menulis ke Cloud Storage
- Di antarmuka web Cloud Data Fusion, buka pipeline data Anda di halaman Studio.
- Di menu drop-down Sink arrow_drop_down, pilih Cloud Storage.
- Di kanvas Pipeline Studio, tarik panah dari node Wrangler ke node Cloud Storage yang baru saja Anda tambahkan.
- Buka node sink Cloud Storage di pipeline Anda, lalu klik Properties.
- Di kolom Nama referensi, masukkan nama.
- Pada kolom Path, masukkan jalur bucket Cloud Storage di project Anda, tempat pipeline dapat menulis file output. Jika Anda belum memiliki bucket Cloud Storage, buat bucket.
- Klik Validasi dan atasi error.
- Klik untuk keluar dari dialog Properties.
Menetapkan argumen makro
- Di antarmuka web Cloud Data Fusion, buka pipeline data Anda di halaman Studio.
- Di menu drop-down arrow_drop_down Conditions and Actions, klik GCS Argument Setter.
- Di kanvas Pipeline Studio, tarik panah dari node Penyetel Argumen Cloud Storage ke node sumber Cloud Storage.
- Buka node Cloud Storage Argument Setter di pipeline Anda, lalu klik Properties.
Di kolom URL, masukkan URL berikut:
gs://reusable-pipeline-tutorial/args.json
URL terkait dengan objek yang dapat diakses secara publik di Cloud Storage yang berisi konten berikut:
{ "arguments" : [ { "name": "input.path", "value": "gs://reusable-pipeline-tutorial/user-emails.txt" }, { "name": "directives", "value": "send-to-error !dq:isEmail(body)" } ] }
Argumen pertama dari dua argumen adalah nilai untuk
input.path
. Jalurgs://reusable-pipeline-tutorial/user-emails.txt
adalah objek yang dapat diakses secara publik di Cloud Storage yang berisi data pengujian berikut:alice@example.com bob@example.com craig@invalid@example.com
Argumen kedua adalah nilai untuk
directives
. Nilaisend-to-error !dq:isEmail(body)
mengonfigurasi Wrangler untuk memfilter setiap baris yang bukan alamat email yang valid. Misalnya,craig@invalid@example.com
dikecualikan.Klik Validasi untuk memastikan Anda tidak mengalami error.
Klik
untuk keluar dari dialog Properties.
Men-deploy dan menjalankan pipeline Anda
Di panel atas halaman Pipeline Studio, klik Name your pipeline. Beri nama pipeline Anda, lalu klik Simpan.
Klik Deploy.
Untuk membuka Runtime Arguments dan melihat argumen makro (runtime)
input.path
dandirectives
, klik drop-down arrow_drop_down di samping Run.Biarkan kolom nilai kosong untuk memberi tahu Cloud Data Fusion bahwa node Penyetel Argumen Cloud Storage dalam pipeline akan menetapkan nilai argumen ini selama runtime.
Klik Run.
Pembersihan
Agar tidak dikenakan biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource-nya.
Setelah menyelesaikan tutorial, bersihkan resource yang Anda buat di Google Cloud agar tidak menghabiskan kuota dan Anda tidak akan ditagih di masa mendatang. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.
Menghapus instance Cloud Data Fusion
Ikuti petunjuk untuk menghapus instance Cloud Data Fusion.
Menghapus project
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.
Untuk menghapus project:
- Di konsol Google Cloud, buka halaman Manage resource.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Langkah selanjutnya
- Baca panduan cara kerja
- Ikuti tutorial lain