Builder tugas adalah UI visual untuk mem-build dan menjalankan pipeline Dataflow di konsol Google Cloud, tanpa perlu menulis kode.
Gambar berikut menampilkan detail dari UI pembuat tugas. Pada gambar ini, pengguna membuat pipeline untuk membaca dari Pub/Sub ke BigQuery:
Ringkasan
Builder tugas mendukung pembacaan dan penulisan jenis data berikut:
- Pesan Pub/Sub
- Data tabel BigQuery
- File CSV, file JSON, dan file teks di Cloud Storage
Library ini mendukung transformasi pipeline termasuk filter, join, peta, pengelompokan menurut, dan meledak (array flatten).
Builder tugas juga dapat menyimpan pipeline sebagai file YAML Apache Beam. Dengan menggunakan fitur ini, Anda dapat mendesain pipeline di pembuat tugas, lalu menyimpan file YAML di Cloud Storage atau repositori kontrol sumber untuk digunakan kembali.
Pertimbangkan pembuat tugas untuk kasus penggunaan berikut:
- Anda ingin membuat pipeline dengan cepat tanpa menulis kode.
- Anda ingin menyimpan pipeline ke YAML untuk digunakan kembali.
- Pipeline Anda dapat dinyatakan menggunakan sumber, sink, dan transformasi yang didukung.
- Tidak ada template yang disediakan Google yang cocok dengan kasus penggunaan Anda.
Membuat pipeline baru
Untuk membuat pipeline baru di pembuat tugas, ikuti langkah-langkah berikut:
Buka halaman Jobs di konsol Google Cloud.
Klik
Buat tugas dari builder.Untuk Job name, masukkan nama untuk tugas.
Pilih Batch atau Streaming.
Jika Anda memilih Streaming, pilih mode jendela. Kemudian, masukkan spesifikasi untuk jendela, sebagai berikut:
- Periode tetap: Masukkan ukuran periode, dalam detik.
- Periode geser: Masukkan ukuran periode dan periode jendela, dalam detik.
- Interval sesi: Masukkan jeda sesi, dalam detik.
Untuk informasi selengkapnya tentang jendela, lihat Jendela dan fungsi jendela.
Selanjutnya, tambahkan sumber, transformasi, dan sink ke pipeline, seperti yang dijelaskan di bagian berikut.
Menambahkan sumber ke pipeline
Pipeline harus memiliki minimal satu sumber. Awalnya, pembuat tugas diisi dengan sumber kosong. Untuk mengonfigurasi sumber, lakukan langkah-langkah berikut:
Di kotak Nama sumber, masukkan nama untuk sumber atau gunakan nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.
Dalam daftar Source type, pilih jenis sumber data.
Bergantung pada jenis sumber, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih BigQuery, tentukan tabel yang akan dibaca.
Jika Anda memilih Pub/Sub, tentukan skema pesan. Masukkan nama dan jenis data setiap kolom yang ingin Anda baca dari pesan Pub/Sub. Pipeline menghapus kolom yang tidak ditentukan dalam skema.
Opsional: Untuk beberapa jenis sumber, Anda dapat mengklik Pratinjau data sumber untuk melihat pratinjau data sumber.
Untuk menambahkan sumber lain ke pipeline, klik Tambahkan sumber. Untuk menggabungkan data
dari beberapa sumber, tambahkan transformasi Join
ke pipeline Anda.
Menambahkan transformasi ke pipeline
Secara opsional, tambahkan satu atau beberapa transformasi ke pipeline. Untuk menambahkan transformasi:
Klik Tambahkan transformasi.
Di kotak nama Transform, masukkan nama untuk transformasi atau gunakan nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.
Dalam daftar Transform type, pilih jenis transformasi.
Bergantung pada jenis transformasi, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih Filter (Python), masukkan ekspresi Python yang akan digunakan sebagai filter.
Pilih langkah input untuk transformasi. Langkah input adalah sumber atau transformasi yang output-nya memberikan input untuk transformasi ini.
Menambahkan sink ke pipeline
Pipeline harus memiliki minimal satu sink. Awalnya, pembuat tugas diisi dengan sink kosong. Untuk mengonfigurasi sink, lakukan langkah-langkah berikut:
Di kotak Sink name, masukkan nama untuk sink atau gunakan nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.
Dalam daftar Sink type, pilih jenis sink.
Bergantung pada jenis sink, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih sink BigQuery, pilih tabel BigQuery yang akan ditulis.
Pilih langkah input untuk sink. Langkah input adalah sumber atau transformasi yang output-nya memberikan input untuk transformasi ini.
Untuk menambahkan sink lain ke pipeline, klik Tambahkan sink.
Menjalankan pipeline
Untuk menjalankan pipeline dari pembuat tugas, lakukan langkah-langkah berikut:
Opsional: Tetapkan opsi tugas Dataflow. Untuk meluaskan bagian Dataflow options, klik panah peluas
.Klik Run job. Builder tugas membuka grafik tugas untuk tugas yang dikirim. Anda dapat menggunakan grafik tugas untuk memantau status tugas.
Menyimpan pipeline
Untuk menyimpan pipeline ke YAML Beam:
Klik Simpan untuk membuka jendela Simpan YAML.
Lakukan salah satu tindakan berikut:
- Untuk menyalin YAML ke papan klip, klik Salin.
- Untuk menyimpan ke Cloud Storage, masukkan jalur Cloud Storage, lalu klik Simpan.
- Untuk mendownload file lokal, klik Download.
Memuat pipeline
Setelah menyimpan pipeline ke Beam YAML, Anda dapat memuat kembali ke pembuat tugas. Kemudian, Anda dapat menggunakan builder tugas untuk mengubah atau menjalankan pipeline.
Anda dapat memuat YAML Beam dari Cloud Storage atau dari teks.
Memuat pipeline dari Cloud Storage
Untuk memuat pipeline dari Cloud Storage:
- Klik Muat.
- Klik Load from Cloud Storage.
- Di kotak YAML file location, masukkan lokasi Cloud Storage file YAML, atau klik Browse untuk memilih file.
- Klik Muat.
Memuat pipeline dari teks
Untuk memuat pipeline dari teks:
- Klik Muat.
- Klik Muat dari teks.
- Tempelkan YAML ke jendela.
- Klik Muat.
Memvalidasi pipeline sebelum diluncurkan
Untuk pipeline dengan konfigurasi yang kompleks, seperti filter Python dan ekspresi SQL, sebaiknya periksa konfigurasi pipeline untuk menemukan error sintaksis sebelum diluncurkan. Untuk memvalidasi sintaksis pipeline, lakukan langkah-langkah berikut:
- Klik Validasi untuk membuka Cloud Shell dan memulai layanan validasi.
- Klik Mulai Validasi.
- Jika ditemukan error selama validasi, tanda seru merah akan muncul.
- Perbaiki error yang terdeteksi dan verifikasi perbaikan dengan mengklik Validasi. Jika tidak ada error yang ditemukan, tanda centang hijau akan muncul.
Langkah berikutnya
- Gunakan antarmuka pemantauan tugas Dataflow.
- Pelajari YAML Beam lebih lanjut.