Menggunakan pembuat tugas untuk membuat pipeline

Dengan tugas builder, Anda dapat membuat dan menjalankan pipeline Dataflow di konsol Google Cloud, tanpa menulis kode apa pun.

Pembuat lowongan mendukung pembacaan dan penulisan jenis data berikut:

  • Pesan Pub/Sub
  • Data tabel BigQuery
  • File CSV, file JSON, dan file teks di Cloud Storage

Fungsi ini mendukung transformasi pipeline termasuk filter, join, map, group-by, dan explode (array perata).

Builder tugas juga dapat menyimpan pipeline sebagai file Apache Beam YAML. Dengan fitur ini, Anda dapat mendesain pipeline di job builder lalu menyimpan file YAML di Cloud Storage atau repositori kontrol sumber untuk digunakan kembali.

Pertimbangkan pembuat pekerjaan untuk kasus penggunaan berikut:

  • Anda ingin membangun pipeline dengan cepat tanpa menulis kode.
  • Anda ingin menyimpan pipeline ke YAML untuk digunakan kembali.
  • Pipeline Anda dapat dinyatakan menggunakan sumber, sink, dan transformasi yang didukung.
  • Tidak ada template yang disediakan Google yang cocok dengan kasus penggunaan Anda.

Membuat pipeline baru

Untuk membuat pipeline baru di pembuat pekerjaan, ikuti langkah-langkah berikut:

  1. Buka halaman Jobs di Konsol Google Cloud.

    Buka Lowongan

  2. Klik Buat tugas dari template.

  3. Klik Job builder.

  4. Untuk Job name, masukkan nama pekerjaan.

  5. Pilih Batch atau Streaming.

  6. Jika Anda memilih Streaming, pilih mode windowing. Kemudian, masukkan spesifikasi untuk jendela tersebut, seperti berikut:

    • Jendela tetap: Masukkan ukuran jendela, dalam detik.
    • Jendela geser: Masukkan ukuran jendela dan periode periode, dalam detik.
    • Jendela sesi: Masukkan jeda sesi, dalam detik.

    Untuk mengetahui informasi selengkapnya tentang windowing, lihat Fungsi windowing dan Windows.

Selanjutnya, tambahkan sumber, transformasi, dan sink ke pipeline, seperti yang dijelaskan di bagian berikut.

Menambahkan sumber ke pipeline

Pipeline harus memiliki minimal satu sumber. Awalnya, {i>job builder<i} diisi dengan sumber kosong. Untuk mengonfigurasi sumber, lakukan langkah-langkah berikut:

  1. Di kotak Source name, masukkan nama untuk sumber atau gunakan nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.

  2. Di daftar Jenis sumber, pilih jenis sumber data.

  3. Bergantung pada jenis sumber, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih BigQuery, tentukan tabel yang akan dibaca.

    Jika Anda memilih Pub/Sub, tentukan skema pesan. Masukkan nama dan jenis data setiap kolom yang ingin Anda baca dari pesan Pub/Sub. Pipeline akan menghapus kolom apa pun yang tidak ditentukan dalam skema.

  4. Opsional: Untuk beberapa jenis sumber, Anda dapat mengklik Pratinjau data sumber untuk melihat pratinjau data sumber.

Untuk menambahkan sumber lain ke pipeline, klik Tambahkan sumber. Untuk menggabungkan data dari beberapa sumber, tambahkan transformasi Join ke pipeline Anda.

Menambahkan transformasi ke pipeline

Anda juga dapat menambahkan satu atau beberapa transformasi ke pipeline. Untuk menambahkan transformasi:

  1. Klik Add a transform.

  2. Di kotak nama Transform, masukkan nama untuk transformasi atau gunakan nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.

  3. Di daftar Transform type, pilih jenis transformasi.

  4. Bergantung pada jenis transformasi, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih Filter (Python), masukkan ekspresi Python untuk digunakan sebagai filter.

  5. Pilih langkah input untuk transformasi. Langkah input adalah sumber atau transformasi yang outputnya memberikan input untuk transformasi ini.

Menambahkan sink ke pipeline

Pipeline harus memiliki minimal satu sink. Awalnya, builder pekerjaan diisi dengan sink kosong. Untuk mengonfigurasi sink, lakukan langkah-langkah berikut:

  1. Di kotak Sink name, masukkan nama untuk sink atau gunakan nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.

  2. Di daftar Sink type, pilih jenis sink.

  3. Bergantung pada jenis sink, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih sink BigQuery, pilih tabel BigQuery yang menjadi tujuan penulisan.

  4. Pilih langkah input untuk sink. Langkah input adalah sumber atau transformasi yang output-nya memberikan input untuk transformasi ini.

  5. Untuk menambahkan sink lain ke pipeline, klik Add a sink.

Menjalankan pipeline

Untuk menjalankan pipeline dari job builder, lakukan langkah-langkah berikut:

  1. Opsional: Tetapkan opsi tugas Dataflow. Untuk meluaskan bagian opsi Dataflow, klik panah peluas .

  2. Klik Run job. Pembuat lowongan akan membuka grafik tugas untuk tugas yang dikirimkan. Anda dapat menggunakan grafik tugas untuk memantau status tugas.

Menyimpan pipeline

Untuk menyimpan pipeline ke YAML YAML:

  1. Klik Save untuk membuka jendela Save YAML.

  2. Lakukan salah satu tindakan berikut:

    • Untuk menyalin YAML ke papan klip, klik Copy.
    • Untuk menyimpan ke Cloud Storage, masukkan jalur Cloud Storage dan klik Save.
    • Untuk mendownload file lokal, klik Download.

Memuat pipeline

Setelah menyimpan pipeline ke Beam YAML, Anda dapat memuatnya kembali ke pembuat pekerjaan. Selanjutnya, Anda dapat menggunakan builder tugas untuk memodifikasi atau menjalankan pipeline.

Anda dapat memuat YAML Beam dari Cloud Storage atau dari teks.

Memuat pipeline dari Cloud Storage

Untuk memuat pipeline dari Cloud Storage:

  1. Klik Muat.
  2. Klik Load from Cloud Storage.
  3. Di kotak YAML file location, masukkan lokasi Cloud Storage file YAML, atau klik Browse untuk memilih file.
  4. Klik Muat.

Memuat pipeline dari teks

Untuk memuat pipeline dari teks:

  1. Klik Muat.
  2. Klik Muat dari teks.
  3. Tempel YAML ke jendela.
  4. Klik Muat.

Langkah selanjutnya