Menggunakan pembuat tugas untuk membuat pipeline

Builder tugas adalah UI visual untuk membangun dan menjalankan Dataflow pipeline di Konsol Google Cloud, tanpa menulis kode.

Gambar berikut menampilkan detail dari UI pembuat lowongan. Pada gambar ini, pengguna sedang membuat pipeline untuk membaca dari Pub/Sub ke BigQuery:

Screenshot UI pembuat lowongan

Ringkasan

Pembuat lowongan mendukung pembacaan dan penulisan jenis data berikut:

  • Pesan Pub/Sub
  • Data tabel BigQuery
  • File CSV, file JSON, dan file teks di Cloud Storage

Alat ini mendukung transformasi pipeline termasuk filter, join, map, group-by, dan meledak (array merata).

Pembuat pekerjaan juga dapat menyimpan pipeline sebagai YAML Apache Beam . Dengan menggunakan fitur ini, Anda dapat mendesain pipeline di pembuat pekerjaan lalu menyimpan file YAML di Cloud Storage atau repositori kontrol sumber untuk digunakan kembali.

Pertimbangkan pembuat pekerjaan untuk kasus penggunaan berikut:

  • Anda ingin membangun pipeline dengan cepat tanpa menulis kode.
  • Anda ingin menyimpan pipeline ke YAML untuk digunakan kembali.
  • Pipeline Anda dapat dinyatakan menggunakan sumber, sink, dan transform.
  • Tidak ada Template yang disediakan Google yang cocok dengan kasus penggunaan Anda.

Membuat pipeline baru

Untuk membuat pipeline baru di pembuat pekerjaan, ikuti langkah-langkah berikut:

  1. Buka halaman Jobs di Konsol Google Cloud.

    Buka Tugas

  2. Klik Buat tugas dari template.

  3. Klik Job builder.

  4. Untuk Job name, masukkan nama pekerjaan.

  5. Pilih Batch atau Streaming.

  6. Jika Anda memilih Streaming, pilih mode windowing. Kemudian masukkan khusus jendela, seperti berikut:

    • Jendela tetap: Masukkan ukuran jendela, dalam detik.
    • Jendela geser: Masukkan ukuran jendela dan periode periode, dalam detik.
    • Jendela sesi: Masukkan jeda sesi, dalam detik.

    Untuk informasi selengkapnya tentang windowing, lihat Fungsi jendela dan windowing.

Selanjutnya, tambahkan sumber, transformasi, dan sink ke pipeline, seperti yang dijelaskan bagian berikut ini.

Menambahkan sumber ke pipeline

Pipeline harus memiliki minimal satu sumber. Awalnya, {i>job builder<i} adalah yang diisi dengan sumber kosong. Untuk mengonfigurasi sumber, lakukan hal berikut langkah:

  1. Di kotak Nama sumber, masukkan nama sumber atau gunakan nama default nama. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.

  2. Di daftar Jenis sumber, pilih jenis sumber data.

  3. Bergantung pada jenis sumber, berikan informasi konfigurasi tambahan. Sebagai contoh, jika Anda memilih BigQuery, tentukan tabel yang akan dibaca dari mereka.

    Jika Anda memilih Pub/Sub, tentukan skema pesan. Masukkan nama dan jenis data setiap kolom yang ingin Anda baca dari Pub/Sub membuat pesan teks. Pipeline akan menghapus kolom apa pun yang tidak ditentukan dalam skema.

  4. Opsional: Untuk beberapa jenis sumber, Anda dapat mengklik Pratinjau data sumber untuk melakukan pratinjau pada data sumber.

Untuk menambahkan sumber lain ke pipeline, klik Tambahkan sumber. Untuk menggabungkan data dari berbagai sumber, tambahkan transformasi Join ke pipeline Anda.

Menambahkan transformasi ke pipeline

Anda juga dapat menambahkan satu atau beberapa transformasi ke pipeline. Untuk menambahkan transformasi:

  1. Klik Add a transform.

  2. Di kotak nama Transformasi, masukkan nama untuk transformasi tersebut atau gunakan nama nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.

  3. Di daftar Transform type, pilih jenis transformasi.

  4. Bergantung pada jenis transformasi, sediakan konfigurasi tambahan tidak akurat atau tidak sesuai. Misalnya, jika Anda memilih Filter (Python), masukkan Python yang digunakan sebagai filter.

  5. Pilih langkah input untuk transformasi. Langkah {i>input <i}adalah sumber atau transform yang outputnya memberikan input untuk transformasi ini.

Menambahkan sink ke pipeline

Pipeline harus memiliki minimal satu sink. Awalnya, {i>job builder<i} adalah yang diisi dengan sink kosong. Untuk mengonfigurasi sink, lakukan langkah berikut langkah:

  1. Di kotak Sink name, masukkan nama untuk sink atau gunakan nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.

  2. Di daftar Sink type, pilih jenis sink.

  3. Bergantung pada jenis sink, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih sink BigQuery, pilih Tabel BigQuery sebagai tujuan penulisan.

  4. Pilih langkah input untuk sink. Langkah input adalah sumber atau transformasi yang outputnya memberikan input untuk transformasi ini.

  5. Untuk menambahkan sink lain ke pipeline, klik Add a sink.

Menjalankan pipeline

Untuk menjalankan pipeline dari job builder, lakukan langkah-langkah berikut:

  1. Opsional: Tetapkan opsi tugas Dataflow. Untuk meluaskan Opsi Dataflow, klik panah peluas.

  2. Klik Run job. {i>Job builder<i} membuka grafik tugas untuk tugas yang dikirimkan. Anda dapat menggunakan grafik tugas untuk memantau status tugas.

Menyimpan pipeline

Untuk menyimpan pipeline ke YAML YAML:

  1. Klik Save untuk membuka jendela Save YAML.

  2. Lakukan salah satu tindakan berikut:

    • Untuk menyalin YAML ke {i>clipboard<i}, klik Salinan.
    • Untuk menyimpan ke Cloud Storage, masukkan jalur Cloud Storage dan lalu klik Simpan.
    • Untuk mendownload file lokal, klik Download.

Memuat pipeline

Setelah menyimpan pipeline ke Beam YAML, Anda dapat memuatnya kembali ke tugas web. Selanjutnya, Anda dapat menggunakan builder tugas untuk memodifikasi atau menjalankan pipeline.

Anda dapat memuat YAML Beam dari Cloud Storage atau dari teks.

Memuat pipeline dari Cloud Storage

Untuk memuat pipeline dari Cloud Storage:

  1. Klik Muat.
  2. Klik Load from Cloud Storage.
  3. Di kotak Lokasi file YAML, masukkan lokasi Cloud Storage file YAML, atau klik Browse untuk memilih file.
  4. Klik Muat.

Memuat pipeline dari teks

Untuk memuat pipeline dari teks:

  1. Klik Muat.
  2. Klik Muat dari teks.
  3. Tempel YAML ke jendela.
  4. Klik Muat.

Langkah selanjutnya