Menjalankan pipeline menggunakan pembuat tugas

Panduan memulai ini menunjukkan cara menjalankan tugas Dataflow menggunakan Pembuat tugas Dataflow. Pekerjaan builder adalah UI visual untuk membangun dan menjalankan Dataflow pipeline di Konsol Google Cloud, tanpa menulis kode apa pun.

Dalam panduan memulai ini, Anda memuat contoh pipeline ke dalam job builder, menjalankan tugas, dan pastikan outputnya dibuat.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Aktifkan API Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Aktifkan API Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager.

    Mengaktifkan API

  8. Membuat bucket Cloud Storage:
    1. Di Konsol Google Cloud, buka halaman Bucket Cloud Storage.

      Buka halaman Bucket

    2. Klik Buat bucket.
    3. Di halaman Buat bucket, masukkan informasi bucket Anda. Untuk melanjutkan ke langkah berikutnya, klik Lanjutkan.
      • Untuk Beri nama bucket Anda, masukkan nama bucket yang unik. Jangan sertakan informasi sensitif pada nama bucket, karena namespace bucket bersifat global dan dapat dilihat publik.
      • Untuk Pilih tempat untuk menyimpan data, lakukan tindakan berikut:
        • Pilih opsi Jenis lokasi.
        • Pilih opsi Lokasi.
      • Untuk Memilih kelas penyimpanan default untuk data Anda, pilih opsi berikut: Standar.
      • Untuk Memilih cara mengontrol akses ke objek, pilih opsi Kontrol akses.
      • Untuk Setelan lanjutan (opsional), tentukan metode enkripsi, kebijakan retensi, atau label bucket.
    4. Klik Buat.
  9. Untuk menyelesaikan langkah-langkah dalam panduan memulai ini, akun pengguna Anda harus memiliki Peran Admin Dataflow dan peran Service Account User. Akun layanan default Compute Engine harus memiliki peran Pekerja Dataflow. Untuk menambahkan peran yang diperlukan di Konsol Google Cloud:

    1. Buka halaman IAM.
      Buka IAM
    2. Pilih project Anda.
    3. Di baris yang berisi akun pengguna Anda, klik Edit akun utama
    4. Klik Tambahkan peran lain, lalu di menu drop-down, pilih Dataflow Admin.
    5. Klik Tambahkan peran lain, lalu di menu drop-down, pilih Service Account User.
    6. Klik Simpan.
    7. Di baris yang berisi akun layanan default Compute Engine, klik Edit akun utama.
    8. Klik Tambahkan peran lain, lalu di menu drop-down, pilih Dataflow Worker.
    9. Klik Tambahkan peran lain, lalu di menu drop-down, pilih Storage Object Admin.
    10. Klik Simpan.

      Untuk mengetahui informasi selengkapnya tentang memberikan peran, lihat Memberikan peran IAM dengan menggunakan konsol.

  10. Secara default, setiap project baru dimulai dengan jaringan default. Jika jaringan default untuk project Anda dinonaktifkan atau dihapus, Anda harus memiliki jaringan di project yang akun pengguna Anda miliki Peran Pengguna Jaringan Compute (roles/compute.networkUser).

Memuat contoh pipeline

Pada langkah ini, Anda akan memuat contoh pipeline yang menghitung kata-kata dalam King Lear dari Shakespeare.

  1. Buka halaman Jobs di Konsol Google Cloud.

    Buka Tugas

  2. Klik Buat tugas dari template.

  3. Klik Job builder.

  4. Klik Muat.

  5. Klik Jumlah Kata. Pembuat pekerjaan diisi dengan yang mewakili pipeline.

Untuk setiap langkah pipeline, builder pekerjaan menampilkan kartu yang menentukan parameter konfigurasi untuk langkah tersebut. Misalnya, langkah pertama membaca teks dari Cloud Storage. Lokasi data sumber diisi otomatis dalam kotak Text location.

Screenshot di aplikasi pembuat lowongan

Menetapkan lokasi output

Pada langkah ini, Anda akan menentukan bucket Cloud Storage tempat pipeline menulis {i>output<i} tersebut.

  1. Cari kartu berjudul Sink baru. Anda mungkin harus men-scroll.

  2. Di kotak Lokasi teks, klik Jelajahi.

  3. Pilih nama bucket Cloud Storage yang Anda buat di Sebelum memulai.

  4. Klik Lihat resource turunan.

  5. Di kotak Nama file, masukkan words.

  6. Klik Pilih.

Menjalankan tugas

Klik Run job. Builder tugas membuat tugas Dataflow, lalu membuka grafik tugas. Kapan pekerjaan dimulai, grafik tugas menunjukkan representasi grafis pipeline, dengan yang ditampilkan di {i>job builder<i}. Saat setiap langkah pipeline berjalan, diperbarui di grafik tugas.

Panel Info pekerjaan menampilkan status pekerjaan secara keseluruhan. Jika tugas sudah selesai berhasil, kolom Job status akan diperbarui menjadi Succeeded.

Memeriksa output tugas

Setelah tugas selesai, lakukan langkah-langkah berikut untuk melihat output dari {i>pipeline<i}:

  1. Di Konsol Google Cloud, buka halaman Buckets Cloud Storage.

    Buka Bucket

  2. Di daftar bucket, klik nama bucket yang telah Anda buat Sebelum memulai.

  3. Klik file bernama words-00000-of-00001.

  4. Di halaman Object details, klik URL yang diautentikasi untuk melihat output pipeline.

Output-nya akan terlihat seperti berikut:

brother: 20
deeper: 1
wrinkles: 1
'alack: 1
territory: 1
dismiss'd: 1
[....]

Pembersihan

Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

Menghapus project

Cara termudah untuk meniadakan penagihan adalah dengan menghapus project Google Cloud yang dibuat sebagai panduan memulai.

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Menghapus resource satu per satu

Jika Anda ingin mempertahankan project Google Cloud yang Anda gunakan dalam panduan memulai, lalu hapus bucket Cloud Storage:

  1. Di konsol Google Cloud, buka halaman Buckets Cloud Storage.

    Buka Buckets

  2. Klik kotak centang untuk bucket yang ingin Anda dihapus.
  3. Untuk menghapus bucket, klik Hapus, lalu ikuti petunjuk.

Langkah selanjutnya