Menjalankan pipeline menggunakan pembuat tugas
Panduan memulai ini menunjukkan cara menjalankan tugas Dataflow menggunakan Pembuat tugas Dataflow. Pekerjaan builder adalah UI visual untuk membangun dan menjalankan Dataflow pipeline di Konsol Google Cloud, tanpa menulis kode apa pun.
Dalam panduan memulai ini, Anda memuat contoh pipeline ke dalam job builder, menjalankan tugas, dan pastikan outputnya dibuat.
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager.
- Membuat bucket Cloud Storage:
- Di Konsol Google Cloud, buka halaman Bucket Cloud Storage.
- Klik Buat bucket.
- Di halaman Buat bucket, masukkan informasi bucket Anda. Untuk melanjutkan ke
langkah berikutnya, klik Lanjutkan.
- Untuk Beri nama bucket Anda, masukkan nama bucket yang unik. Jangan sertakan informasi sensitif pada nama bucket, karena namespace bucket bersifat global dan dapat dilihat publik.
-
Untuk Pilih tempat untuk menyimpan data, lakukan tindakan berikut:
- Pilih opsi Jenis lokasi.
- Pilih opsi Lokasi.
- Untuk Memilih kelas penyimpanan default untuk data Anda, pilih opsi berikut: Standar.
- Untuk Memilih cara mengontrol akses ke objek, pilih opsi Kontrol akses.
- Untuk Setelan lanjutan (opsional), tentukan metode enkripsi, kebijakan retensi, atau label bucket.
- Klik Buat.
Untuk menyelesaikan langkah-langkah dalam panduan memulai ini, akun pengguna Anda harus memiliki Peran Admin Dataflow dan peran Service Account User. Akun layanan default Compute Engine harus memiliki peran Pekerja Dataflow. Untuk menambahkan peran yang diperlukan di Konsol Google Cloud:
- Buka halaman IAM.
Buka IAM - Pilih project Anda.
- Di baris yang berisi akun pengguna Anda, klik Edit akun utama
- Klik Tambahkan peran lain, lalu di menu drop-down, pilih Dataflow Admin.
- Klik Tambahkan peran lain, lalu di menu drop-down, pilih Service Account User.
- Klik Simpan.
- Di baris yang berisi akun layanan default Compute Engine, klik Edit akun utama.
- Klik Tambahkan peran lain, lalu di menu drop-down, pilih Dataflow Worker.
- Klik Tambahkan peran lain, lalu di menu drop-down, pilih Storage Object Admin.
Klik Simpan.
Untuk mengetahui informasi selengkapnya tentang memberikan peran, lihat Memberikan peran IAM dengan menggunakan konsol.
- Buka halaman IAM.
- Secara default, setiap project baru dimulai dengan
jaringan default.
Jika jaringan default untuk project Anda dinonaktifkan
atau dihapus, Anda harus memiliki jaringan di project yang akun pengguna Anda miliki
Peran Pengguna Jaringan Compute
(
roles/compute.networkUser
).
Memuat contoh pipeline
Pada langkah ini, Anda akan memuat contoh pipeline yang menghitung kata-kata dalam King Lear dari Shakespeare.
Buka halaman Jobs di Konsol Google Cloud.
Klik
Buat tugas dari template.Klik Job builder.
Klik Muat.
Klik Jumlah Kata. Pembuat pekerjaan diisi dengan yang mewakili pipeline.
Untuk setiap langkah pipeline, builder pekerjaan menampilkan kartu yang menentukan parameter konfigurasi untuk langkah tersebut. Misalnya, langkah pertama membaca teks dari Cloud Storage. Lokasi data sumber diisi otomatis dalam kotak Text location.
Menetapkan lokasi output
Pada langkah ini, Anda akan menentukan bucket Cloud Storage tempat pipeline menulis {i>output<i} tersebut.
Cari kartu berjudul Sink baru. Anda mungkin harus men-scroll.
Di kotak Lokasi teks, klik Jelajahi.
Pilih nama bucket Cloud Storage yang Anda buat di Sebelum memulai.
Klik
Lihat resource turunan.Di kotak Nama file, masukkan
words
.Klik Pilih.
Menjalankan tugas
Klik Run job. Builder tugas membuat tugas Dataflow, lalu membuka grafik tugas. Kapan pekerjaan dimulai, grafik tugas menunjukkan representasi grafis pipeline, dengan yang ditampilkan di {i>job builder<i}. Saat setiap langkah pipeline berjalan, diperbarui di grafik tugas.
Panel Info pekerjaan menampilkan status pekerjaan secara keseluruhan. Jika tugas sudah selesai
berhasil, kolom Job status akan diperbarui menjadi Succeeded
.
Memeriksa output tugas
Setelah tugas selesai, lakukan langkah-langkah berikut untuk melihat output dari {i>pipeline<i}:
Di Konsol Google Cloud, buka halaman Buckets Cloud Storage.
Di daftar bucket, klik nama bucket yang telah Anda buat Sebelum memulai.
Klik file bernama
words-00000-of-00001
.Di halaman Object details, klik URL yang diautentikasi untuk melihat output pipeline.
Output-nya akan terlihat seperti berikut:
brother: 20
deeper: 1
wrinkles: 1
'alack: 1
territory: 1
dismiss'd: 1
[....]
Pembersihan
Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
Menghapus project
Cara termudah untuk meniadakan penagihan adalah dengan menghapus project Google Cloud yang dibuat sebagai panduan memulai.
- Di konsol Google Cloud, buka halaman Manage resource.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Menghapus resource satu per satu
Jika Anda ingin mempertahankan project Google Cloud yang Anda gunakan dalam panduan memulai, lalu hapus bucket Cloud Storage:
- Di konsol Google Cloud, buka halaman Buckets Cloud Storage.
- Klik kotak centang untuk bucket yang ingin Anda dihapus.
- Untuk menghapus bucket, klik Hapus, lalu ikuti petunjuk.