WorkflowTemplates API Dataproc menyediakan mekanisme yang fleksibel dan mudah digunakan untuk mengelola serta menjalankan alur kerja. Template Alur Kerja adalah konfigurasi alur kerja yang dapat digunakan kembali. Template ini menentukan grafik tugas dengan informasi tentang tempat menjalankan tugas tersebut.
Poin Utama:
- Membuat instance Template Alur Kerja
akan meluncurkan Alur Kerja. Alur kerja adalah operasi yang menjalankan
Directed Acyclic Graph (DAG)
tugas pada cluster.
- Jika alur kerja menggunakan cluster terkelola, alur kerja tersebut akan membuat cluster, menjalankan tugas, lalu menghapus cluster saat tugas selesai.
- Jika menggunakan pemilih cluster, alur kerja akan menjalankan tugas di cluster yang ada dan dipilih.
- Alur kerja ideal untuk alur tugas yang kompleks. Anda dapat membuat dependensi tugas sehingga tugas hanya dimulai setelah dependensinya berhasil selesai.
- Saat Anda membuat template alur kerja, Dataproc tidak akan membuat cluster atau mengirimkan tugas ke cluster. Dataproc membuat atau memilih cluster dan menjalankan tugas alur kerja di cluster saat template alur kerja dibuat instance-nya.
Jenis Template Alur Kerja
Cluster terkelola
Template alur kerja dapat menentukan cluster terkelola. Alur kerja akan membuat cluster "ephemeral" untuk menjalankan tugas alur kerja, lalu menghapus cluster saat alur kerja selesai.
Pemilih cluster
Template alur kerja dapat menentukan cluster yang ada untuk menjalankan tugas alur kerja dengan menentukan satu atau beberapa label pengguna yang sebelumnya dilampirkan ke cluster. Alur kerja akan berjalan di cluster yang cocok dengan semua label. Jika beberapa cluster cocok dengan semua label, Dataproc akan memilih cluster dengan memori YARN yang paling tersedia untuk menjalankan semua tugas alur kerja. Di akhir alur kerja, Dataproc tidak menghapus cluster yang dipilih. Lihat Menggunakan pemilih cluster dengan alur kerja untuk mengetahui informasi selengkapnya.
Dengan parameter
Jika Anda akan menjalankan template alur kerja beberapa kali dengan nilai yang berbeda, gunakan parameter untuk menghindari pengeditan template alur kerja untuk setiap operasi:
tentukan parameter dalam template, lalu
meneruskan nilai yang berbeda untuk parameter untuk setiap operasi.
Lihat Parameterisasi Template Alur Kerja untuk mengetahui informasi selengkapnya.
Inline
Alur kerja dapat dibuat instance secara inline menggunakan perintah gcloud
dengan
file YAML template alur kerja atau dengan memanggil Dataproc
InstantiateInline
API (lihat Menggunakan alur kerja Dataproc inline).
Alur kerja inline tidak membuat atau mengubah resource template alur kerja.
Kasus penggunaan Template Alur Kerja
Otomatisasi tugas berulang. Alur kerja mengenkapsulasi konfigurasi dan tugas cluster yang sering digunakan.
Model interaksi API fire-and-forget transaksional. Template Alur Kerja menggantikan langkah-langkah yang terlibat dalam alur standar, yang mencakup:
- membuat cluster
- mengirimkan tugas
- polling
- menghapus cluster
Template Alur Kerja menggunakan satu token untuk melacak progres dari pembuatan cluster hingga penghapusan, serta mengotomatiskan penanganan dan pemulihan error. Alat ini juga menyederhanakan integrasi Dataproc dengan alat lain, seperti fungsi Cloud Run dan Cloud Composer.
Dukungan untuk cluster ephemeral dan long-lived. Kompleksitas umum yang terkait dengan menjalankan Apache Hadoop adalah menyesuaikan dan menyesuaikan ukuran cluster. Cluster efemeral (terkelola) lebih mudah dikonfigurasi karena menjalankan satu beban kerja. Pemilih cluster dapat digunakan dengan cluster yang berumur lebih lama untuk berulang kali menjalankan beban kerja yang sama tanpa menimbulkan biaya penyusutan pembuatan dan penghapusan cluster.
Keamanan IAM terperinci. Membuat cluster Dataproc dan mengirimkan tugas memerlukan izin IAM semua atau tidak sama sekali. Template Alur Kerja menggunakan izin workflowTemplates.instantiate per template, dan tidak bergantung pada izin cluster atau tugas.