Ringkasan Template Alur Kerja Dataproc

Dataproc WorkflowTemplates API memberikan mekanisme yang fleksibel dan mudah digunakan untuk mengelola serta menjalankan alur kerja. Template Alur Kerja adalah konfigurasi alur kerja yang dapat digunakan kembali. Diagram ini mendefinisikan grafik tugas beserta informasi di mana tugas-tugas tersebut dijalankan.

Poin Penting:

  • Membuat instance Template Alur Kerja akan meluncurkan Alur Kerja. Alur kerja adalah operasi yang menjalankan Directed Acyclic Graph (DAG) tugas pada sebuah cluster.
    • Jika alur kerja menggunakan cluster terkelola, alur kerja tersebut akan membuat cluster, menjalankan tugas, lalu menghapus cluster saat tugas selesai.
    • Jika alur kerja menggunakan pemilih cluster, alur kerja tersebut akan menjalankan tugas pada cluster yang ada yang dipilih.
  • Alur kerja ideal untuk alur tugas yang kompleks. Anda dapat membuat dependensi tugas sehingga tugas hanya dimulai setelah dependensinya berhasil diselesaikan.
  • Saat Anda membuat template alur kerja, Dataproc tidak membuat cluster atau mengirimkan tugas ke cluster. Dataproc membuat atau memilih cluster dan menjalankan tugas alur kerja di cluster tersebut saat template alur kerja membuat instance.

Jenis Template Alur Kerja

Cluster terkelola

Template alur kerja dapat menentukan cluster terkelola. Alur kerja ini akan membuat cluster "efemeral" untuk menjalankan tugas alur kerja, lalu menghapus cluster saat alur kerja selesai.

Pemilih cluster

Template alur kerja dapat menentukan cluster yang ada tempat tugas alur kerja akan dijalankan dengan menentukan satu atau beberapa label pengguna yang sebelumnya dilampirkan ke cluster. Alur kerja akan dijalankan di cluster yang cocok dengan semua label. Jika beberapa cluster cocok dengan semua label, Dataproc akan memilih cluster dengan memori YARN terbanyak yang tersedia untuk menjalankan semua tugas alur kerja. Di akhir alur kerja, Dataproc tidak menghapus cluster yang dipilih. Lihat Menggunakan pemilih cluster dengan alur kerja untuk mengetahui informasi selengkapnya.

Berparameter

Jika Anda akan menjalankan template alur kerja beberapa kali dengan nilai yang berbeda, gunakan parameter untuk menghindari pengeditan template alur kerja untuk setiap proses yang dijalankan:

  1. menentukan parameter dalam template, lalu

  2. masukkan nilai yang berbeda untuk parameter untuk setiap run.

Lihat Parameterisasi Template Alur Kerja untuk informasi selengkapnya.

Inline

Alur kerja dapat dibuat instance-nya secara inline menggunakan perintah gcloud dengan file YAML template alur kerja atau dengan memanggil Dataproc InstantiateInline API (lihat Menggunakan alur kerja Dataproc inline). Alur kerja inline tidak membuat atau mengubah resource template alur kerja.

Kasus penggunaan Template Alur Kerja

  • Otomatisasi tugas berulang. Alur kerja mengenkapsulasi tugas dan konfigurasi cluster yang sering digunakan.

  • Model interaksi API transaksional. Template Alur Kerja menggantikan langkah-langkah yang terlibat dalam alur standar, yang meliputi:

    1. membuat cluster
    2. mengirimkan lowongan
    3. polling
    4. menghapus cluster

    Template Alur Kerja menggunakan satu token untuk melacak progres dari pembuatan cluster hingga penghapusan, serta mengotomatiskan penanganan dan pemulihan error. Alat ini juga menyederhanakan integrasi Dataproc dengan alat lain, seperti Cloud Functions dan Cloud Composer.

  • Dukungan untuk cluster berumur panjang dan sementara. Kompleksitas umum yang terkait dengan pengoperasian Apache Hadoop adalah penyesuaian dan penyesuaian ukuran cluster. Cluster efemeral (terkelola) lebih mudah dikonfigurasi karena menjalankan satu beban kerja. Pemilih cluster dapat digunakan dengan cluster yang berumur lebih lama untuk mengeksekusi beban kerja yang sama berulang kali tanpa menimbulkan biaya yang diamortisasi untuk membuat dan menghapus cluster.

  • Keamanan IAM terperinci. Membuat cluster Dataproc dan mengirimkan tugas memerlukan izin IAM semuanya atau tidak sama sekali. Template Alur Kerja menggunakan izin workflowTemplates.instantiate per template, dan tidak bergantung pada izin cluster atau tugas.