Anda menyiapkan dan menjalankan alur kerja dengan:
- Membuat template alur kerja
- Mengonfigurasi cluster terkelola (efemeral) atau memilih cluster yang ada
- Menambahkan tugas
- Membuat instance template untuk menjalankan alur kerja
Membuat template
Jalankan command
berikut untuk membuat resource template alur kerja Dataproc.
gcloud dataproc workflow-templates createTEMPLATE_ID \ --region=REGION
Catatan:
- REGION: Tentukan region tempat template Anda akan berjalan.
- TEMPLATE_ID: Berikan ID untuk template Anda, seperti, "workflow-template-1".
- Enkripsi CMEK. Anda dapat menambahkan tanda --kms-key untuk menggunakan enkripsi CMK pada argumen tugas template alur kerja.
Kirimkan WorkflowTemplate sebagai bagian dari permintaan workflowTemplates.create. Anda dapat menambahkan kolom WorkflowTemplate.EncryptionConfig.kmsKey untuk menggunakan enkripsi CMK pada argumen tugas template alur kerja. kmsKey
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di konsol Google Cloud.
Mengonfigurasi atau memilih cluster
Dataproc dapat membuat dan menggunakan cluster baru yang "dikelola" untuk alur kerja Anda atau cluster yang ada.
Cluster yang ada: Lihat Menggunakan pemilih cluster dengan alur kerja untuk memilih cluster yang ada untuk alur kerja Anda.
Cluster terkelola: Anda harus mengonfigurasi cluster terkelola untuk alur kerja Anda. Dataproc akan membuat cluster baru ini untuk menjalankan tugas alur kerja, lalu menghapus cluster di akhir alur kerja.
Anda dapat mengonfigurasi cluster terkelola untuk alur kerja menggunakan alat command line
gcloud
atau Dataproc API.Gunakan flag yang diwarisi dari gcloud dataproc cluster create untuk mengonfigurasi cluster terkelola, seperti jumlah pekerja dan jenis mesin master dan pekerja. Dataproc akan menambahkan akhiran ke nama cluster untuk memastikan keunikan. Anda dapat menggunakan flag
--service-account
untuk menentukan akun layanan VM untuk cluster terkelola.gcloud dataproc workflow-templates set-managed-cluster
TEMPLATE_ID \ --region=REGION \ --master-machine-type=MACHINE_TYPE \ --worker-machine-type=MACHINE_TYPE \ --num-workers=NUMBER \ --cluster-name=CLUSTER_NAME --service-account=SERVICE_ACCOUNT Lihat WorkflowTemplatePlacement.ManagedCluster, yang dapat Anda berikan sebagai bagian dari WorkflowTemplate yang telah selesai dan dikirimkan dengan permintaan workflowTemplates.create atau workflowTemplates.update.
Anda dapat menggunakan kolom
GceClusterConfig.serviceAccount
untuk menentukan akun layanan VM untuk cluster terkelola.Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.
Menambahkan tugas ke template
Semua tugas berjalan secara serentak kecuali jika Anda menentukan satu atau beberapa dependensi tugas. Dependensi
tugas dinyatakan sebagai daftar tugas lain yang harus selesai
dengan sukses sebelum tugas akhir dapat dimulai. Anda harus menyediakan step-id
untuk setiap tugas. ID harus unik dalam alur kerja, tetapi tidak perlu unik secara global.
Gunakan jenis tugas dan flag yang diwarisi dari
gcloud dataproc jobs submit
untuk menentukan tugas yang akan ditambahkan ke template. Anda dapat menggunakan tanda
‑‑start-after job-id of another workflow job
secara opsional agar tugas dimulai setelah penyelesaian satu atau beberapa tugas lain
dalam alur kerja.
Contoh:
Tambahkan tugas Hadoop "foo" ke template "my-workflow".
gcloud dataproc workflow-templates add-job hadoop \ --region=REGION \ --step-id=foo \ --workflow-template=my-workflow \ --space separated job args
Tambahkan tugas "bar" ke template "my-workflow", yang akan dijalankan setelah tugas alur kerja "foo" berhasil selesai.
gcloud dataproc workflow-templates add-jobJOB_TYPE \ --region=REGION \ --step-id=bar \ --start-after=foo \ --workflow-template=my-workflow \ --space separated job args
Tambahkan tugas lain "baz" ke template "my-workflow" yang akan dijalankan setelah tugas "foo" dan "bar" berhasil diselesaikan.
gcloud dataproc workflow-templates add-jobJOB_TYPE \ --region=REGION \ --step-id=baz \ --start-after=foo,bar \ --workflow-template=my-workflow \ --space separated job args
Lihat WorkflowTemplate.OrderedJob. Kolom ini disediakan sebagai bagian dari WorkflowTemplate yang telah selesai dan dikirimkan dengan permintaan workflowTemplates.create atau workflowTemplates.update.
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.
Menjalankan alur kerja
Pembuatan instance template alur kerja menjalankan alur kerja yang ditentukan oleh template. Beberapa pembuatan instance template didukung—Anda dapat menjalankan alur kerja beberapa kali.
gcloud dataproc workflow-templates instantiateTEMPLATE_ID \ --region=REGION
Perintah ini menampilkan ID operasi, yang dapat Anda gunakan untuk melacak status alur kerja.
Contoh perintah dan output:gcloud beta dataproc workflow-templates instantiate my-template-id \ --region=us-central1 ... WorkflowTemplate [my-template-id] RUNNING ... Created cluster: my-template-id-rg544az7mpbfa. Job ID teragen-rg544az7mpbfa RUNNING Job ID teragen-rg544az7mpbfa COMPLETED Job ID terasort-rg544az7mpbfa RUNNING Job ID terasort-rg544az7mpbfa COMPLETED Job ID teravalidate-rg544az7mpbfa RUNNING Job ID teravalidate-rg544az7mpbfa COMPLETED ... Deleted cluster: my-template-id-rg544az7mpbfa. WorkflowTemplate [my-template-id] DONE
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.
Kegagalan tugas alur kerja
Kegagalan dalam tugas apa pun dalam alur kerja akan menyebabkan alur kerja gagal. Dataproc akan berupaya mengurangi efek kegagalan dengan menyebabkan semua tugas yang dieksekusi secara serentak gagal dan mencegah tugas berikutnya dimulai.
Memantau dan mencantumkan alur kerja
Untuk memantau alur kerja:
gcloud dataproc operations describeOPERATION_ID \ --region=REGION
Catatan: ID operasi ditampilkan saat Anda membuat instance alur kerja
dengan gcloud dataproc workflow-templates instantiate
(lihat
Menjalankan alur kerja).
Untuk mencantumkan status alur kerja:
gcloud dataproc operations list \ --region=REGION \ --filter="labels.goog-dataproc-operation-type=WORKFLOW AND status.state=RUNNING"
Untuk memantau alur kerja, gunakan Dataproc operations.get API.
Untuk mencantumkan alur kerja yang sedang berjalan, gunakan API operations.list Dataproc dengan filter label.
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.
Menghentikan alur kerja
Anda dapat mengakhiri alur kerja menggunakan Google Cloud CLI atau dengan memanggil Dataproc API.
gcloud dataproc operations cancelOPERATION_ID \ --region=REGION
gcloud dataproc workflow-templates instantiate
(lihat
Menjalankan alur kerja).
Lihat API operations.cancel.
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.
Memperbarui template alur kerja
Update tidak memengaruhi alur kerja yang sedang berjalan. Versi template baru hanya akan berlaku untuk alur kerja baru.
Template alur kerja dapat diperbarui dengan mengeluarkan perintah gcloud workflow-templates
baru yang mereferensikan ID template alur kerja yang ada:
Untuk melakukan pembaruan pada template dengan REST API:
- Panggil workflowTemplates.get, yang menampilkan template saat ini dengan kolom
version
diisi dengan versi server saat ini. - Lakukan pembaruan pada template yang diambil.
- Panggil workflowTemplates.update dengan template yang diperbarui.
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.
Menghapus template alur kerja
gcloud dataproc workflow-templates deleteTEMPLATE_ID \ --region=REGION
Catatan: ID operasi yang ditampilkan saat Anda membuat instance alur kerja
dengan gcloud dataproc workflow-templates instantiate
(lihat
Menjalankan alur kerja).
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.