Anda menyiapkan dan menjalankan alur kerja dengan:
- Membuat template alur kerja
- Mengonfigurasi cluster terkelola (efemeral) atau memilih cluster yang ada
- Menambahkan tugas
- Membuat instance template untuk menjalankan alur kerja
Membuat template
gcloud CLI
Jalankan command
berikut untuk membuat resource template alur kerja Dataproc.
gcloud dataproc workflow-templates create TEMPLATE_ID \ --region=REGION
Catatan:
- REGION: Tentukan region tempat template Anda akan berjalan.
- TEMPLATE_ID: Berikan ID untuk template Anda, seperti, "workflow-template-1".
- Enkripsi CMEK. Anda dapat menambahkan tanda --kms-key untuk menggunakan enkripsi CMK pada argumen tugas template alur kerja.
REST API
Kirimkan WorkflowTemplate sebagai bagian dari permintaan workflowTemplates.create. Anda dapat menambahkan kolom WorkflowTemplate.EncryptionConfig.kmsKey untuk menggunakan enkripsi CMK pada argumen tugas template alur kerja. kmsKey
Konsol
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di konsol Google Cloud.
Mengonfigurasi atau memilih cluster
Dataproc dapat membuat dan menggunakan cluster baru yang "dikelola" untuk alur kerja Anda atau cluster yang ada.
Cluster yang ada: Lihat Menggunakan pemilih cluster dengan alur kerja untuk memilih cluster yang ada untuk alur kerja Anda.
Cluster terkelola: Anda harus mengonfigurasi cluster terkelola untuk alur kerja Anda. Dataproc akan membuat cluster baru ini untuk menjalankan tugas alur kerja, lalu menghapus cluster di akhir alur kerja.
Anda dapat mengonfigurasi cluster terkelola untuk alur kerja menggunakan alat command line
gcloud
atau Dataproc API.perintah gcloud
Gunakan flag yang diwarisi dari gcloud dataproc cluster create untuk mengonfigurasi cluster terkelola, seperti jumlah pekerja dan jenis mesin master dan pekerja. Dataproc akan menambahkan akhiran ke nama cluster untuk memastikan keunikan. Anda dapat menggunakan flag
--service-account
untuk menentukan akun layanan VM untuk cluster terkelola.gcloud dataproc workflow-templates set-managed-cluster TEMPLATE_ID \ --region=REGION \ --master-machine-type=MACHINE_TYPE \ --worker-machine-type=MACHINE_TYPE \ --num-workers=NUMBER \ --cluster-name=CLUSTER_NAME --service-account=SERVICE_ACCOUNT
REST API
Lihat WorkflowTemplatePlacement.ManagedCluster, yang dapat Anda berikan sebagai bagian dari WorkflowTemplate yang telah selesai dan dikirimkan dengan permintaan workflowTemplates.create atau workflowTemplates.update.
Anda dapat menggunakan kolom
GceClusterConfig.serviceAccount
untuk menentukan akun layanan VM untuk cluster terkelola.Konsol
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.
Menambahkan tugas ke template
Semua tugas berjalan secara serentak kecuali jika Anda menentukan satu atau beberapa dependensi tugas. Dependensi
tugas dinyatakan sebagai daftar tugas lain yang harus selesai
dengan sukses sebelum tugas akhir dapat dimulai. Anda harus menyediakan step-id
untuk setiap tugas. ID harus unik dalam alur kerja, tetapi tidak perlu unik secara global.
perintah gcloud
Gunakan jenis tugas dan flag yang diwarisi dari
gcloud dataproc jobs submit
untuk menentukan tugas yang akan ditambahkan ke template. Anda dapat menggunakan tanda
‑‑start-after job-id of another workflow job
secara opsional agar tugas dimulai setelah penyelesaian satu atau beberapa tugas lain
dalam alur kerja.
Contoh:
Tambahkan tugas Hadoop "foo" ke template "my-workflow".
gcloud dataproc workflow-templates add-job hadoop \ --region=REGION \ --step-id=foo \ --workflow-template=my-workflow \ -- space separated job args
Tambahkan tugas "bar" ke template "my-workflow", yang akan dijalankan setelah tugas alur kerja "foo" berhasil selesai.
gcloud dataproc workflow-templates add-job JOB_TYPE \ --region=REGION \ --step-id=bar \ --start-after=foo \ --workflow-template=my-workflow \ -- space separated job args
Tambahkan tugas lain "baz" ke template "my-workflow" yang akan dijalankan setelah tugas "foo" dan "bar" berhasil diselesaikan.
gcloud dataproc workflow-templates add-job JOB_TYPE \ --region=REGION \ --step-id=baz \ --start-after=foo,bar \ --workflow-template=my-workflow \ -- space separated job args
REST API
Lihat WorkflowTemplate.OrderedJob. Kolom ini disediakan sebagai bagian dari WorkflowTemplate yang telah selesai dan dikirimkan dengan permintaan workflowTemplates.create atau workflowTemplates.update.
Konsol
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.
Menjalankan alur kerja
Pembuatan instance template alur kerja menjalankan alur kerja yang ditentukan oleh template. Beberapa pembuatan instance template didukung—Anda dapat menjalankan alur kerja beberapa kali.
perintah gcloud
gcloud dataproc workflow-templates instantiate TEMPLATE_ID \ --region=REGION
Perintah ini menampilkan ID operasi, yang dapat Anda gunakan untuk melacak status alur kerja.
Contoh perintah dan output:gcloud beta dataproc workflow-templates instantiate my-template-id \ --region=us-central1 ... WorkflowTemplate [my-template-id] RUNNING ... Created cluster: my-template-id-rg544az7mpbfa. Job ID teragen-rg544az7mpbfa RUNNING Job ID teragen-rg544az7mpbfa COMPLETED Job ID terasort-rg544az7mpbfa RUNNING Job ID terasort-rg544az7mpbfa COMPLETED Job ID teravalidate-rg544az7mpbfa RUNNING Job ID teravalidate-rg544az7mpbfa COMPLETED ... Deleted cluster: my-template-id-rg544az7mpbfa. WorkflowTemplate [my-template-id] DONE
REST API
Lihat workflowTemplates.instantiate.Konsol
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.
Kegagalan tugas alur kerja
Kegagalan dalam tugas apa pun dalam alur kerja akan menyebabkan alur kerja gagal. Dataproc akan berupaya mengurangi efek kegagalan dengan menyebabkan semua tugas yang dieksekusi secara serentak gagal dan mencegah tugas berikutnya dimulai.
Memantau dan mencantumkan alur kerja
perintah gcloud
Untuk memantau alur kerja:
gcloud dataproc operations describe OPERATION_ID \ --region=REGION
Catatan: ID operasi ditampilkan saat Anda membuat instance alur kerja
dengan gcloud dataproc workflow-templates instantiate
(lihat
Menjalankan alur kerja).
Untuk mencantumkan status alur kerja:
gcloud dataproc operations list \ --region=REGION \ --filter="labels.goog-dataproc-operation-type=WORKFLOW AND status.state=RUNNING"
REST API
Untuk memantau alur kerja, gunakan Dataproc operations.get API.
Untuk mencantumkan alur kerja yang sedang berjalan, gunakan API operations.list Dataproc dengan filter label.
Konsol
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.
Menghentikan alur kerja
Anda dapat mengakhiri alur kerja menggunakan Google Cloud CLI atau dengan memanggil Dataproc API.
perintah gcloud
gcloud dataproc operations cancel OPERATION_ID \ --region=REGION
gcloud dataproc workflow-templates instantiate
(lihat
Menjalankan alur kerja).
REST API
Lihat API operations.cancel.
Konsol
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.
Memperbarui template alur kerja
Update tidak memengaruhi alur kerja yang sedang berjalan. Versi template baru hanya akan berlaku untuk alur kerja baru.
perintah gcloud
Template alur kerja dapat diperbarui dengan mengeluarkan perintah gcloud workflow-templates
baru yang mereferensikan ID template alur kerja yang ada:
REST API
Untuk melakukan pembaruan pada template dengan REST API:
- Panggil workflowTemplates.get, yang menampilkan template saat ini dengan kolom
version
diisi dengan versi server saat ini. - Lakukan pembaruan pada template yang diambil.
- Panggil workflowTemplates.update dengan template yang diperbarui.
Konsol
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.
Menghapus template alur kerja
perintah gcloud
gcloud dataproc workflow-templates delete TEMPLATE_ID \ --region=REGION
Catatan: ID operasi yang ditampilkan saat Anda membuat instance alur kerja
dengan gcloud dataproc workflow-templates instantiate
(lihat
Menjalankan alur kerja).
REST API
Lihat workflowTemplates.delete.Konsol
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.