Menggunakan pemilih cluster dengan alur kerja

Sebagai alternatif untuk menjalankan alur kerja di cluster terkelola, Anda dapat menggunakan pemilih cluster untuk memilih cluster yang ada untuk alur kerja Anda. Pada kesimpulan alur kerja, cluster yang dipilih tidak akan dihapus.

Pemilih menentukan satu atau beberapa label pengguna Dataproc. Cluster di region yang sama dengan alur kerja yang labelnya cocok dengan semua label pemilih memenuhi syarat untuk menjalankan tugas alur kerja. Jika beberapa cluster cocok dengan pemilih, Dataproc akan memilih cluster dengan memori YARN yang paling bebas.

Menambahkan pemilih cluster ke template

Anda dapat menambahkan pemilih cluster ke template alur kerja menggunakan Google Cloud CLI atau Dataproc API.

Perintah gcloud

gcloud dataproc workflow-templates set-cluster-selector template-id \
    --region=region \
    --cluster-labels=name=value[[,name=value]...]

REST API

Lihat WorkflowTemplatePlacement.ClusterSelector. Kolom ini disediakan sebagai bagian dari WorkflowTemplate yang telah selesai dan dikirimkan dengan permintaan workflowTemplates.create atau workflowTemplates.update.

Konsol

Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Dataproc di Konsol Google Cloud.

Menggunakan Label yang Diterapkan Secara Otomatis

Anda dapat mengarahkan pemilih cluster ke cluster yang ada menggunakan salah satu label cluster yang diterapkan secara otomatis berikut:

  • goog-dataproc-cluster-name
  • goog-dataproc-cluster-uuid

Contoh:

gcloud dataproc workflow-templates set-cluster-selector template-id \
    --region=region \
    --cluster-labels=goog-dataproc-cluster-name=my-cluster

Memilih dari Cluster Pool

Anda dapat mengizinkan Dataproc memilih cluster dari kumpulan cluster. Kumpulan cluster dapat ditentukan dengan label.

Contoh:

gcloud dataproc clusters create cluster-1 --labels cluster-pool=pool-1 \
    --region=region
gcloud dataproc clusters create cluster-2 --labels cluster-pool=pool-1 \
    --region=region
gcloud dataproc clusters create cluster-3 --labels cluster-pool=pool-2 \
    --region=region

Setelah pembuatan cluster ...

gcloud dataproc workflow-templates create my-template \
    --region=region
gcloud dataproc workflow-templates set-cluster-selector my-template \
    --region=region \
    --cluster-labels=cluster-pool=pool-1

Alur kerja akan dijalankan di cluster-1 atau cluster-2, tetapi tidak di cluster-3.