Halaman ini diterjemahkan oleh Cloud Translation API.

Membuat cluster parsial Dataproc

Untuk mengurangi efek tidak tersedianya VM yang ditentukan pengguna di region tertentu pada waktu tertentu (kekurangan stok), Dataproc memungkinkan Anda meminta pembuatan partial cluster dengan menentukan jumlah minimum pekerja utama yang dapat diterima untuk mengizinkan pembuatan cluster.

Cluster standar	Cluster parsial
Jika satu atau beberapa pekerja utama tidak dapat dibuat dan diinisialisasi, pembuatan cluster akan gagal. Pekerja yang dibuat akan terus berjalan dan dikenai biaya hingga dihapus oleh pengguna.	Jika jumlah minimum pekerja yang ditentukan dapat dibuat, cluster akan dibuat. Pekerja yang gagal (belum diinisialisasi) akan dihapus dan tidak dikenai biaya. Jika jumlah minimum pekerja yang ditentukan tidak dapat dibuat dan diinisialisasi, cluster tidak akan dibuat. Pekerja yang dibuat tidak dihapus untuk memungkinkan proses debug.
Waktu pembuatan cluster dioptimalkan.	Waktu pembuatan cluster yang lebih lama dapat terjadi karena semua node harus melaporkan status penyediaan.
Cluster node tunggal tersedia untuk dibuat.	Cluster node tunggal tidak tersedia untuk dibuat.

Penskalaan otomatis

Gunakan autoscaling dengan pembuatan cluster parsial untuk memastikan bahwa jumlah target (penuh) pekerja utama dibuat. Penskalaan otomatis akan mencoba mendapatkan pekerja yang gagal di latar belakang jika workload memerlukannya.

Berikut adalah contoh kebijakan penskalaan otomatis yang mencoba lagi hingga jumlah total instance pekerja utama mencapai ukuran target 10. minInstances dan maxInstances kebijakan cocok dengan jumlah minimum dan total pekerja utama yang ditentukan pada waktu pembuatan cluster (lihat Membuat cluster parsial). Menetapkan scaleDownFactor ke 0 akan mencegah cluster menurunkan skala dari 10 menjadi 8, dan akan membantu mempertahankan jumlah pekerja pada batas maksimum 10 pekerja.

workerConfig:
  minInstances: 8
  maxInstances: 10
basicAlgorithm:
  cooldownPeriod: 2m
  yarnConfig:
    scaleUpFactor: 1
    scaleDownFactor: 0
    gracefulDecommissionTimeout: 1h

Membuat cluster parsial

Anda dapat menggunakan Google Cloud CLI atau Dataproc API untuk membuat cluster parsial Dataproc.

gcloud

Untuk membuat cluster parsial Dataproc di command line, jalankan perintah gcloud dataproc clusters create berikut secara lokal di jendela terminal atau di Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --project=PROJECT \
    --region=REGION \
    --num-workers=NUM_WORKERS \
    --min-num-workers=MIN_NUM_WORKERS \
    other args ...

Ganti kode berikut:

CLUSTER_NAME: Nama cluster harus dimulai dengan huruf kecil, diikuti dengan maksimal 51 huruf kecil, angka, dan tanda hubung, serta tidak boleh diakhiri dengan tanda hubung.
PROJECT: Tentukan project yang terkait dengan cluster tugas.
REGION: Tentukan region Compute Engine tempat cluster tugas akan berada.
NUM_WORKERS: Jumlah total pekerja utama dalam cluster yang akan dibuat jika tersedia.
MIN_NUM_WORKERS: Jumlah minimum pekerja utama yang akan dibuat jika jumlah total pekerja yang ditentukan (NUM_WORKERS) tidak dapat dibuat. Pembuatan cluster gagal jika jumlah minimum pekerja primer ini tidak dapat dibuat (pekerja yang dibuat tidak dihapus untuk memungkinkan proses debug). Jika tanda ini dihilangkan, pembuatan cluster standar dengan jumlah total pekerja utama (NUM_WORKERS) akan dicoba.

REST

Untuk membuat cluster parsial Dataproc, tentukan jumlah minimum pekerja utama di kolom workerConfig.minNumInstances sebagai bagian dari permintaan clusters.create.

Menampilkan jumlah pekerja yang disediakan

Setelah membuat cluster, Anda dapat menjalankan perintah gcloud CLI berikut untuk mencantumkan jumlah pekerja, termasuk pekerja sekunder, yang disediakan di cluster Anda.

gcloud dataproc clusters list \
    --project=PROJECT \
    --region=REGION \
    --filter=clusterName=CLUSTER_NAME