Membuat cluster parsial

Untuk mengurangi dampak tidak tersedianya VM yang ditentukan pengguna di region tertentu pada waktu tertentu (stok habis), Dataproc memungkinkan Anda meminta pembuatan partial cluster dengan menentukan jumlah minimum pekerja utama yang dapat diterima untuk mengizinkan pembuatan cluster.

Cluster standar Cluster sebagian
Jika satu atau beberapa pekerja utama tidak dapat dibuat dan diinisialisasi, pembuatan cluster akan gagal. Pekerja yang dibuat akan terus berjalan dan dikenai biaya hingga dihapus oleh pengguna. Jika jumlah minimum pekerja yang ditentukan dapat dibuat, cluster akan dibuat. Pekerja yang gagal (tidak diinisialisasi) akan dihapus dan tidak dikenai biaya. Jika jumlah minimum pekerja yang ditentukan tidak dapat dibuat dan diinisialisasi, cluster tidak akan dibuat. Pekerja yang dibuat tidak dihapus untuk memungkinkan proses debug.
Waktu pembuatan cluster dioptimalkan. Waktu pembuatan cluster yang lebih lama dapat terjadi karena semua node harus melaporkan status penyediaan.
Cluster node tunggal tersedia untuk dibuat. Cluster node tunggal tidak tersedia untuk dibuat.

Penskalaan Otomatis:

Gunakan penskalaan otomatis dengan pembuatan cluster parsial untuk membantu memastikan bahwa target (penuh) jumlah pekerja utama telah dibuat. Penskalaan otomatis akan mencoba mendapatkan pekerja yang gagal di latar belakang jika beban kerja memerlukannya.

Berikut adalah contoh kebijakan penskalaan otomatis yang melakukan percobaan ulang sampai jumlah total instance pekerja utama mencapai ukuran target 10. minInstances dan maxInstances kebijakan cocok dengan jumlah minimum dan total pekerja utama yang ditentukan pada waktu pembuatan cluster (lihat Cara membuat cluster parsial). Menetapkan scaleDownFactor ke 0 akan mencegah cluster diturunkan dari 10 menjadi 8, dan akan membantu menjaga jumlah pekerja tetap pada batas maksimum 10 pekerja.

workerConfig:
  minInstances: 8
  maxInstances: 10
basicAlgorithm:
  cooldownPeriod: 2m
  yarnConfig:
    scaleUpFactor: 1
    scaleDownFactor: 0
    gracefulDecommissionTimeout: 1h

Cara membuat cluster parsial

Anda dapat menggunakan Google Cloud CLI atau Dataproc API untuk membuat cluster parsial Dataproc.

gcloud

Untuk membuat cluster parsial Dataproc pada command line, jalankan perintah gcloud dataproc clusters create berikut secara lokal di jendela terminal atau di Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --project=PROJECT \
    --region=REGION \
    --num-workers=NUM_WORKERS \
    --min-num-workers=MIN_NUM_WORKERS \
    other args ...
  • CLUSTER_NAME: Nama cluster harus dimulai dengan huruf kecil yang diikuti dengan maksimal 51 huruf kecil, angka, dan tanda hubung, serta tidak boleh diakhiri dengan tanda hubung.
  • PROJECT: Menentukan project yang terkait dengan cluster tugas.
  • REGION: Menentukan region Compute Engine tempat cluster tugas akan berada.
  • NUM_WORKERS: Jumlah total pekerja utama dalam cluster yang akan dibuat jika tersedia.
  • MIN_NUM_WORKERS: Jumlah minimum pekerja utama yang akan dibuat jika jumlah total pekerja yang ditentukan (NUM_WORKERS) tidak dapat dibuat. Pembuatan cluster akan gagal jika jumlah minimum pekerja utama ini tidak dapat dibuat (pekerja yang dibuat tidak dihapus untuk memungkinkan proses debug). Jika tanda ini dihilangkan, pembuatan cluster standar dengan jumlah total pekerja utama (NUM_WORKERS) akan dicoba.

REST

Untuk membuat cluster parsial Dataproc, tentukan jumlah minimum pekerja utama di kolom workerConfig.minNumInstances sebagai bagian dari permintaan clusters.create.

Menampilkan jumlah pekerja yang disediakan

Setelah membuat cluster, Anda dapat menjalankan perintah gcloud CLI berikut untuk menampilkan daftar jumlah pekerja, termasuk pekerja sekunder, yang disediakan di cluster Anda.

gcloud dataproc clusters list \
    --project=PROJECT \
    --region=REGION \
    --filter=clusterName=CLUSTER_NAME