Untuk mengurangi efek ketidaktersediaan VM yang ditentukan pengguna di region tertentu pada waktu tertentu (kehabisan stok), Dataproc memungkinkan Anda meminta pembuatan partial cluster
dengan menentukan jumlah minimum pekerja utama yang dapat diterima untuk mengizinkan pembuatan cluster.
Cluster standar | Cluster sebagian |
---|---|
Jika satu atau beberapa pekerja utama tidak dapat dibuat dan diinisialisasi, pembuatan cluster akan gagal. Pekerja yang dibuat akan terus berjalan dan dikenai biaya hingga dihapus oleh pengguna. | Jika jumlah minimum pekerja yang ditentukan dapat dibuat, cluster akan dibuat. Pekerja yang gagal (tidak diinisialisasi) akan dihapus dan tidak dikenai biaya. Jika jumlah minimum pekerja yang ditentukan tidak dapat dibuat dan diinisialisasi, cluster tidak akan dibuat. Pekerja yang dibuat tidak dihapus untuk memungkinkan proses debug. |
Waktu pembuatan cluster dioptimalkan. | Waktu pembuatan cluster yang lebih lama dapat terjadi karena semua node harus melaporkan status penyediaan. |
Cluster node tunggal tersedia untuk dibuat. | Cluster node tunggal tidak tersedia untuk pembuatan. |
Penskalaan Otomatis:
Gunakan penskalaan otomatis dengan pembuatan cluster sebagian untuk membantu memastikan bahwa jumlah pekerja utama target (penuh) telah dibuat. Penskalaan otomatis akan mencoba memperoleh pekerja yang gagal di latar belakang jika workload memerlukannya.
Berikut adalah contoh kebijakan penskalaan otomatis yang mencoba lagi hingga jumlah total instance pekerja utama mencapai ukuran target 10.
minInstances
dan maxInstances
kebijakan cocok dengan jumlah minimum dan total pekerja primer yang ditentukan pada waktu pembuatan cluster (lihat Cara membuat cluster parsial).
Menetapkan scaleDownFactor
ke 0 akan mencegah cluster menskalakan ke bawah
dari 10 menjadi 8, dan akan membantu menjaga jumlah pekerja pada batas maksimum pekerja
10.
workerConfig:
minInstances: 8
maxInstances: 10
basicAlgorithm:
cooldownPeriod: 2m
yarnConfig:
scaleUpFactor: 1
scaleDownFactor: 0
gracefulDecommissionTimeout: 1h
Cara membuat cluster parsial
Anda dapat menggunakan Google Cloud CLI atau Dataproc API untuk membuat cluster parsial Dataproc.
gcloud
Untuk membuat cluster parsial Dataproc di command line, jalankan perintah gcloud dataproc clusters create
berikut secara lokal di jendela terminal atau di Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --project=PROJECT \ --region=REGION \ --num-workers=NUM_WORKERS \ --min-num-workers=MIN_NUM_WORKERS \ other args ...
- CLUSTER_NAME: Nama cluster harus dimulai dengan huruf kecil, diikuti dengan maksimal 51 huruf kecil, angka, dan tanda hubung, dan tidak boleh diakhiri dengan tanda hubung.
- PROJECT: Menentukan project yang terkait dengan cluster tugas.
- REGION: Tentukan region Compute Engine tempat cluster tugas akan berada.
- NUM_WORKERS: Jumlah total pekerja utama dalam cluster yang akan dibuat jika tersedia.
- MIN_NUM_WORKERS: Jumlah minimum pekerja utama yang akan dibuat
jika jumlah total pekerja yang ditentukan (
NUM_WORKERS
) tidak dapat dibuat. Pembuatan cluster akan gagal jika jumlah minimum pekerja utama ini tidak dapat dibuat (pekerja yang dibuat tidak akan dihapus untuk memungkinkan proses debug). Jika tanda ini dihilangkan, pembuatan cluster standar dengan jumlah total pekerja utama (NUM_WORKERS
) akan dicoba.
REST
Untuk membuat cluster parsial Dataproc, tentukan jumlah minimum pekerja utama di kolom
workerConfig.minNumInstances
sebagai bagian dari permintaan clusters.create.
Menampilkan jumlah pekerja yang disediakan
Setelah membuat cluster, Anda dapat menjalankan perintah gcloud CLI berikut untuk mencantumkan jumlah pekerja, termasuk pekerja sekunder, yang disediakan di cluster Anda.
gcloud dataproc clusters list \ --project=PROJECT \ --region=REGION \ --filter=clusterName=CLUSTER_NAME