Cluster Dataproc dibuat di instance Compute Engine. Jenis mesin menentukan resource hardware virtual yang tersedia untuk instance. Compute Engine menawarkan jenis mesin yang telah ditetapkan dan jenis mesin kustom. Cluster Dataproc dapat menggunakan jenis standar dan kustom untuk node master dan/atau pekerja.
Cluster Dataproc mendukung jenis mesin standar Compute Engine berikut (ketersediaan jenis mesin bervariasi menurut region):
- Jenis mesin untuk tujuan umum,
yang mencakup jenis mesin N1, N2, N2D, E2, C3, C4, dan N4 (Dataproc
juga mendukung jenis mesin kustom N1, N2, N2D, E2, C3, C4, dan N4).
Batasan:
- jenis mesin n1-standard-1 tidak didukung untuk image 2.0+ (jenis mesin n1-standard-1 tidak direkomendasikan untuk image pre-2.0 —sebagai gantinya, gunakan jenis mesin dengan memori yang lebih tinggi).
- Jenis mesin dengan inti bersama tidak didukung, yang
mencakup jenis mesin berikut yang tidak didukung:
- E2: jenis mesin dengan inti bersama e2-micro, e2-small, dan e2-medium, dan
- N1: jenis mesin dengan inti bersama f1-micro dan g1-small.
- Dataproc memilih
hyperdisk-balanced
sebagai jenis disk booting jika jenis mesinnya adalah C4 atau N4.
- Jenis mesin yang dioptimalkan untuk komputasi, yang mencakup jenis mesin C2 dan C2D.
- Jenis mesin yang dioptimalkan untuk memori, yang mencakup jenis mesin M1 dan M2.
- Jenis mesin ARM, yang mencakup jenis mesin C4A.
Jenis mesin kustom
Dataproc mendukung jenis mesin kustom seri N1.
Jenis mesin kustom ideal untuk beban kerja berikut:
- Workload yang tidak sesuai untuk jenis mesin yang telah ditetapkan.
- Workload yang memerlukan daya pemrosesan atau memori lebih besar, tetapi tidak memerlukan semua upgrade yang disediakan oleh tingkat jenis mesin berikutnya.
Misalnya, jika Anda memiliki beban kerja yang memerlukan lebih banyak daya pemrosesan daripada yang disediakan oleh instance n1-standard-4
, tetapi langkah berikutnya, instance n1-standard-8
, menyediakan terlalu banyak kapasitas. Dengan jenis mesin kustom, Anda dapat membuat cluster Dataproc dengan node master dan/atau pekerja dalam rentang tengah, dengan 6 CPU virtual dan memori 25 GB.
Menentukan jenis mesin kustom
Jenis mesin kustom menggunakan spesifikasi machine type
khusus dan tunduk pada batasan. Misalnya,
spesifikasi jenis mesin kustom untuk VM kustom dengan 6 CPU virtual dan
memori 22,5 GB adalah custom-6-23040
.
Angka dalam spesifikasi jenis mesin sesuai dengan jumlah CPU virtual
(vCPU) dalam mesin (6
) dan jumlah memori (23040
).
Jumlah memori dihitung dengan mengalikan jumlah memori dalam
gigabyte dengan 1024
(lihat
Mengekspresikan memori dalam GB atau MB). Dalam contoh ini, 22,5 (GB) dikalikan dengan 1024: 22.5 * 1024 = 23040
.
Anda menggunakan sintaksis di atas untuk menentukan jenis mesin kustom dengan cluster Anda. Anda dapat menetapkan jenis mesin untuk node master atau pekerja atau keduanya saat membuat cluster. Jika Anda menetapkan keduanya, node master dapat menggunakan jenis mesin kustom yang berbeda dari jenis mesin kustom yang digunakan oleh pekerja. Jenis mesin yang digunakan oleh pekerja sekunder mengikuti setelan untuk pekerja utama dan tidak dapat ditetapkan secara terpisah (lihat Pekerja sekunder - VM preemptible dan non-preemptible).
Harga jenis mesin kustom
Harga jenis mesin kustom didasarkan pada resource yang digunakan di mesin kustom. Harga Dataproc ditambahkan ke biaya resource komputasi, dan didasarkan pada jumlah total CPU virtual (vCPU) yang digunakan dalam cluster.
Membuat cluster Dataproc dengan jenis mesin yang ditentukan
Konsol
Dari panel Configure nodes di halaman Create a cluster Dataproc di konsol Google Cloud, pilih kelompok, seri, dan jenis mesin untuk node master dan pekerja cluster.
perintah gcloud
Jalankan perintah gcloud dataproc clusters create dengan flag berikut untuk membuat cluster Dataproc dengan jenis mesin master dan/atau pekerja:
- Flag
--master-machine-type machine-type
memungkinkan Anda menetapkan jenis mesin standar atau kustom yang digunakan oleh instance VM master di cluster (atau instance master jika Anda membuat cluster HA) - Flag
--worker-machine-type custom-machine-type
memungkinkan Anda menetapkan jenis mesin yang telah ditetapkan atau kustom yang digunakan oleh instance VM pekerja di cluster
Contoh:
gcloud dataproc clusters create test-cluster / --master-machine-type custom-6-23040 / --worker-machine-type custom-6-23040 / other args
... properties: distcp:mapreduce.map.java.opts: -Xmx1638m distcp:mapreduce.map.memory.mb: '2048' distcp:mapreduce.reduce.java.opts: -Xmx4915m distcp:mapreduce.reduce.memory.mb: '6144' mapred:mapreduce.map.cpu.vcores: '1' mapred:mapreduce.map.java.opts: -Xmx1638m ...
REST API
Untuk membuat cluster dengan jenis mesin kustom, tetapkan
machineTypeUri
di masterConfig
dan/atau workerConfig
InstanceGroupConfig
dalam
cluster.create
permintaan API.
Contoh:
POST /v1/projects/my-project-id/regions/is-central1/clusters/ { "projectId": "my-project-id", "clusterName": "test-cluster", "config": { "configBucket": "", "gceClusterConfig": { "subnetworkUri": "default", "zoneUri": "us-central1-a" }, "masterConfig": { "numInstances": 1, "machineTypeUri": "n1-highmem-4", "diskConfig": { "bootDiskSizeGb": 500, "numLocalSsds": 0 } }, "workerConfig": { "numInstances": 2, "machineTypeUri": "n1-highmem-4", "diskConfig": { "bootDiskSizeGb": 500, "numLocalSsds": 0 } } } }
Membuat cluster Dataproc dengan jenis mesin kustom dengan memori yang diperluas
Dataproc mendukung jenis mesin kustom dengan memori tambahan di luar batas 6,5 GB per vCPU (lihat Harga Memori Tambahan).
Konsol
Klik Extend memory saat menyesuaikan memori Machine type di bagian Master node dan/atau Worker nodes dari panel Configure nodes di halaman Dataproc Create a cluster di konsol Google Cloud.

Perintah gcloud
Untuk membuat cluster dari command line gcloud dengan
CPU kustom dengan memori yang diperluas, tambahkan akhiran -ext
ke
flag ‑‑master-machine-type
dan/atau
‑‑worker-machine-type
.
Contoh
Contoh command line gcloud berikut membuat cluster Dataproc dengan 1 CPU dan memori 50 GB (50 * 1024 = 51200) di setiap node:
gcloud dataproc clusters create test-cluster / --master-machine-type custom-1-51200-ext / --worker-machine-type custom-1-51200-ext / other args
API
Contoh berikut <code.instancegroupconfig< code="" dir="ltr" translate="no"></code.instancegroupconfig<> cuplikan JSON dari permintaan clusters.create Dataproc REST API menentukan 1 CPU dan memori 50 GB (50 * 1024 = 51200) di setiap node:
... "masterConfig": { "numInstances": 1, "machineTypeUri": "custom-1-51200-ext", ... }, "workerConfig": { "numInstances": 2, "machineTypeUri": "custom-1-51200-ext", ... ...
Jenis mesin ARM
Dataproc mendukung pembuatan cluster dengan node yang menggunakan jenis mesin ARM, seperti jenis mesin C4A.
Persyaratan dan batasan:
- Image Dataproc harus kompatibel dengan chipset ARM (saat ini, hanya image Dataproc 2.1-ubuntu20-arm yang kompatibel dengan CHIPSET ARM). Perhatikan bahwa image ini tidak mendukung banyak komponen tindakan awal dan opsional (lihat versi rilis 2.1.x).
- Karena satu image harus ditentukan untuk cluster, node master, pekerja, dan pekerja sekunder harus menggunakan jenis mesin ARM yang kompatibel dengan image ARM Dataproc yang dipilih.
- Fitur Dataproc yang tidak kompatibel dengan jenis mesin ARM tidak tersedia (misalnya, SSD lokal tidak didukung oleh jenis mesin C4A).
Membuat cluster Dataproc dengan jenis mesin ARM
Konsol
Saat ini, konsol Google Cloud tidak mendukung pembuatan cluster jenis mesin ARM Dataproc.
gcloud
Untuk membuat cluster Dataproc yang menggunakan jenis mesin c4a-standard-4
ARM, jalankan perintah gcloud
berikut secara lokal di jendela terminal atau di Cloud Shell.
gcloud dataproc clusters create cluster-name \ --region=REGION \ --image-version=2.1-ubuntu20-arm \ --master-machine-type=c4a-standard-4 \ --worker-machine-type=c4a-standard-4
Catatan:
REGION: Region tempat cluster akan berada.
Image ARM tersedia mulai dari
2.1.18-ubuntu20-arm
.Lihat dokumentasi referensi gcloud dataproc clusters create untuk mengetahui informasi tentang flag command line tambahan yang dapat Anda gunakan untuk menyesuaikan cluster.
*-arm images
hanya mendukung komponen yang diinstal dan komponen opsional berikut yang tercantum di halaman versi rilis 2.1.x (komponen opsional 2.1 lainnya dan semua tindakan inisialisasi yang tercantum di halaman tersebut tidak didukung):- Apache Hive WebHCat
- Docker
- Zookeeper (diinstal di cluster HA; komponen opsional di cluster non-HA)
API
Contoh permintaan clusters.create Dataproc REST API berikut membuat cluster jenis mesin ARM.
POST /v1/projects/my-project-id/regions/is-central1/clusters/ { "projectId": "my-project-id", "clusterName": "sample-cluster", "config": { "configBucket": "", "gceClusterConfig": { "subnetworkUri": "default", "zoneUri": "us-central1-a" }, "masterConfig": { "numInstances": 1, "machineTypeUri": "c4a-standard-4", "diskConfig": { "bootDiskSizeGb": 500, } }, "workerConfig": { "numInstances": 2, "machineTypeUri": "c4a-standard-4", "diskConfig": { "bootDiskSizeGb": 500, "numLocalSsds": 0 } }, "softwareConfig": { "imageVersion": "2.1-ubuntu20-arm" } } }
Untuk informasi selengkapnya
- Lihat VM Arm di Compute
- Lihat Membuat VM dengan jenis mesin kustom.
- Lihat Membuat dan memulai instance Compute Engine.