Jenis mesin yang didukung

Cluster Dataproc dibuat pada instance Compute Engine. Jenis mesin menentukan resource hardware virtualisasi yang tersedia untuk instance. Compute Engine menawarkan jenis mesin yang telah ditetapkan dan jenis mesin kustom. Cluster Dataproc dapat menggunakan jenis yang telah ditetapkan dan kustom untuk node master dan/atau pekerja.

Cluster Dataproc mendukung jenis mesin Compute Engine yang telah ditetapkan berikut (ketersediaan jenis mesin bervariasi menurut region):

  • Jenis mesin tujuan umum, yang mencakup jenis mesin N1, N2, N2D, dan E2 (Dataproc juga mendukung jenis mesin kustom N1, N2, N2D, dan E2).

    Batasan:

    • jenis mesin n1-standard-1 tidak didukung untuk gambar 2.0+ (jenis mesin n1-standard-1 tidak direkomendasikan untuk gambar pra-2.0—sebagai gantinya, gunakan jenis mesin dengan memori yang lebih tinggi.
    • Jenis mesin dengan inti bersama tidak didukung, yang mencakup jenis mesin yang tidak didukung berikut:
      • E2: jenis mesin dengan inti bersama e2-micro, e2-small, dan e2-medium, dan
      • N1: jenis mesin dengan inti bersama f1-micro dan g1-small.
  • Jenis mesin yang dioptimalkan untuk komputasi, yang mencakup jenis mesin C2 dan C2D.
  • Jenis mesin yang dioptimalkan untuk memori, yang mencakup jenis mesin M1 dan M2.
  • Jenis mesin ARM, yang mencakup jenis mesin T2A.

Jenis mesin kustom

Dataproc mendukung jenis mesin kustom seri N1.

Jenis mesin kustom ideal untuk beban kerja berikut:

  • Beban kerja yang tidak sesuai untuk jenis mesin yang telah ditetapkan.
  • Beban kerja yang memerlukan daya pemrosesan lebih besar atau lebih banyak memori, tetapi tidak memerlukan semua upgrade yang disediakan oleh level jenis mesin berikutnya.

Misalnya, jika Anda memiliki beban kerja yang memerlukan daya pemrosesan lebih besar daripada yang disediakan oleh instance n1-standard-4, tetapi langkah selanjutnya, instance n1-standard-8, menyediakan terlalu banyak kapasitas. Dengan jenis mesin kustom, Anda dapat membuat cluster Dataproc dengan node master dan/atau worker dalam rentang menengah, dengan 6 CPU virtual dan memori sebesar 25 GB.

Menentukan jenis mesin kustom

Jenis mesin kustom menggunakan spesifikasi machine type khusus dan dapat dikenai batasan. Misalnya, spesifikasi jenis mesin kustom untuk VM kustom dengan 6 CPU virtual dan memori 22,5 GB adalah custom-6-23040.

Angka-angka dalam spesifikasi jenis mesin berkaitan dengan jumlah CPU virtual (vCPU) dalam mesin (6) dan jumlah memori (23040). Jumlah memori dihitung dengan mengalikan jumlah memori dalam gigabyte dengan 1024 (lihat Mengekspresikan memori dalam GB atau MB). Dalam contoh ini, 22,5 (GB) dikalikan dengan 1024: 22.5 * 1024 = 23040.

Anda menggunakan sintaksis di atas untuk menentukan jenis mesin kustom dengan cluster Anda. Anda dapat menetapkan jenis mesin untuk node master atau pekerja, atau keduanya saat membuat cluster. Jika Anda menetapkan keduanya, node master dapat menggunakan jenis mesin kustom yang berbeda dengan jenis mesin kustom yang digunakan oleh pekerja. Jenis mesin yang digunakan oleh pekerja sekunder mengikuti setelan untuk pekerja utama dan tidak dapat ditetapkan secara terpisah (lihat Pekerja sekunder - VM yang dapat dihentikan dan yang tidak dapat diakhiri).

Penetapan harga jenis mesin kustom

Harga jenis mesin kustom didasarkan pada resource yang digunakan pada mesin kustom. Harga Dataproc ditambahkan ke biaya resource komputasi, dan didasarkan pada jumlah total CPU virtual (vCPU) yang digunakan dalam cluster.

Membuat cluster Dataproc dengan jenis mesin yang telah ditentukan

Konsol

Dari panel Configure node pada halaman Create a cluster Dataproc di Google Cloud Console, pilih tipe, seri, dan jenis mesin untuk node master dan worker cluster.

Perintah gcloud

Jalankan perintah gcloud dataproc cluster create dengan tanda berikut untuk membuat cluster Dataproc dengan jenis mesin master dan/atau worker:

  • Tanda --master-machine-type machine-type memungkinkan Anda menetapkan jenis mesin yang telah ditentukan sebelumnya atau jenis mesin kustom yang digunakan oleh instance VM master di cluster Anda (atau instance master jika Anda membuat cluster HA)
  • Tanda --worker-machine-type custom-machine-type memungkinkan Anda menetapkan jenis mesin yang telah ditentukan sebelumnya atau jenis mesin kustom yang digunakan oleh instance VM pekerja di cluster Anda

Contoh:

gcloud dataproc clusters create test-cluster /
    --master-machine-type custom-6-23040 /
    --worker-machine-type custom-6-23040 /
    other args
Setelah cluster Dataproc dimulai, detail cluster akan ditampilkan di jendela terminal. Berikut adalah contoh sebagian daftar properti cluster yang ditampilkan di jendela terminal:
...
properties:
  distcp:mapreduce.map.java.opts: -Xmx1638m
  distcp:mapreduce.map.memory.mb: '2048'
  distcp:mapreduce.reduce.java.opts: -Xmx4915m
  distcp:mapreduce.reduce.memory.mb: '6144'
  mapred:mapreduce.map.cpu.vcores: '1'
  mapred:mapreduce.map.java.opts: -Xmx1638m
...

REST API

Untuk membuat cluster dengan jenis mesin kustom, tetapkan machineTypeUri pada masterConfig dan/atau workerConfig InstanceGroupConfig dalam permintaan cluster.create API.

Contoh:

POST /v1/projects/my-project-id/regions/is-central1/clusters/
{
  "projectId": "my-project-id",
  "clusterName": "test-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-a"
    },
    "masterConfig": {
      "numInstances": 1,
      "machineTypeUri": "n1-highmem-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    },
    "workerConfig": {
      "numInstances": 2,
      "machineTypeUri": "n1-highmem-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    }
  }
}

Membuat cluster Dataproc dengan jenis mesin kustom dengan memori yang diperluas

Dataproc mendukung jenis mesin kustom dengan memori yang diperluas melebihi batas 6,5 GB per vCPU (lihat Harga Memori yang Diperpanjang).

Konsol

Klik Extend memory saat menyesuaikan Memori jenis mesin di bagian Node master dan/atau node Pekerja dari panel Configure node di halaman Create a cluster Dataproc di Konsol Google Cloud.

Perintah gcloud

Untuk membuat cluster dari command line gcloud dengan CPU kustom dengan memori yang diperluas, tambahkan akhiran -ext ke flag ‑‑master-machine-type dan/atau ‑‑worker-machine-type.

Contoh

Contoh command line gcloud berikut membuat cluster Dataproc dengan 1 CPU dan memori 50 GB (50 * 1024 = 51200) di setiap node:

gcloud dataproc clusters create test-cluster /
    --master-machine-type custom-1-51200-ext /
    --worker-machine-type custom-1-51200-ext /
    other args

API

Contoh berikut Cuplikan JSON dari permintaan clusters.create Dataproc REST API menentukan 1 CPU dan memori 50 GB (50 * 1024 = 51200) di setiap node:

...
    "masterConfig": {
      "numInstances": 1,
      "machineTypeUri": "custom-1-51200-ext",
    ...
    },
    "workerConfig": {
      "numInstances": 2,
      "machineTypeUri": "custom-1-51200-ext",
     ...
...

Jenis mesin ARM

Dataproc mendukung pembuatan cluster dengan node yang menggunakan jenis mesin ARM, seperti jenis mesin T2A.

Persyaratan dan batasan:

  • Gambar Dataproc harus kompatibel dengan chipset ARM (saat ini, hanya image 2.1-ubuntu20-arm Dataproc yang kompatibel dengan ARM CHIPSET). Perhatikan bahwa image ini tidak mendukung banyak komponen tindakan inisialisasi dan opsional (lihat versi rilis 2.1.x).
  • Karena satu gambar harus ditentukan untuk sebuah cluster, node master, pekerja, dan pekerja sekunder harus menggunakan jenis mesin ARM yang kompatibel dengan gambar ARM Dataproc yang dipilih.
  • Fitur Dataproc yang tidak kompatibel dengan jenis mesin ARM tidak tersedia (misalnya, SSD lokal tidak didukung oleh jenis mesin T2A).

Membuat cluster Dataproc dengan jenis mesin ARM

Konsol

Saat ini, Google Cloud Console tidak mendukung pembuatan cluster jenis mesin Dataproc ARM.

gcloud

Untuk membuat cluster Dataproc yang menggunakan jenis mesin t2a-standard-4 ARM, jalankan perintah gcloud berikut secara lokal di jendela terminal atau di Cloud Shell.

gcloud dataproc clusters create cluster-name \
    --region=REGION \
    --image-version=2.1-ubuntu20-arm \
    --master-machine-type=t2a-standard-4 \
    --worker-machine-type=t2a-standard-4

Catatan:

  • REGION: Region tempat cluster akan berada.

  • Image ARM tersedia mulai dari 2.1.18-ubuntu20-arm.

  • Baca dokumentasi referensi gcloud dataproc cluster create untuk mengetahui informasi tentang tanda command line tambahan yang dapat digunakan untuk menyesuaikan cluster Anda.

  • *-arm images hanya mendukung komponen yang diinstal dan komponen opsional berikut yang tercantum di halaman versi rilis 2.1.x (komponen opsional 2.1 yang tersisa dan semua tindakan inisialisasi` yang tercantum di halaman tersebut tidak didukung):

    • Apache Hive WebHCat
    • Docker
    • Zookeeper (diinstal di cluster HA; komponen opsional di cluster non-HA)

API

Contoh permintaan clusters.create Dataproc REST API Dataproc berikut membuat cluster jenis mesin ARM.

POST /v1/projects/my-project-id/regions/is-central1/clusters/
{
  "projectId": "my-project-id",
  "clusterName": "sample-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-a"
    },
    "masterConfig": {
      "numInstances": 1,
      "machineTypeUri": "t2a-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
      }
    },
    "workerConfig": {
      "numInstances": 2,
      "machineTypeUri": "t2a-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    },
    "softwareConfig": {
      "imageVersion": "2.1-ubuntu20-arm"
    }
  }
}

Untuk informasi selengkapnya