Membuat cluster Dataproc menggunakan gcloud CLI

Halaman ini menunjukkan cara menggunakan alat command line gcloud Google Cloud CLI untuk membuat cluster Google Cloud Dataproc, menjalankan tugas Apache Spark sederhana di cluster, lalu mengubah jumlah pekerja dalam cluster.

Anda dapat mengetahui cara melakukan tugas yang sama atau serupa dengan Panduan Memulai Menggunakan API Explorer, konsol Google Cloud di bagian Membuat cluster Dataproc dengan menggunakan Google Cloud Console, dan menggunakan Library Klien di Membuat cluster Dataproc dengan menggunakan library klien.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Enable the Dataproc API.

    Enable the API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Enable the Dataproc API.

    Enable the API

Membuat cluster

Jalankan perintah berikut untuk membuat cluster bernama example-cluster. Lihat Region & zona yang tersedia untuk mengetahui informasi tentang cara memilih region (Anda juga dapat menjalankan perintah gcloud compute regions list untuk melihat listingan region yang tersedia). Lihat juga Endpoint regional untuk mempelajari endpoint regional.

gcloud dataproc clusters create example-cluster --region=region

Pembuatan cluster dikonfirmasi dalam output perintah:

...
Waiting for cluster creation operation...done.
Created [... example-cluster]

Mengirim tugas

Untuk mengirimkan contoh tugas Spark yang menghitung nilai kasar untuk pi, jalankan perintah berikut:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Perintah ini menentukan:

  • Bahwa Anda ingin menjalankan tugas spark pada cluster example-cluster di region yang ditentukan
  • class yang berisi metode utama untuk aplikasi penghitungan pi tugas
  • Lokasi file jar yang berisi kode tugas Anda
  • Setiap parameter yang ingin Anda teruskan ke tugas—dalam hal ini jumlah tugas, yaitu 1000

Tugas sedang berjalan dan output terakhir ditampilkan di jendela terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Mengupdate cluster

Untuk mengubah jumlah pekerja di cluster menjadi lima, jalankan perintah berikut:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 5

Detail cluster Anda ditampilkan di output perintah:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Anda dapat menggunakan perintah yang sama untuk mengurangi jumlah node pekerja ke nilai asli:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 2

Pembersihan

Agar akun Google Cloud Anda tidak dikenakan biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

  • Jalankan clusters delete untuk menghapus cluster contoh Anda.
    gcloud dataproc clusters delete example-cluster \
        --region=region
    
    Anda akan diminta untuk mengonfirmasi bahwa Anda ingin menghapus cluster. Ketik y untuk menyelesaikan penghapusan.

Langkah selanjutnya