Membuat cluster Dataproc menggunakan gcloud CLI
Halaman ini menunjukkan cara menggunakan alat command line Google Cloud CLI gcloud untuk membuat cluster Google Cloud Dataproc, menjalankan tugas Apache Spark sederhana di cluster, lalu mengubah jumlah pekerja dalam cluster.
Anda dapat mengetahui cara melakukan tugas yang sama atau serupa dengan Panduan Memulai Menggunakan API Explorer, Konsol Google Cloud di Membuat cluster Dataproc menggunakan Konsol Google Cloud, dan menggunakan Library Klien di Membuat cluster Dataproc menggunakan library klien.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Membuat cluster
Jalankan perintah berikut untuk membuat cluster bernama example-cluster
.
Lihat Region & zona yang tersedia
untuk mengetahui informasi tentang cara memilih region (Anda juga dapat menjalankan
perintah gcloud compute regions list
untuk melihat listingan region yang tersedia).
Lihat juga Endpoint regional
untuk mempelajari endpoint regional.
gcloud dataproc clusters create example-cluster --region=region
Pembuatan cluster dikonfirmasi dalam output perintah:
... Waiting for cluster creation operation...done. Created [... example-cluster]
Mengirim tugas
Untuk mengirimkan contoh tugas Spark yang menghitung nilai kasar untuk pi, jalankan perintah berikut:
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=region \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
Perintah ini menentukan:
- Bahwa Anda ingin menjalankan tugas
spark
di clusterexample-cluster
di region yang ditentukan class
yang berisi metode utama untuk aplikasi penghitung pi tugas- Lokasi file jar yang berisi kode tugas Anda
- Parameter apa pun yang ingin Anda teruskan ke tugas—dalam hal ini jumlah
tugas, yang berjumlah
1000
Tugas sedang berjalan dan output terakhir ditampilkan di jendela terminal:
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
Mengupdate cluster
Untuk mengubah jumlah pekerja di cluster menjadi lima, jalankan perintah berikut:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 5
Detail cluster Anda ditampilkan di output perintah:
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
Anda dapat menggunakan perintah yang sama untuk mengurangi jumlah node pekerja ke nilai awal:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 2
Pembersihan
Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
- Jalankan
clusters delete
untuk menghapus cluster contoh Anda. Anda akan diminta untuk mengonfirmasi bahwa Anda ingin menghapus cluster. Ketikgcloud dataproc clusters delete example-cluster \ --region=region
y
untuk menyelesaikan penghapusan.
Langkah selanjutnya
- Pelajari cara menulis dan menjalankan tugas Spark Scala.