Membuat cluster Dataproc menggunakan konsol Google Cloud
Halaman ini menunjukkan cara menggunakan konsol Google Cloud untuk membuat cluster Dataproc, menjalankan tugas Apache Spark dasar di cluster, lalu mengubah jumlah pekerja dalam cluster.
Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Membuat cluster
Di konsol Google Cloud, buka halaman Cluster Dataproc.
Klik Buat kluster.
Dalam dialog Create Dataproc cluster, klik Create di baris Cluster on Compute engine.
Di kolom Cluster Name, masukkan
example-cluster
.Dalam daftar Region dan Zone, pilih region dan zona.
Pilih region (misalnya,
us-east1
ataueurope-west1
) untuk mengisolasi resource, seperti instance virtual machine (VM) dan Cloud Storage serta lokasi penyimpanan metadata yang digunakan oleh Dataproc, di region tersebut. Untuk informasi selengkapnya, lihat Region dan zona yang tersedia serta Endpoint regional.Untuk semua opsi lainnya, gunakan setelan default.
Untuk membuat cluster, klik Create.
Cluster baru Anda akan muncul dalam daftar di halaman Clusters. Statusnya adalah Provisioning hingga cluster siap digunakan, lalu statusnya berubah menjadi Running. Penyediaan cluster mungkin memerlukan waktu beberapa menit.
Mengirim tugas Spark
Kirim tugas Spark yang memperkirakan nilai Pi:
- Di menu navigasi Dataproc, klik Jobs.
Di halaman Jobs, klik
Submit job, lalu lakukan hal berikut:- Di kolom Cluster, klik Browse.
- Di baris untuk
example-cluster
, klik Select. - Di kolom ID Tugas, gunakan setelan default, atau berikan ID yang unik untuk project Google Cloud Anda.
- Untuk Job type, pilih Spark.
- Di kolom Main class or jar, masukkan
org.apache.spark.examples.SparkPi
. - Di kolom File jar, masukkan
file:///usr/lib/spark/examples/jars/spark-examples.jar
. Di kolom Arguments, masukkan
1000
untuk menetapkan jumlah tugas.Klik Kirim.
Tugas Anda akan ditampilkan di halaman Detail tugas. Status tugas adalah Running atau Starting, lalu berubah menjadi Succeeded setelah dikirim.
Untuk menghindari scroll dalam output, klik Line wrap: off. Outputnya mirip dengan yang berikut ini:
Pi is roughly 3.1416759514167594
Untuk melihat detail tugas, klik tab Konfigurasi.
Mengupdate cluster
Perbarui cluster dengan mengubah jumlah instance pekerja:
- Di menu navigasi, klik Clusters.
- Di daftar cluster, klik
example-cluster
. Di halaman Cluster details, klik tab Configuration.
Setelan cluster Anda akan ditampilkan.
Klik
Edit.Di kolom Worker nodes, masukkan
5
.Klik Simpan.
Cluster Anda berhasil diperbarui. Untuk mengurangi jumlah node pekerja ke nilai awal, ikuti prosedur yang sama.
Pembersihan
Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
- Di halaman Cluster details untuk
example-cluster
, klik Delete untuk menghapus cluster. - Untuk mengonfirmasi bahwa Anda ingin menghapus cluster, klik Hapus.
Langkah selanjutnya
- Coba panduan memulai ini menggunakan alat lain:
- Pelajari cara membuat aturan firewall yang andal saat membuat project.
- Pelajari cara menulis dan menjalankan tugas Spark Scala.