Membuat cluster Dataproc dengan menggunakan Konsol Google Cloud

Halaman ini menunjukkan cara menggunakan konsol Google Cloud untuk membuat cluster Dataproc, menjalankan tugas Apache Spark dasar di cluster, lalu mengubah jumlah pekerja di cluster.


Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:

Pandu saya


Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Enable the Dataproc API.

    Enable the API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Enable the Dataproc API.

    Enable the API

Membuat cluster

  1. Di konsol Google Cloud, buka halaman Clusters Dataproc.

    Buka Cluster

  2. Klik Buat kluster.

  3. Pada dialog Create Dataproc cluster, klik Create di baris Cluster on Compute Engine.

  4. Di kolom Cluster Name, masukkan example-cluster.

  5. Dalam daftar Region dan Zone, pilih region dan zona.

    Pilih region (misalnya, us-east1 atau europe-west1) untuk mengisolasi resource, seperti instance virtual machine (VM) dan Cloud Storage serta lokasi penyimpanan metadata yang digunakan oleh Dataproc, di dalam region tersebut. Untuk mengetahui informasi selengkapnya, lihat Region dan zona yang tersedia serta Endpoint regional.

  6. Untuk semua opsi lainnya, gunakan setelan default.

  7. Untuk membuat cluster, klik Buat.

    Cluster baru akan muncul dalam daftar di halaman Clusters. Statusnya adalah Provisioning hingga cluster siap digunakan, lalu statusnya berubah menjadi Running. Penyediaan cluster mungkin memerlukan waktu beberapa menit.

Mengirim tugas Spark

Kirimkan tugas Spark yang memperkirakan nilai Pi:

  1. Di menu navigasi Dataproc, klik Jobs.
  2. Di halaman Jobs, klik Submit job, lalu lakukan langkah berikut:

    1. Di kolom Cluster, klik Browse.
    2. Di baris untuk example-cluster, klik Select.
    3. Di kolom ID pekerjaan, gunakan setelan default, atau berikan ID yang unik untuk project Google Cloud Anda.
    4. Untuk Job type, pilih Spark.
    5. Di kolom Main class or jar, masukkan org.apache.spark.examples.SparkPi.
    6. Di kolom Jar files, masukkan file:///usr/lib/spark/examples/jars/spark-examples.jar.
    7. Di kolom Arguments, masukkan 1000 untuk menetapkan jumlah tugas.

    8. Klik Submit.

      Pekerjaan Anda ditampilkan di halaman Detail pekerjaan. Status tugas adalah Running atau Starting, lalu akan berubah menjadi Succeeded setelah dikirim.

      Untuk menghindari scroll dalam output, klik Line wrap: off. Outputnya mirip dengan yang berikut:

      Pi is roughly 3.1416759514167594
      

      Untuk melihat detail tugas, klik tab Configuration.

Mengupdate cluster

Update cluster Anda dengan mengubah jumlah worker instance:

  1. Di menu navigasi, klik Clusters.
  2. Di daftar cluster, klik example-cluster.
  3. Di halaman Detail cluster, klik tab Konfigurasi.

    Setelan cluster Anda akan ditampilkan.

  4. Klik Edit.

  5. Di kolom Worker nodes, masukkan 5.

  6. Klik Save.

Cluster Anda berhasil diupdate. Untuk mengurangi jumlah worker node ke nilai asli, ikuti prosedur yang sama.

Pembersihan

Agar akun Google Cloud Anda tidak dikenakan biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

  1. Di halaman Detail cluster untuk example-cluster, klik Hapus untuk menghapus cluster.
  2. Untuk mengonfirmasi bahwa Anda ingin menghapus cluster, klik Hapus.

Langkah selanjutnya