Membuat cluster Hadoop

Anda dapat menggunakan Dataproc untuk membuat satu atau beberapa instance Compute Engine yang dapat terhubung ke instance Bigtable dan menjalankan tugas Hadoop. Halaman ini menjelaskan cara menggunakan Dataproc untuk mengotomatiskan tugas-tugas berikut:

  • Menginstal Hadoop dan klien HBase untuk Java
  • Mengonfigurasi Hadoop dan Bigtable
  • Menyetel cakupan otorisasi yang benar untuk Bigtable

Setelah membuat cluster Dataproc, Anda dapat menggunakan cluster tersebut untuk menjalankan tugas Hadoop yang membaca dan menulis data ke dan dari Bigtable.

Halaman ini mengasumsikan bahwa Anda sudah memahami Hadoop. Untuk informasi tambahan tentang Dataproc, lihat dokumentasi Dataproc.

Sebelum memulai

Sebelum memulai, Anda harus menyelesaikan tugas berikut:

  • Membuat instance Bigtable. Pastikan untuk mencatat ID project dan ID instance Bigtable.
  • Enable the Cloud Bigtable API, Cloud Bigtable Admin API, Dataproc, and Cloud Storage JSON APIs.

    Enable the APIs

  • Pastikan akun pengguna Anda memiliki peran yang menyertakan izin storage.objects.get.

    Buka halaman IAM di konsol Google Cloud.

    Buka halaman IAM

  • Instal Google Cloud CLI. Baca petunjuk penyiapan gcloud CLI untuk mengetahui detailnya.
  • Instal alat gsutil dengan menjalankan perintah berikut:
    gcloud components install gsutil
  • Instal Apache Maven, yang digunakan untuk menjalankan contoh tugas Hadoop.

    Di Debian GNU/Linux atau Ubuntu, jalankan perintah berikut:

    sudo apt-get install maven

    Di RedHat Enterprise Linux atau CentOS, jalankan perintah berikut:

    sudo yum install maven

    Di macOS, instal Homebrew, lalu jalankan perintah berikut:

    brew install maven
  • Buat clone repositori GitHub GoogleCloudPlatform/cloud-bigtable-examples, yang berisi contoh tugas Hadoop yang menggunakan Bigtable:
    git clone https://github.com/GoogleCloudPlatform/cloud-bigtable-examples.git

Membuat bucket Cloud Storage

Dataproc menggunakan bucket Cloud Storage untuk menyimpan file sementara. Untuk mencegah konflik penamaan file, buat bucket baru untuk Dataproc.

Nama bucket Cloud Storage harus unik secara global di semua bucket. Pilih nama bucket yang mungkin tersedia, seperti nama yang menggabungkan nama project Google Cloud Anda.

Setelah memilih nama, gunakan perintah berikut untuk membuat bucket baru, dengan mengganti nilai dalam tanda kurung dengan nilai yang sesuai:

gsutil mb -p [PROJECT_ID] gs://[BUCKET_NAME]

Membuat cluster Dataproc

Jalankan perintah berikut untuk membuat cluster Dataproc dengan empat node pekerja, lalu ganti nilai dalam tanda kurung dengan nilai yang sesuai:

gcloud dataproc clusters create [DATAPROC_CLUSTER_NAME] --bucket [BUCKET_NAME] \
    --region [region] --num-workers 4 --master-machine-type n1-standard-4 \
    --worker-machine-type n1-standard-4

Lihat dokumentasi gcloud dataproc clusters create untuk setelan tambahan yang dapat Anda konfigurasi. Jika Anda mendapatkan pesan error yang menyertakan teks Insufficient 'CPUS' quota, coba setel flag --num-workers ke nilai yang lebih rendah.

Menguji cluster Dataproc

Setelah menyiapkan cluster Dataproc, Anda dapat menguji cluster tersebut dengan menjalankan contoh tugas Hadoop yang menghitung berapa kali sebuah kata muncul dalam file teks. Tugas contoh menggunakan Bigtable untuk menyimpan hasil operasi. Anda dapat menggunakan tugas sampel ini sebagai referensi saat menyiapkan tugas Hadoop Anda sendiri.

Menjalankan contoh tugas Hadoop

  1. Di direktori tempat Anda meng-clone repositori GitHub, ubah ke direktori java/dataproc-wordcount.
  2. Jalankan perintah berikut untuk membuat project, dengan mengganti nilai dalam tanda kurung dengan nilai yang sesuai:

    mvn clean package -Dbigtable.projectID=[PROJECT_ID] \
        -Dbigtable.instanceID=[BIGTABLE_INSTANCE_ID]
    
  3. Jalankan perintah berikut untuk memulai tugas Hadoop, dengan mengganti nilai dalam tanda kurung dengan nilai yang sesuai:

    ./cluster.sh start [DATAPROC_CLUSTER_NAME]
    

Setelah selesai, tugas akan menampilkan nama tabel output, yaitu kata WordCount, diikuti tanda hubung dan angka unik:

Output table is: WordCount-1234567890

Memverifikasi hasil tugas Hadoop

Secara opsional, setelah menjalankan tugas Hadoop, Anda dapat menggunakan cbt CLI untuk memverifikasi bahwa tugas berhasil dijalankan:

  1. Buka jendela terminal di Cloud Shell.

    Buka di Cloud Shell

  2. Instal CLI cbt:
        gcloud components update
        gcloud components install cbt
  3. Pindai tabel output untuk melihat hasil tugas Hadoop, dengan mengganti [TABLE_NAME] dengan nama tabel output Anda:
        cbt -instance [BIGTABLE_INSTANCE_ID] read [TABLE_NAME]
      

Setelah memastikan cluster sudah disiapkan dengan benar, Anda dapat menggunakannya untuk menjalankan tugas Hadoop Anda sendiri.

Menghapus cluster Dataproc

Setelah selesai menggunakan cluster Dataproc, jalankan perintah berikut untuk mematikan dan menghapus cluster, dengan mengganti [DATAPROC_CLUSTER_NAME] dengan nama cluster Dataproc Anda:

gcloud dataproc clusters delete [DATAPROC_CLUSTER_NAME]

Langkah selanjutnya