Tugas MapReduce Hadoop dengan Bigtable
Contoh ini menggunakan Hadoop untuk melakukan tugas MapReduce sederhana yang menghitung frekuensi munculnya kata dalam file teks. Tugas MapReduce menggunakan Bigtable untuk menyimpan hasil operasi peta. Kode untuk contoh ini ada di repositori GitHub GoogleCloudPlatform/cloud-bigtable-examples, di direktori java/dataproc-wordcount
.
Menyiapkan autentikasi
Untuk menggunakan contoh Java di halaman ini dari lingkungan pengembangan lokal, instal dan lakukan inisialisasi gcloud CLI, lalu siapkan Kredensial Default Aplikasi dengan kredensial pengguna Anda.
- Menginstal Google Cloud CLI.
-
Untuk initialize gcloud CLI, jalankan perintah berikut:
gcloud init
-
Buat kredensial autentikasi lokal untuk Akun Google Anda:
gcloud auth application-default login
Untuk informasi selengkapnya, lihat Siapkan autentikasi untuk lingkungan pengembangan lokal.
Ringkasan contoh kode
Contoh kode ini menyediakan antarmuka command line sederhana yang mengambil satu atau beberapa
file teks dan nama tabel sebagai input, menemukan semua kata yang muncul dalam
file, dan menghitung berapa kali setiap kata muncul. Logika MapReduce akan muncul di class WordCountHBase
.
Pertama, mapper membuat token konten file teks dan menghasilkan pasangan nilai kunci, dengan kunci adalah kata dari file teks dan nilainya adalah 1
:
Pereduksi kemudian menjumlahkan nilai untuk setiap kunci dan menulis hasilnya ke
tabel Bigtable yang Anda tentukan. Setiap {i>row key <i}adalah sebuah kata
dari file teks. Setiap baris berisi kolom cf:count
, yang berisi berapa kali
row key muncul dalam file teks.