Tutorial ini menunjukkan kepada Anda cara:
Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Buat project Google Cloud Platform jika Anda belum melakukannya.
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Make sure that billing is enabled for your Google Cloud project.
Enable the Dataproc and Compute Engine APIs.
Jalankan perintah berikut di terminal sesi Cloud Shell untuk:
--properties
untuk menambahkan konfigurasi HBase dan library HBase ke
classpath eksekutor dan driver Spark.gcloud dataproc clusters createcluster-name \ --region=region \ --optional-components=HBASE,ZOOKEEPER \ --num-workers=3 \ --enable-component-gateway \ --image-version=2.0 \ --properties='spark:spark.driver.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*,spark:spark.executor.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*'
Dari konsol Google Cloud atau terminal sesi Cloud Shell, SSH ke node master cluster Dataproc.
Verifikasi penginstalan konektor Apache HBase Spark di node master:
ls -l /usr/lib/spark/jars | grep hbase-spark
-rw-r--r-- 1 root rootsize date time hbase-spark-connector.version .jar
Biarkan terminal sesi SSH tetap terbuka untuk:
Jalankan perintah yang tercantum di bagian ini di terminal sesi SSH node master yang Anda buka di langkah sebelumnya.
Buka shell HBase:
hbase shell
Buat 'my-table' HBase dengan grup kolom 'cf':
create 'my_table','cf'
my-table
tercantum di
bagian Tabel di halaman Beranda.
Buka terminal sesi Cloud Shell.
Clone repositori GitHub GoogleCloudDataproc/cloud-dataproc ke terminal sesi Cloud Shell Anda:
git clone https://github.com/GoogleCloudDataproc/cloud-dataproc.git
Ubah ke direktori cloud-dataproc/spark-hbase
:
cd cloud-dataproc/spark-hbase
user-name @cloudshell:~/cloud-dataproc/spark-hbase (project-id )$
Kirim tugas Dataproc.
pom.xml
.
scala -version
spark-shell
hbase version
pom.xml
:
<properties> <scala.version>scala full version (for example, 2.12.14) </scala.version> <scala.main.version>scala main version (for example, 2.12) </scala.main.version> <spark.version>spark version (for example, 3.1.2) </spark.version> <hbase.client.version>hbase version (for example, 2.2.7) </hbase.client.version> <hbase-spark.version>1.0.0(the current Apache HBase Spark Connector version)> </properties>
hbase-spark.version
adalah versi konektor Spark HBase saat ini;
jangan ubah nomor versi ini.pom.xml
di editor Cloud Shell untuk menyisipkan
nomor versi Scala, Spark, dan HBase yang benar.
Klik Open Terminal setelah selesai mengedit untuk kembali ke command line terminal Cloud Shell.
cloudshell edit .
sudo update-java-alternatives -s java-1.8.0-openjdk-amd64 && export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
java -version
openjdk version "1.8..."
jar
:
mvn clean package
.jar
ditempatkan di subdirektori /target
(misalnya,
target/spark-hbase-1.0-SNAPSHOT.jar
.Kirim tugas.
gcloud dataproc jobs submit spark \ --class=hbase.SparkHBaseMain \ --jars=target/filename .jar \ --region=cluster-region \ --cluster=cluster-name
--jars
: Sisipkan nama file .jar
Anda setelah "target/" dan sebelum ".jar".‑‑properties
berikut dalam perintah pengiriman tugas:
--properties='spark.driver.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*,spark.executor.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*'
Lihat output tabel HBase di output terminal sesi Cloud Shell:
Waiting for job output... ... +----+----+ | key|name| +----+----+ |key1| foo| |key2| bar| +----+----+
Kirim tugas.
gcloud dataproc jobs submit pyspark scripts/pyspark-hbase.py \ --region=cluster-region \ --cluster=cluster-name
‑‑properties
berikut dalam perintah pengiriman tugas:
--properties='spark.driver.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*,spark.executor.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*'
Lihat output tabel HBase di output terminal sesi Cloud Shell:
Waiting for job output... ... +----+----+ | key|name| +----+----+ |key1| foo| |key2| bar| +----+----+
Anda dapat memindai konten tabel HBase dengan menjalankan perintah berikut di terminal sesi SSH node master yang Anda buka di Memverifikasi penginstalan konektor:
hbase shell
scan 'my_table'
ROW COLUMN+CELL key1 column=cf:name, timestamp=1647364013561, value=foo key2 column=cf:name, timestamp=1647364012817, value=bar 2 row(s) Took 0.5009 seconds
Setelah menyelesaikan tutorial, Anda dapat membersihkan resource yang dibuat agar resource tersebut berhenti menggunakan kuota dan dikenai biaya. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.
Untuk menghapus project:
gcloud dataproc clusters deletecluster-name \ --region=${REGION}
Kecuali dinyatakan lain, konten di halaman ini dilisensikan berdasarkan Lisensi Creative Commons Attribution 4.0, sedangkan contoh kode dilisensikan berdasarkan Lisensi Apache 2.0. Untuk mengetahui informasi selengkapnya, lihat Kebijakan Situs Google Developers. Java adalah merek dagang terdaftar dari Oracle dan/atau afiliasinya.
Terakhir diperbarui pada 2025-02-28 UTC.