Questo tutorial illustra come:
In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il Calcolatore prezzi.
Se non l'hai ancora fatto, crea un progetto Google Cloud Platform.
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Make sure that billing is enabled for your Google Cloud project.
Enable the Dataproc and Compute Engine APIs.
Esegui il seguente comando in un terminale della sessione Cloud Shell per:
--properties
per aggiungere la configurazione e la libreria HBase ai percorsi di classe del driver e dell'executor di Spark.gcloud dataproc clusters createcluster-name \ --region=region \ --optional-components=HBASE,ZOOKEEPER \ --num-workers=3 \ --enable-component-gateway \ --image-version=2.0 \ --properties='spark:spark.driver.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*,spark:spark.executor.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*'
Dalla console Google Cloud o da un terminale della sessione Cloud Shell, esegui SSH nel master del cluster Dataproc.
Verifica l'installazione del connettore Apache HBase Spark sul nodo principale:
ls -l /usr/lib/spark/jars | grep hbase-spark
-rw-r--r-- 1 root rootsize date time hbase-spark-connector.version .jar
Mantieni aperto il terminale della sessione SSH per:
Esegui i comandi elencati in questa sezione nel terminale della sessione SSH del nodo master che hai aperto nel passaggio precedente.
Apri la shell HBase:
hbase shell
Crea una tabella HBase "my-table" con una famiglia di colonne "cf":
create 'my_table','cf'
my-table
è elencato nella sezione Tables (Tabelle) della pagina Home (Home).
Apri un terminale della sessione Cloud Shell.
Clona il repository GitHub GoogleCloudDataproc/cloud-dataproc nel terminale della sessione Cloud Shell:
git clone https://github.com/GoogleCloudDataproc/cloud-dataproc.git
Passa alla directory cloud-dataproc/spark-hbase
:
cd cloud-dataproc/spark-hbase
user-name @cloudshell:~/cloud-dataproc/spark-hbase (project-id )$
Invia il job Dataproc.
pom.xml
.
scala -version
spark-shell
hbase version
pom.xml
:
<properties> <scala.version>scala full version (for example, 2.12.14) </scala.version> <scala.main.version>scala main version (for example, 2.12) </scala.main.version> <spark.version>spark version (for example, 3.1.2) </spark.version> <hbase.client.version>hbase version (for example, 2.2.7) </hbase.client.version> <hbase-spark.version>1.0.0(the current Apache HBase Spark Connector version)> </properties>
hbase-spark.version
è la versione corrente del connettore Spark HBase.
Lascia invariato questo numero di versione.pom.xml
nell'editor di Cloud Shell per inserire i numeri di versione corretti di Scala, Spark e HBase.
Fai clic su Apri terminale al termine della modifica per tornare alla riga di comando del terminale Cloud Shell.
cloudshell edit .
sudo update-java-alternatives -s java-1.8.0-openjdk-amd64 && export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
java -version
openjdk version "1.8..."
jar
:
mvn clean package
.jar
viene inserito nella sottodirectory /target
(ad esempio,
target/spark-hbase-1.0-SNAPSHOT.jar
.Invia il job.
gcloud dataproc jobs submit spark \ --class=hbase.SparkHBaseMain \ --jars=target/filename .jar \ --region=cluster-region \ --cluster=cluster-name
--jars
: inserisci il nome del file .jar
dopo "target/" e prima di ".jar".‑‑properties
nel comando di invio del job:
--properties='spark.driver.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*,spark.executor.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*'
Visualizza l'output della tabella HBase nell'output del terminale della sessione Cloud Shell:
Waiting for job output... ... +----+----+ | key|name| +----+----+ |key1| foo| |key2| bar| +----+----+
Invia il job.
gcloud dataproc jobs submit pyspark scripts/pyspark-hbase.py \ --region=cluster-region \ --cluster=cluster-name
‑‑properties
nel comando di invio del job:
--properties='spark.driver.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*,spark.executor.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*'
Visualizza l'output della tabella HBase nell'output del terminale della sessione Cloud Shell:
Waiting for job output... ... +----+----+ | key|name| +----+----+ |key1| foo| |key2| bar| +----+----+
Puoi eseguire la scansione dei contenuti della tabella HBase eseguendo i seguenti comandi nel terminale della sessione SSH del nodo master che hai aperto in Verificare l'installazione del connettore:
hbase shell
scan 'my_table'
ROW COLUMN+CELL key1 column=cf:name, timestamp=1647364013561, value=foo key2 column=cf:name, timestamp=1647364012817, value=bar 2 row(s) Took 0.5009 seconds
Al termine del tutorial, puoi eliminare le risorse che hai creato in modo che smettano di utilizzare la quota e di generare addebiti. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.
Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.
Per eliminare il progetto:
gcloud dataproc clusters deletecluster-name \ --region=${REGION}
Salvo quando diversamente specificato, i contenuti di questa pagina sono concessi in base alla licenza Creative Commons Attribution 4.0, mentre gli esempi di codice sono concessi in base alla licenza Apache 2.0. Per ulteriori dettagli, consulta le norme del sito di Google Developers. Java è un marchio registrato di Oracle e/o delle sue consociate.
Ultimo aggiornamento 2025-02-06 UTC.