English
Deutsch
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
日本語
한국어

Questa pagina è stata tradotta dall'API Cloud Translation.

Utilizzare Apache Spark con HBase su Dataproc

Ritirato: a partire dalla versione 2.1 di Dataproc, non puoi più utilizzare il componente facoltativo HBase.

Dataproc versione 1.5 e Dataproc versione 2.0 offrono una versione beta di HBase senza assistenza. Tuttavia, a causa della natura temporanea dei cluster Dataproc, non è consigliabile utilizzare HBase.

Obiettivi

Questo tutorial illustra come:

Crea un cluster Dataproc, installando Apache HBase e Apache ZooKeeper sul cluster
Crea una tabella HBase utilizzando la shell HBase in esecuzione sul nodo principale del cluster Dataproc
Utilizza Cloud Shell per inviare un job Spark Java o PySpark al servizio Dataproc che scrive i dati nella tabella HBase e poi li legge.

Costi

In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi Google Cloud utenti potrebbero avere diritto a una prova gratuita.

Prima di iniziare

Se non l'hai ancora fatto, crea un progetto Google Cloud Platform.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataproc and Compute Engine APIs.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataproc and Compute Engine APIs.

Enable the APIs

Crea un cluster Dataproc

Esegui il seguente comando in un terminale della sessione Cloud Shell per:
- Installa i componenti HBase e ZooKeeper
- Provisiona tre nodi worker (consigliamo da tre a cinque worker per eseguire il codice in questo tutorial)
- Attiva il gateway dei componenti.
- Utilizzare la versione 2.0 dell'immagine
- Utilizza il flag --properties per aggiungere la configurazione e la libreria HBase ai percorsi di classe del driver e dell'executor di Spark.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --optional-components=HBASE,ZOOKEEPER \
    --num-workers=3 \
    --enable-component-gateway \
    --image-version=2.0 \
    --properties='spark:spark.driver.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*,spark:spark.executor.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*'

Verificare l'installazione del connettore

Dalla console Google Cloud o da un terminale della sessione Cloud Shell, esegui SSH nel master del cluster Dataproc.

Verifica l'installazione del connettore Apache HBase Spark sul nodo principale:

ls -l /usr/lib/spark/jars | grep hbase-spark

Esempio di output:

-rw-r--r-- 1 root root size date time hbase-spark-connector.version.jar

Mantieni aperto il terminale della sessione SSH per:
1. Creare una tabella HBase
2. (Utenti Java): esegui comandi sul nodo master del cluster per determinare le versioni dei componenti installati sul cluster
3. Esegui la scansione della tabella HBase dopo aver eseguito il codice

Creare una tabella HBase

Esegui i comandi elencati in questa sezione nel terminale della sessione SSH del nodo master che hai aperto nel passaggio precedente.

Apri la shell HBase:
```
hbase shell
```
Crea una tabella HBase "my-table" con una famiglia di colonne "cf":
```
create 'my_table','cf'
```
1. Per confermare la creazione della tabella, nella console Google Cloud fai clic su HBase nei link della console Google Cloud Component Gateway per aprire l'interfaccia utente di Apache HBase. my-table è elencato nella sezione Tables (Tabelle) della pagina Home (Home).

Visualizza il codice Spark

Java

package hbase;

import org.apache.hadoop.hbase.spark.datasources.HBaseTableCatalog;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

import java.io.Serializable;
import java.util.Arrays;
import java.util.HashMap;
import java.util.Map;

public class SparkHBaseMain {
    public static class SampleData implements Serializable {
        private String key;
        private String name;


        public SampleData(String key, String name) {
            this.key = key;
            this.name = name;
        }

        public SampleData() {
        }

        public String getName() {
            return name;
        }

        public void setName(String name) {
            this.name = name;
        }

        public String getKey() {
            return key;
        }

        public void setKey(String key) {
            this.key = key;
        }
    }
    public static void main(String[] args) {
        // Init SparkSession
        SparkSession spark = SparkSession
                .builder()
                .master("yarn")
                .appName("spark-hbase-tutorial")
                .getOrCreate();

        // Data Schema
        String catalog = "{"+"\"table\":{\"namespace\":\"default\", \"name\":\"my_table\"}," +
                "\"rowkey\":\"key\"," +
                "\"columns\":{" +
                "\"key\":{\"cf\":\"rowkey\", \"col\":\"key\", \"type\":\"string\"}," +
                "\"name\":{\"cf\":\"cf\", \"col\":\"name\", \"type\":\"string\"}" +
                "}" +
                "}";

        Map<String, String> optionsMap = new HashMap<String, String>();
        optionsMap.put(HBaseTableCatalog.tableCatalog(), catalog);

        Dataset<Row> ds= spark.createDataFrame(Arrays.asList(
                new SampleData("key1", "foo"),
                new SampleData("key2", "bar")), SampleData.class);

        // Write to HBase
        ds.write()
                .format("org.apache.hadoop.hbase.spark")
                .options(optionsMap)
                .option("hbase.spark.use.hbasecontext", "false")
                .mode("overwrite")
                .save();

        // Read from HBase
        Dataset dataset = spark.read()
                .format("org.apache.hadoop.hbase.spark")
                .options(optionsMap)
                .option("hbase.spark.use.hbasecontext", "false")
                .load();
        dataset.show();
    }
}

Python

from pyspark.sql import SparkSession

# Initialize Spark Session
spark = SparkSession \
  .builder \
  .master('yarn') \
  .appName('spark-hbase-tutorial') \
  .getOrCreate()

data_source_format = ''

# Create some test data
df = spark.createDataFrame(
    [
        ("key1", "foo"),
        ("key2", "bar"),
    ],
    ["key", "name"]
)

# Define the schema for catalog
catalog = ''.join("""{
    "table":{"namespace":"default", "name":"my_table"},
    "rowkey":"key",
    "columns":{
        "key":{"cf":"rowkey", "col":"key", "type":"string"},
        "name":{"cf":"cf", "col":"name", "type":"string"}
    }
}""".split())

# Write to HBase
df.write.format('org.apache.hadoop.hbase.spark').options(catalog=catalog).option("hbase.spark.use.hbasecontext", "false").mode("overwrite").save()

# Read from HBase
result = spark.read.format('org.apache.hadoop.hbase.spark').options(catalog=catalog).option("hbase.spark.use.hbasecontext", "false").load()
result.show()

Esegui il codice

Apri un terminale della sessione Cloud Shell.

Nota: esegui i comandi elencati in questa sezione in un terminale della sessione Cloud Shell. Cloud Shell ha gli strumenti richiesti da questo tutorial preinstallati, tra cui gcloud CLI, git, Apache Maven, Java e Python, oltre ad altri strumenti.
Clona il repository GitHub GoogleCloudDataproc/cloud-dataproc nel terminale della sessione Cloud Shell:
```
git clone https://github.com/GoogleCloudDataproc/cloud-dataproc.git
```

Passa alla directory cloud-dataproc/spark-hbase:

cd cloud-dataproc/spark-hbase

Esempio di output:

user-name@cloudshell:~/cloud-dataproc/spark-hbase (project-id)$

Invia il job Dataproc.

Java

Imposta le versioni dei componenti nel file pom.xml.
1. La pagina Versioni release di Dataproc 2.0.x elenca le versioni dei componenti Scala, Spark e HBase installate con le quattro versioni subminor più recenti e le ultime quattro immagini 2.0.
  1. Per trovare la versione secondaria del cluster con la versione dell'immagine 2.0, fai clic sul nome del cluster nella pagina Cluster della console Google Cloud per aprire la pagina Dettagli cluster, dove è elencata la versione dell'immagine del cluster.
2. In alternativa, puoi eseguire i seguenti comandi in un terminal di sessione SSH dal nodo principale del cluster per determinare le versioni dei componenti:
  1. Controlla la versione di Scala:
```
scala -version
```
  2. Controlla la versione di Spark (CTRL+D per uscire):
```
spark-shell
```
  3. Controlla la versione di HBase:
```
hbase version
```
  4. Identifica le dipendenze delle versioni di Spark, Scala e HBase in Maven pom.xml:
```
<properties>
  <scala.version>scala full version (for example, 2.12.14)</scala.version>
  <scala.main.version>scala main version (for example, 2.12)</scala.main.version>
  <spark.version>spark version (for example, 3.1.2)</spark.version>
  <hbase.client.version>hbase version (for example, 2.2.7)</hbase.client.version>
  <hbase-spark.version>1.0.0(the current Apache HBase Spark Connector version)>
</properties>
```
    Nota: hbase-spark.version è la versione corrente del connettore Spark HBase. Lascia invariato questo numero di versione.
3. Modifica il file pom.xml nell'editor di Cloud Shell per inserire i numeri di versione corretti di Scala, Spark e HBase. Fai clic su Apri terminale al termine della modifica per tornare alla riga di comando del terminale Cloud Shell.
```
cloudshell edit .
```
4. Passa a Java 8 in Cloud Shell. Questa versione di JDK è necessaria per compilare il codice (puoi ignorare eventuali messaggi di avviso del plug-in):
```
sudo update-java-alternatives -s java-1.8.0-openjdk-amd64 && export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
```
5. Verifica l'installazione di Java 8:
```
java -version
```
  Esempio di output:
```
openjdk version "1.8..."
 
```
Compila il file jar:
```
mvn clean package
```
Il file .jar viene inserito nella sottodirectory /target (ad esempio, target/spark-hbase-1.0-SNAPSHOT.jar.

Invia il job.

gcloud dataproc jobs submit spark \
    --class=hbase.SparkHBaseMain  \
    --jars=target/filename.jar \
    --region=cluster-region \
    --cluster=cluster-name

--jars: inserisci il nome del file .jar dopo "target/" e prima di ".jar".
Se non hai impostato i percorsi dei classloader HBase del driver e dell'executor di Spark quando hai creato il cluster, devi impostarli con ogni invio di job includendo il seguente flag ‑‑properties nel comando di invio del job:
```
--properties='spark.driver.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*,spark.executor.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*'
       
```

Visualizza l'output della tabella HBase nell'output del terminale della sessione Cloud Shell:

Waiting for job output...
...
+----+----+
| key|name|
+----+----+
|key1| foo|
|key2| bar|
+----+----+

Python

Invia il job.

gcloud dataproc jobs submit pyspark scripts/pyspark-hbase.py \
    --region=cluster-region \
    --cluster=cluster-name

Se non hai impostato i percorsi dei classloader HBase del driver e dell'executor di Spark quando hai creato il cluster, devi impostarli con ogni invio di job includendo il seguente flag ‑‑properties nel comando di invio del job:
```
--properties='spark.driver.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*,spark.executor.extraClassPath=/etc/hbase/conf:/usr/lib/hbase/*'
       
```

Visualizza l'output della tabella HBase nell'output del terminale della sessione Cloud Shell:

Waiting for job output...
...
+----+----+
| key|name|
+----+----+
|key1| foo|
|key2| bar|
+----+----+

Esegui la scansione della tabella HBase

Puoi eseguire la scansione dei contenuti della tabella HBase eseguendo i seguenti comandi nel terminale della sessione SSH del nodo master che hai aperto in Verificare l'installazione del connettore:

Apri la shell HBase:
```
hbase shell
```

Esegui la scansione di "my-table":

scan 'my_table'

Esempio di output:

ROW               COLUMN+CELL
 key1             column=cf:name, timestamp=1647364013561, value=foo
 key2             column=cf:name, timestamp=1647364012817, value=bar
2 row(s)
Took 0.5009 seconds

Esegui la pulizia

Al termine del tutorial, puoi eliminare le risorse che hai creato in modo che smettano di utilizzare la quota e di generare addebiti. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

Attenzione: l'eliminazione di un progetto ha i seguenti effetti:

L'intero contenuto del progetto viene eliminato. Se hai utilizzato un progetto esistente per le attività descritte in questo documento, quando lo elimini elimini anche tutto il lavoro svolto nel progetto.
Gli ID progetto personalizzati non sono più disponibili. Quando hai creato questo progetto, potresti aver creato un ID progetto personalizzato che vuoi utilizzare in futuro. Per conservare gli URL che utilizzano l'ID progetto, ad esempio un URL appspot.com, elimina le risorse selezionate all'interno del progetto anziché eliminare l'intero progetto.

Se intendi esplorare più architetture, tutorial o guide rapide, il riuso dei progetti può aiutarti a non superare i limiti di quota.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Elimina il cluster

Per eliminare il cluster:

gcloud dataproc clusters delete cluster-name \
    --region=${REGION}

Salvo quando diversamente specificato, i contenuti di questa pagina sono concessi in base alla licenza Creative Commons Attribution 4.0, mentre gli esempi di codice sono concessi in base alla licenza Apache 2.0. Per ulteriori dettagli, consulta le norme del sito di Google Developers. Java è un marchio registrato di Oracle e/o delle sue consociate.

Ultimo aggiornamento 2025-02-06 UTC.