Sie können zusätzliche Komponenten wie Hudi installieren, wenn Sie einen Dataproc-Cluster mit der Funktion Optionale Komponenten erstellen. Auf dieser Seite wird beschrieben, wie Sie die Hudi-Komponente optional in einem Dataproc-Cluster installieren können.
Wenn die Apache Hudi-Komponente auf einem Dataproc-Cluster installiert wird, werden Hudi-Bibliotheken installiert und Spark und Hive im Cluster so konfiguriert, dass sie mit Hudi funktionieren.
Kompatible Dataproc-Image-Versionen
Sie können die Hudi-Komponente auf Dataproc-Clustern installieren, die mit den folgenden Dataproc-Image-Versionen erstellt wurden:
Hudi-bezogene Properties
Wenn Sie einen Dataproc-Cluster mit Hudi erstellen, werden die folgenden Spark- und Hive-Eigenschaften für die Verwendung mit Hudi konfiguriert.
Konfigurationsdatei | Attribut | Standardwert |
---|---|---|
/etc/spark/conf/spark-defaults.conf |
spark.serializer |
org.apache.spark.serializer.KryoSerializer |
spark.sql.catalog.spark_catalog |
org.apache.spark.sql.hudi.catalog.HoodieCatalog |
|
spark.sql.extensions |
org.apache.spark.sql.hudi.HoodieSparkSessionExtension |
|
spark.driver.extraClassPath |
/usr/lib/hudi/lib/hudi-sparkspark-version-bundle_scala-version-hudi-version.jar |
|
spark.executor.extraClassPath |
/usr/lib/hudi/lib/hudi-sparkspark-version-bundle_scala-version-hudi-version.jar |
|
/etc/hive/conf/hive-site.xml |
hive.aux.jars.path |
file:///usr/lib/hudi/lib/hudi-hadoop-mr-bundle-version.jar |
Komponente installieren
Installieren Sie die Hudi-Komponente, wenn Sie einen Dataproc-Cluster erstellen.
Auf den Seiten mit Versionsinformationen zu Dataproc-Image-Releases finden Sie die Version der Hudi-Komponente, die in jedem Dataproc-Image-Release enthalten ist.
Console
- Aktivieren Sie die Komponente.
- Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Der Bereich Cluster einrichten ist ausgewählt.
- Im Bereich Komponenten:
- Wählen Sie unter Optionale Komponenten die Komponente Hudi aus.
gcloud-Befehl
Verwenden Sie zum Erstellen eines Dataproc-Clusters, der die Hudi-Komponente enthält, den Befehl mit dem Flag --optional-components
.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=HUDI \ --image-version=DATAPROC_VERSION \ --properties=PROPERTIES
Ersetzen Sie Folgendes:
- CLUSTER_NAME: erforderlich. Der neue Clustername.
- REGION: erforderlich. Die Clusterregion.
- DATAPROC_IMAGE: Optional. Mit diesem optionalen Flag können Sie eine andere als die Standardversion von Dataproc-Images angeben (siehe Standardversion von Dataproc-Images).
- PROPERTIES: Optional. Mit diesem optionalen Flag können Sie Hudi-Komponenteneigenschaften festlegen, die mit dem
hudi:
-Dateipräfix angegeben werden (Beispiel:properties=hudi:hoodie.datasource.write.table.type=COPY_ON_WRITE
).- Eigenschaft „Hudi-Komponentenversion“: Sie können optional das Attribut
dataproc:hudi.version
angeben. Hinweis:Die Hudi-Komponentenversion wird von Dataproc so festgelegt, dass sie mit der Dataproc-Cluster-Image-Version kompatibel ist. Wenn Sie diese Eigenschaft festlegen, kann die Clustererstellung fehlschlagen, wenn die angegebene Version nicht mit dem Cluster-Image kompatibel ist. - Spark- und Hive-Attribute: Dataproc legt beim Erstellen des Clusters Hudi-bezogene Spark- und Hive-Attribute fest. Sie müssen sie nicht beim Erstellen des Clusters oder beim Einreichen von Jobs festlegen.
- Eigenschaft „Hudi-Komponentenversion“: Sie können optional das Attribut
REST API
Die Hudi-Komponente kann über die Dataproc API mit SoftwareConfig.Component
als Teil einer clusters.create
-Anfrage installiert werden.
Job zum Lesen und Schreiben von Hudi-Tabellen senden
Nachdem Sie einen Cluster mit der Hudi-Komponente erstellt haben, können Sie Spark- und Hive-Jobs einreichen, die Hudi-Tabellen lesen und schreiben.
gcloud CLI
Beispiel:
gcloud dataproc jobs submit pyspark \ --cluster=CLUSTER_NAME \ --region=region \ JOB_FILE \ -- JOB_ARGS
Beispiel für einen PySpark-Job
In der folgenden PySpark-Datei wird eine Hudi-Tabelle erstellt, gelesen und geschrieben.
Mit dem folgenden gcloud CLI-Befehl wird die Beispiel-PySpark-Datei an Dataproc gesendet.
gcloud dataproc jobs submit pyspark \ --cluster=CLUSTER_NAME \ gs://BUCKET_NAME/pyspark_hudi_example.py \ -- TABLE_NAME gs://BUCKET_NAME/TABLE_NAME
Hudi-Befehlszeile verwenden
Die Hudi-Befehlszeile befindet sich auf dem Masterknoten des Dataproc-Clusters unter /usr/lib/hudi/cli/hudi-cli.sh
. Mit der Hudi-Befehlszeile können Sie Hudi-Tabellenschemata, Commits und Statistiken aufrufen und administrative Vorgänge wie geplante Komprimierungen manuell ausführen (siehe hudi-cli verwenden).
So starten Sie die Hudi-Befehlszeile und stellen eine Verbindung zu einer Hudi-Tabelle her:
- Stellen Sie eine SSH-Verbindung zum Masterknoten her.
- Führen Sie
/usr/lib/hudi/cli/hudi-cli.sh
aus. Die Eingabeaufforderung ändert sich zuhudi->
. - Führen Sie
connect --path gs://my-bucket/my-hudi-table
aus. - Führen Sie Befehle wie
desc
aus, um das Tabellenschema zu beschreiben, odercommits show
, um den Commit-Verlauf aufzurufen. - Um die Befehlszeilensitzung zu beenden, führen Sie
exit
aus.