Sie können beim Erstellen eines Dataproc zusätzliche Komponenten wie Hudi installieren. mit dem Optionale Komponenten . Auf dieser Seite wird beschrieben, wie Sie optional die Hudi-Komponente installieren können. in einem Dataproc-Cluster.
Wenn die Apache Hudi-Komponente auf einem Dataproc-Cluster installiert wird, werden Hudi-Bibliotheken installiert und Spark und Hive im Cluster so konfiguriert, dass sie mit Hudi funktionieren.
Kompatible Dataproc-Image-Versionen
Sie können die Hudi-Komponente auf Dataproc-Clustern installieren, die mit den folgenden Dataproc-Image-Versionen erstellt wurden:
Hudi-bezogene Properties
Wenn Sie einen Dataproc mit Hudi-Cluster erstellen, werden sind so konfiguriert, dass sie mit Hudi funktionieren.
Konfigurationsdatei | Attribut | Standardwert |
---|---|---|
/etc/spark/conf/spark-defaults.conf |
spark.serializer |
org.apache.spark.serializer.KryoSerializer |
spark.sql.catalog.spark_catalog |
org.apache.spark.sql.hudi.catalog.HoodieCatalog |
|
spark.sql.extensions |
org.apache.spark.sql.hudi.HoodieSparkSessionExtension |
|
spark.driver.extraClassPath |
/usr/lib/hudi/lib/hudi-sparkspark-version-bundle_scala-version-hudi-version.jar |
|
spark.executor.extraClassPath |
/usr/lib/hudi/lib/hudi-sparkspark-version-bundle_scala-version-hudi-version.jar |
|
/etc/hive/conf/hive-site.xml |
hive.aux.jars.path |
file:///usr/lib/hudi/lib/hudi-hadoop-mr-bundle-version.jar |
Komponente installieren
Hudi-Komponente installieren, wenn ein Dataproc-Cluster erstellt wird
Auf den Seiten mit den Versionen von Dataproc-Image-Releases finden Sie die Version der Hudi-Komponente, die in jedem Dataproc-Image-Release enthalten ist.
Console
- Aktivieren Sie die Komponente.
- Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Der Bereich Cluster einrichten ist ausgewählt.
- Im Bereich Komponenten:
- Wählen Sie unter Optionale Komponenten die Hudi-Komponente.
gcloud-Befehl
Verwenden Sie zum Erstellen eines Dataproc-Clusters, der die Hudi-Komponente enthält, den Befehl mit dem Flag --optional-components
.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=HUDI \ --image-version=DATAPROC_VERSION \ --properties=PROPERTIES
Ersetzen Sie Folgendes:
- CLUSTER_NAME: erforderlich. Der neue Clustername.
- REGION: erforderlich. Die Clusterregion.
- DATAPROC_IMAGE: Optional. Sie können dieses optionale Flag verwenden, eine nicht standardmäßige Dataproc-Image-Version angeben (siehe Standardmäßige Dataproc-Image-Version).
- PROPERTIES: Optional. Sie können dieses optionale Flag verwenden,
Hudi-Komponenteneigenschaften festlegen
die mit der
hudi:
-Dateipräfix Beispiel:properties=hudi:hoodie.datasource.write.table.type=COPY_ON_WRITE
).- Eigenschaft „Hudi-Komponentenversion“: Sie können optional das Attribut
dataproc:hudi.version
angeben. Hinweis: Die Hudi-Komponentenversion wird von Dataproc so festgelegt, dass sie mit der Dataproc-Cluster-Image-Version kompatibel ist. Wenn legen Sie diese Eigenschaft fest, kann die Clustererstellung fehlschlagen, wenn die angegebene Version nicht kompatibel mit dem Cluster-Image. - Spark- und Hive-Attribute: Dataproc legt beim Erstellen des Clusters Hudi-bezogene Spark- und Hive-Attribute fest. Sie müssen sie nicht beim Erstellen des Clusters oder beim Einreichen von Jobs festlegen.
- Eigenschaft „Hudi-Komponentenversion“: Sie können optional das Attribut
REST API
Die Hudi-Komponente
können über die Dataproc API mit
SoftwareConfig.Component
als Teil einer
clusters.create
Job zum Lesen und Schreiben von Hudi-Tabellen senden
Nachdem Sie einen Cluster mit der Hudi-Komponente erstellt haben, gehen Sie so vor: können Sie Spark- und Hive-Jobs senden, die Hudi-Tabellen lesen und schreiben.
Beispiel für gcloud CLI
:
gcloud dataproc jobs submit pyspark \ --cluster=CLUSTER_NAME \ --region=region \ JOB_FILE \ -- JOB_ARGS
PySpark-Beispieljob
Mit der folgenden PySpark-Datei wird eine Hudi-Tabelle erstellt, gelesen und geschrieben.
Mit dem folgenden gcloud CLI-Befehl wird die Beispiel-PySpark-Datei an Dataproc gesendet.
gcloud dataproc jobs submit pyspark \ --cluster=CLUSTER_NAME \ gs://BUCKET_NAME/pyspark_hudi_example.py \ -- TABLE_NAME gs://BUCKET_NAME/TABLE_NAME
Hudi-Befehlszeile verwenden
Die Hudi-Befehlszeile befindet sich auf dem Masterknoten des Dataproc-Clusters unter /usr/lib/hudi/cli/hudi-cli.sh
. Sie können die Hudi CLI verwenden
Hudi-Tabellenschemas, Commits und Statistiken ansehen und
Verwaltungsvorgänge wie Zeitplanverdichtungen (siehe
hudi-cli verwenden.
So starten Sie die Hudi-Befehlszeile und stellen eine Verbindung zu einer Hudi-Tabelle her:
- Stellen Sie eine SSH-Verbindung zum Master-Knoten her.
- Führen Sie
/usr/lib/hudi/cli/hudi-cli.sh
aus. Die Eingabeaufforderung ändert sich inhudi->
. - Führen Sie
connect --path gs://my-bucket/my-hudi-table
aus. - Führen Sie Befehle wie
desc
aus, um das Tabellenschema zu beschreiben, odercommits show
, um den Commit-Verlauf aufzurufen. - Führen Sie
exit
aus, um die Befehlszeilensitzung zu beenden.