Puedes instalar componentes adicionales, como Hudi, cuando creas un clúster de Dataproc con la función de componentes opcionales. En esta página, se describe cómo instalar opcionalmente el componente Hudi. en un clúster de Dataproc.
Cuando se instala en un clúster de Dataproc, Apache Hudi Este componente instala bibliotecas Hudi y configura Spark y Hive en el clúster. de trabajar con Hudi.
Versiones de imágenes compatibles de Dataproc
Puedes instalar el componente Hudi en clústeres de Dataproc creados con el siguientes versiones de imágenes de Dataproc:
Propiedades relacionadas con Hudi
Cuando creas un clúster de Dataproc con Hudi, se configuran las siguientes propiedades de Spark y Hive para que funcionen con Hudi.
Archivo de configuración | Propiedad | Valor predeterminado |
---|---|---|
/etc/spark/conf/spark-defaults.conf |
spark.serializer |
org.apache.spark.serializer.KryoSerializer |
spark.sql.catalog.spark_catalog |
org.apache.spark.sql.hudi.catalog.HoodieCatalog |
|
spark.sql.extensions |
org.apache.spark.sql.hudi.HoodieSparkSessionExtension |
|
spark.driver.extraClassPath |
/usr/lib/hudi/lib/hudi-sparkspark-version-bundle_scala-version-hudi-version.jar |
|
spark.executor.extraClassPath |
/usr/lib/hudi/lib/hudi-sparkspark-version-bundle_scala-version-hudi-version.jar |
|
/etc/hive/conf/hive-site.xml |
hive.aux.jars.path |
file:///usr/lib/hudi/lib/hudi-hadoop-mr-bundle-version.jar |
Instala el componente
Instala el componente de Hudi cuando crees un clúster de Dataproc.
Las páginas de la versión de actualización de la imagen de Dataproc Enumera la versión del componente de Hudi incluida en cada versión de la imagen de Dataproc.
Console
- Habilita el componente.
- En la consola de Google Cloud, abre Dataproc Crea un clúster . El panel Configurar clúster está seleccionado.
- En la sección Componentes, sigue estos pasos:
- En Componentes opcionales, selecciona la Hudi.
Comando de gcloud
Para crear un clúster de Dataproc que incluya el componente Hudi,
usa el comando con la marca --optional-components
.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=HUDI \ --image-version=DATAPROC_VERSION \ --properties=PROPERTIES
Reemplaza lo siguiente:
- CLUSTER_NAME: Obligatorio. El nombre del clúster nuevo.
- REGION: Obligatorio. La región del clúster.
- DATAPROC_IMAGE: Opcional Puedes usar esta marca opcional para especificar una versión de imagen de Dataproc que no sea predeterminada (consulta Versión con imágenes de Dataproc predeterminada).
- PROPERTIES: Opcional Puedes usar esta marca opcional para
Establece las propiedades de los componentes de Hue.
que se especifican con el
Prefijo de archivo
hudi:
Ejemplo:properties=hudi:hoodie.datasource.write.table.type=COPY_ON_WRITE
).- Propiedad de versión del componente de Hudi: De manera opcional, puedes especificar la propiedad
dataproc:hudi.version
. Nota: La versión del componente Hudi se establece por Dataproc para que sea compatible con la versión de imagen del clúster de Dataproc. Si configura esta propiedad, la creación del clúster puede fallar si la versión especificada no es compatible con la imagen del clúster. - Propiedades de Spark y Hive: conjuntos de Dataproc Spark y Hive relacionados con Hadoop las propiedades cuando se crea el clúster. No es necesario configurarlos cuando creas el clúster o envías trabajos.
- Propiedad de versión del componente de Hudi: De manera opcional, puedes especificar la propiedad
API de REST
El componente de Hudi se puede instalar a través de la API de Dataproc con SoftwareConfig.Component
como parte de una solicitud clusters.create
.
Envía un trabajo para leer y escribir tablas Hudi
Después de crear un clúster con el componente Hudi, puedes enviar trabajos de Spark y Hive que lean y escriban tablas de Hudi.
Ejemplo de gcloud CLI
:
gcloud dataproc jobs submit pyspark \ --cluster=CLUSTER_NAME \ --region=region \ JOB_FILE \ -- JOB_ARGS
Trabajo de PySpark de muestra
El siguiente archivo de PySpark crea, lee y escribe una tabla Hudi.
El siguiente comando de gcloud CLI envía el archivo de PySpark de muestra a Dataproc.
gcloud dataproc jobs submit pyspark \ --cluster=CLUSTER_NAME \ gs://BUCKET_NAME/pyspark_hudi_example.py \ -- TABLE_NAME gs://BUCKET_NAME/TABLE_NAME
Usa la CLI de Hudi
La CLI de Hudi está ubicada en /usr/lib/hudi/cli/hudi-cli.sh
, en el
Nodo instancia principal del clúster de Dataproc. Puedes usar la CLI de Hudi
para ver los esquemas, las confirmaciones y las estadísticas de las tablas de Hudi, y para realizar manualmente
operaciones administrativas, como programar compactaciones (consulta
Cómo usar hudi-cli).
Para iniciar la CLI de Hudi y conectarte a una tabla de Hudi, haz lo siguiente:
- Establece una conexión SSH al nodo principal.
- Ejecuta
/usr/lib/hudi/cli/hudi-cli.sh
. El mensaje del prompt cambia ahudi->
. - Ejecuta
connect --path gs://my-bucket/my-hudi-table
. - Ejecuta comandos, como
desc
, que describe el esquema de la tabla, ocommits show
. que muestra el historial de confirmaciones. - Para detener la sesión de la CLI, ejecuta
exit
.