Para leer eventos de captura de datos de cambios (CDC) de Apache Iceberg mediante el catálogo REST de BigLake, usa el conector de E/S gestionado de Apache Beam.
La E/gestionada admite las siguientes funciones de Apache Iceberg:
Catálogos |
|
---|---|
Funciones de lectura | Lectura por lotes |
Funciones de escritura |
|
En el caso de las tablas de BigQuery para Apache Iceberg,
usa el
conector BigQueryIO
con la API Storage de BigQuery. La tabla ya debe existir. No se admite la creación de tablas dinámicas.
Limitaciones
- La función de CDC de Apache Iceberg solo se admite mediante la API gestionada. Las funciones del servicio de transformaciones gestionadas aún no están habilitadas. Cambios que afectan a la compatibilidad con versiones anteriores
- La API gestionada de CDC solo lee las copias de los datos de las inserciones. La cobertura completa de la CDC aún no está disponible.
Requisitos previos
- Configura BigLake. Configura tu proyecto de Google Cloud Platform con los permisos necesarios siguiendo las instrucciones de Usar BigLake Metastore con el catálogo REST de Iceberg. Asegúrate de que conoces las limitaciones del catálogo REST de Iceberg de BigLake que se describen en esa página.
- Crea una tabla de origen de Iceberg. En el ejemplo que se muestra aquí se da por hecho que tienes una tabla de Apache Iceberg. Para crear uno, puedes usar la canalización que se muestra en Escritura de streaming en Apache Iceberg con el catálogo REST de BigLake.
Dependencias
Añade las siguientes dependencias a tu proyecto:
Java
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-managed</artifactId>
<version>${beam.version}</version>
</dependency>
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-io-iceberg</artifactId>
<version>${beam.version}</version>
</dependency>
<dependency>
<groupId>org.apache.iceberg</groupId>
<artifactId>iceberg-gcp</artifactId>
<version>${iceberg.version}</version>
</dependency>
Ejemplo
En el siguiente ejemplo se muestra una canalización de streaming que lee eventos de CDC de una tabla de Apache Iceberg, agrega clics de usuarios y escribe los resultados en otra tabla de Apache Iceberg.
Java
Para autenticarte en Dataflow, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Siguientes pasos
- Consulta más información sobre E/S gestionada.
- Más información sobre el catálogo de REST de BigLake