Para leer eventos de captura de datos modificados (CDC) de Apache Iceberg con el catálogo de REST de BigLake, usa el conector de E/S administrado de Apache Beam.
La E/S administrada admite las siguientes capacidades para Apache Iceberg:
Catálogos |
|
---|---|
Capacidades de lectura | Lectura por lotes |
Capacidades de escritura |
|
Para las tablas de BigQuery para Apache Iceberg, usa el conector de BigQueryIO
con la API de BigQuery Storage. La tabla ya debe existir. No se admite la creación de tablas dinámicas.
Limitaciones
- La CDC de Apache Iceberg solo se admite con la API administrada. Las funciones del servicio de transformaciones administradas aún no están habilitadas. Se esperan cambios que afecten la retrocompatibilidad
- La API administrada de CDC solo lee instantáneas de solo agregar. La CDC completa aún no está disponible.
Requisitos previos
- Configura BigLake. Configura tu proyecto de Google Cloud Platform con los permisos necesarios siguiendo los pasos que se indican en Usa BigLake Metastore con el catálogo de REST de Iceberg. Asegúrate de comprender las limitaciones del catálogo de Iceberg de BigLake REST que se describen en esa página.
- Crea una tabla de Iceberg de origen. En el ejemplo que se muestra aquí, se supone que tienes una tabla de Apache Iceberg. Para crear una, puedes usar la canalización que se muestra en Escritura de transmisión en Apache Iceberg con el catálogo de BigLake REST.
Dependencias
Agrega las siguientes dependencias a tu proyecto:
Java
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-managed</artifactId>
<version>${beam.version}</version>
</dependency>
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-io-iceberg</artifactId>
<version>${beam.version}</version>
</dependency>
<dependency>
<groupId>org.apache.iceberg</groupId>
<artifactId>iceberg-gcp</artifactId>
<version>${iceberg.version}</version>
</dependency>
Ejemplo
En el siguiente ejemplo, se muestra una canalización de transmisión que lee eventos de CDC desde una tabla de Apache Iceberg, agrega clics de usuarios y escribe los resultados en otra tabla de Apache Iceberg.
Java
Para autenticarte en Dataflow, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
¿Qué sigue?
- Obtén más información sobre E/S administradas.
- Obtén más información sobre el Catálogo de BigLake con REST.