Para ler eventos de captura de dados de alterações (CDC) do Apache Iceberg através do catálogo REST do BigLake, use o conetor de E/S gerido do Apache Beam.
A E/S gerida suporta as seguintes capacidades para o Apache Iceberg:
Catálogos |
|
---|---|
Capacidades de leitura | Leitura em lote |
Capacidades de escrita |
|
Para tabelas do BigQuery para o Apache Iceberg,
use o
conetor BigQueryIO
com a API BigQuery Storage. A tabela tem de existir. A criação de tabelas dinâmicas não é suportada.
Limitações
- O CDC do Apache Iceberg só é suportado através da API gerida. As funcionalidades do serviço de transformações geridas ainda não estão ativadas. Espere alterações que afetem a compatibilidade com versões anteriores
- A API gerida de CDC só lê instantâneos de apenas anexação. O CDC completo ainda não está disponível.
Pré-requisitos
- Configure o BigLake. Configure o seu projeto da Google Cloud Platform com as autorizações necessárias seguindo o artigo Use o metastore do BigLake com o catálogo REST do Iceberg. Certifique-se de que compreende as limitações do catálogo REST do BigLake Iceberg descritas nessa página.
- Crie uma tabela Iceberg de origem. O exemplo apresentado aqui pressupõe que tem uma tabela do Apache Iceberg. Para criar um, pode usar o pipeline apresentado em Streaming Write to Apache Iceberg with BigLake REST Catalog.
Dependências
Adicione as seguintes dependências ao seu projeto:
Java
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-managed</artifactId>
<version>${beam.version}</version>
</dependency>
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-io-iceberg</artifactId>
<version>${beam.version}</version>
</dependency>
<dependency>
<groupId>org.apache.iceberg</groupId>
<artifactId>iceberg-gcp</artifactId>
<version>${iceberg.version}</version>
</dependency>
Exemplo
O exemplo seguinte demonstra um pipeline de streaming que lê eventos de CDC de uma tabela do Apache Iceberg, agrega cliques de utilizadores e escreve os resultados noutra tabela do Apache Iceberg.
Java
Para se autenticar no Dataflow, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
O que se segue?
- Saiba mais sobre a E/S gerida.
- Saiba mais acerca do catálogo REST do BigLake.