Para gravar do Dataflow no Apache Iceberg usando o catálogo REST do BigLake, use o conector de E/S gerenciado.
A E/S gerenciada oferece suporte aos seguintes recursos do Apache Iceberg:
Catálogos |
|
---|---|
Recursos de leitura | Leitura em lote |
Recursos de gravação |
|
Para tabelas do BigQuery para Apache Iceberg,
use o
conector BigQueryIO
com a API BigQuery Storage. A tabela já precisa existir. Não é possível criar tabelas dinâmicas.
Pré-requisitos
Configure o BigLake. Configure seu projeto do Google Cloud Platform com as permissões necessárias seguindo Usar o metastore do BigLake com o catálogo REST do Iceberg. Entenda as limitações do catálogo REST do BigLake Iceberg descritas nessa página.
Dependências
Adicione estas dependências ao projeto:
Java
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-managed</artifactId>
<version>${beam.version}</version>
</dependency>
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-io-iceberg</artifactId>
<version>${beam.version}</version>
</dependency>
<dependency>
<groupId>org.apache.iceberg</groupId>
<artifactId>iceberg-gcp</artifactId>
<version>${iceberg.version}</version>
</dependency>
Exemplo
O exemplo a seguir demonstra um pipeline de streaming que grava dados em uma tabela do Apache Iceberg usando o catálogo REST, com suporte do BigLake Metastore.
Java
Para autenticar no Dataflow, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
A seguir
- Leitura de CDC do Apache Iceberg com o catálogo REST do BigLake.
- Saiba mais sobre o Managed I/O.
- Saiba mais sobre o catálogo REST do BigLake.