适用于 Apache Iceberg 的 Dataflow 托管式 I/O

托管式 I/O 支持 Apache Iceberg 的以下功能:

目录 批量读取 批量写入 流式写入 创建动态表 动态目的地
Hadoop 支持 支持 支持 支持 支持
Hive 支持 支持 支持 支持 支持
基于 REST 的目录 支持 支持 支持 支持 支持
BigQuery 元存储空间 支持 支持 支持 支持 支持

对于适用于 Apache Iceberg 的 BigQuery 表,请将 BigQueryIO 连接器与 BigQuery Storage API 搭配使用。该表必须已存在;不支持动态表创建。

使用要求

需要使用 Java 版 Apache Beam SDK 2.58.0 或更高版本。

配置

托管式 I/O 针对 Apache Iceberg 使用以下配置参数:

读取和写入配置 数据类型 说明
table 字符串 Apache Iceberg 表的标识符。示例: "db.table1"
catalog_name 字符串 目录的名称。示例:"local"
catalog_properties 地图 Apache Iceberg 目录的配置属性映射。所需的属性取决于清单。如需了解详情,请参阅 Apache Iceberg 文档中的 CatalogUtil
config_properties 地图 一组可选的 Hadoop 配置属性。如需了解详情,请参阅 Apache Iceberg 文档中的 CatalogUtil
写入配置 数据类型 说明
triggering_frequency_seconds 整数 对于流式写入流水线,表示缓冲区尝试生成快照的频率,以秒为单位。

如需了解详情和代码示例,请参阅以下主题: