托管式 I/O 支持 Apache Iceberg 的以下功能:
目录 | 批量读取 | 批量写入 | 流式写入 | 创建动态表 | 动态目的地 |
---|---|---|---|---|---|
Hadoop | 支持 | 支持 | 支持 | 支持 | 支持 |
Hive | 支持 | 支持 | 支持 | 支持 | 支持 |
基于 REST 的目录 | 支持 | 支持 | 支持 | 支持 | 支持 |
BigQuery 元存储空间 | 支持 | 支持 | 支持 | 支持 | 支持 |
对于适用于 Apache Iceberg 的 BigQuery 表,请将 BigQueryIO
连接器与 BigQuery Storage API 搭配使用。该表必须已存在;不支持动态表创建。
使用要求
需要使用 Java 版 Apache Beam SDK 2.58.0 或更高版本。
配置
托管式 I/O 针对 Apache Iceberg 使用以下配置参数:
读取和写入配置 | 数据类型 | 说明 |
---|---|---|
table |
字符串 | Apache Iceberg 表的标识符。示例:
"db.table1" 。 |
catalog_name |
字符串 | 目录的名称。示例:"local" 。 |
catalog_properties |
地图 | Apache Iceberg 目录的配置属性映射。所需的属性取决于清单。如需了解详情,请参阅 Apache Iceberg 文档中的 CatalogUtil 。 |
config_properties |
地图 | 一组可选的 Hadoop 配置属性。如需了解详情,请参阅 Apache Iceberg 文档中的 CatalogUtil 。 |
写入配置 | 数据类型 | 说明 |
triggering_frequency_seconds |
整数 | 对于流式写入流水线,表示缓冲区尝试生成快照的频率,以秒为单位。 |
如需了解详情和代码示例,请参阅以下主题: