Apache Iceberg 用 Dataflow マネージド I/O

マネージド I/O は、Apache Iceberg の次の機能をサポートしています。

カタログ バッチ読み取り バッチ書き込み ストリーミング書き込み 動的テーブルの作成 ダイナミック デスティネーション
Hadoop サポート対象 サポート対象 サポート対象 サポート対象 サポート対象
Hive サポート対象 サポート対象 サポート対象 サポート対象 サポート対象
REST ベースのカタログ サポート対象 サポート対象 サポート対象 サポート対象 サポート対象
BigQuery メタストア サポート対象 サポート対象 サポート対象 サポート対象 サポート対象

Apache Iceberg 用の BigQuery テーブルの場合は、BigQuery Storage API で BigQueryIO コネクタを使用します。テーブルはすでに存在している必要があります。動的テーブルの作成はサポートされていません。

要件

Apache Beam SDK for Java バージョン 2.58.0 以降が必要です。

構成

マネージド I/O は、Apache Iceberg に次の構成パラメータを使用します。

構成の読み取りと書き込み データ型 説明
table 文字列 Apache Iceberg テーブルの識別子。例: "db.table1"
catalog_name 文字列 カタログ名です。例: "local"
catalog_properties マップ Apache Iceberg カタログの構成プロパティのマップ。必要なプロパティはカタログによって異なります。詳細については、Apache Iceberg ドキュメントの CatalogUtil をご覧ください。
config_properties マップ オプションの Hadoop の構成プロパティのセット。詳細については、Apache Iceberg ドキュメントの CatalogUtil をご覧ください。
構成を書き込む データ型 説明
triggering_frequency_seconds integer ストリーミング書き込みパイプラインの場合、シンクがスナップショットの生成を試みる頻度(秒単位)。

詳細とコードの例については、次のトピックをご覧ください。