Apache Iceberg 用 Dataflow マネージド I/O

マネージド I/O は、Apache Iceberg の次の機能をサポートしています。

カタログ
  • Hadoop
  • Hive
  • REST ベースのカタログ
  • BigQuery metastore(Beam 2.63.0 のリリース後)
読み取り機能 バッチ読み取り
書き込み機能

Apache Iceberg 用の BigQuery テーブルの場合は、BigQuery Storage API で BigQueryIO コネクタを使用します。テーブルはすでに存在している必要があります。動的テーブルの作成はサポートされていません。

要件

Apache Beam SDK for Java バージョン 2.58.0 以降が必要です。

構成

マネージド I/O は、Apache Iceberg に次の構成パラメータを使用します。

構成の読み取りと書き込み データ型 説明
table 文字列 Apache Iceberg テーブルの識別子。例: "db.table1"
catalog_name 文字列 カタログ名です。例: "local"
catalog_properties マップ Apache Iceberg カタログの構成プロパティのマップ。必要なプロパティはカタログによって異なります。詳細については、Apache Iceberg ドキュメントの CatalogUtil をご覧ください。
config_properties マップ オプションの Hadoop の構成プロパティのセット。詳細については、Apache Iceberg ドキュメントの CatalogUtil をご覧ください。
構成を書き込む データ型 説明
triggering_frequency_seconds integer ストリーミング書き込みパイプラインの場合、シンクがスナップショットの生成を試みる頻度(秒単位)。

詳細とコードの例については、次のトピックをご覧ください。