変更データ キャプチャ(CDC)処理
bookmark_borderbookmark
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
このページでは、BigQuery の Google Cloud Cortex Framework 内の変更データ キャプチャ(CDC)について説明します。BigQuery は、新しいデータを効率的に保存して分析するように設計されています。
CDC プロセス
ソースデータ システム(SAP など)でデータが変更されても、BigQuery は既存のレコードを変更しません。代わりに、更新された情報は新しいレコードとして追加されます。重複を回避するには、後で結合オペレーションを適用する必要があります。このプロセスは、変更データ キャプチャ(CDC)処理と呼ばれます。
Data Foundation for SAP には、更新の結果として生成された新しいレコードを統合または upsert
して、新しいデータセットに最新バージョンのみを保持する Cloud Composer または Apache Airflow のスクリプトを作成するオプションが含まれています。これらのスクリプトを機能させるには、テーブルに特定のフィールドが必要です。
operation_flag
: このフラグは、レコードが挿入、更新、削除されたかどうかをスクリプトに伝えます。
recordstamp
: このタイムスタンプは、レコードの最新バージョンを特定するのに役立ちます。このフラグは、レコードが次のいずれかであることを示します。
CDC 処理を利用することで、BigQuery データにソースシステムの最新の状態が正確に反映されるようにできます。これにより、重複エントリが排除され、データ分析の信頼できる基盤が確立されます。
データセットの構造
サポートされているすべてのデータソースで、アップストリーム システムのデータはまず BigQuery データセット(source
または replicated dataset
)に複製され、更新または統合された結果が別のデータセット(CDC データセット)に挿入されます。レポートビューは CDC データセットからデータを選択し、レポートツールとアプリケーションに常に最新バージョンのテーブルが提供されるようにします。
次のフロー図は、operational_flag
と recordstamp
に応じて SAP の CDC 処理がどのように行われるかを示しています。

図 1SAP の CDC 処理の例。次のフロー図は、Salesforce API によって生成された Id
フィールドと SystemModStamp
フィールドに応じて、API から Salesforce の元データと CDC 処理への統合を示しています。

図 2API から Salesforce の元データと CDC 処理への統合。一部のレプリケーション ツールでは、BigQuery にレコードを挿入するときにレコードを統合またはアップサートできるため、これらのスクリプトの生成は任意です。この場合、設定にはデータセットが 1 つだけあります。レポート データセットは、そのデータセットからレポート用に更新されたレコードを取得します。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-03-06 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["わかりにくい","hardToUnderstand","thumb-down"],["情報またはサンプルコードが不正確","incorrectInformationOrSampleCode","thumb-down"],["必要な情報 / サンプルがない","missingTheInformationSamplesINeed","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-03-06 UTC。"],[[["Change Data Capture (CDC) in Google Cloud Cortex Framework for BigQuery adds updated information as new records instead of modifying existing ones."],["A merge or upsert operation is required after CDC to avoid duplicates and keep only the latest version of each record in a new dataset."],["The process relies on `operation_flag` and `recordstamp` fields to identify whether a record was inserted, updated, or deleted, and to track the most recent version."],["Data is replicated into a `source` dataset, and the merged results are inserted into a separate CDC dataset, ensuring reporting tools always use the latest data version."],["Some replication tools can merge or upsert records during insertion into BigQuery, making the creation of CDC scripts optional, and allowing a single dataset approach."]]],[]]