Datastream の追記専用 CDC で BigQuery の履歴データの追跡を簡素化する
Etai Margolin
Product Manager
Yaara Gazit
Software Engineer
※この投稿は米国時間 2024 年 6 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。
組織は、最新の「信頼できるデータソース」を持つ必要性と、自社データの完全な変更履歴を追跡できる必要性の両方の実現に取り組むことがよくあります。このようなデータを MySQL や PostgreSQL などのオペレーショナル データベースで管理する場合の一般的なアプローチは、変更データ キャプチャ(CDC)を利用して、変更内容を BigQuery のようなクラウド データ ウェアハウスに複製することです。
先日、Google Cloud のサーバーレス CDC サービスである Datastream に、追記専用モードという新機能が導入されました。この機能は、オペレーショナル データベースの変更を BigQuery に複製するプロセスを効率化するものです。また、この機能は、履歴レコードを保持し、運用データの変更を長期にわたって追跡できる、効率的で費用対効果の高い手段です。
追記専用モードについて
従来の CDC ベースの複製では、ソース データベースのレコードが更新または削除されると複製先の対応するレコードが上書きされるため、変更履歴を追跡することが困難でした。追記専用モードでは、すべての変更を複製先である BigQuery テーブルの新しい行として保存することで、この問題に対処します。各行には、変更の種類(挿入、更新、削除)、固有識別子、タイムスタンプ、その他の関連情報をキャプチャするメタデータが含まれ、必要に応じてデータの並べ替えやフィルタに使用されます。
ユースケースと利点
追記専用モードは、変更履歴を保持する必要がある場合に特に有益です。一般的なユースケースは以下のとおりです。
-
監査とコンプライアンス: 規制コンプライアンスや内部監査のために、データの変更をすべて追跡します。
-
傾向分析: 履歴データを分析し、長期的なパターン、傾向、異常値を特定します。
-
Customer 360: 顧客データの変更を追跡することで、顧客とのやり取りや顧客の好みを包括的に把握できます。
-
エンべディングのドリフトの分析: エンべディングの履歴レコードにより、エンべディングのドリフトを分析し、モデルのパフォーマンスへの影響を評価できます。
-
タイムトラベル: 特定の時点のデータ ウェアハウスをクエリし、履歴の分析と比較を可能にします。
例
顧客情報を MySQL テーブルに保存し、MySQL を主要な信頼できるデータソースとして使用する必要があるとします。分析チームは、顧客の行動や好みを分析するために顧客レコードの変更を追跡する必要があります。追記専用モードを有効にすると、挿入、更新、削除など、このテーブルに対するすべての変更が、関連付けられた BigQuery テーブルの新しい行として記録されます。これにより、分析に必要なデータをデータ分析チームが取得するプロセスが簡素化されます。
追記専用モードの利点
-
費用対効果: 既存データに複雑なマージ操作を適用する代わりに新しい行を追加するだけになり、処理費用を削減できます。
-
データ精度の向上: 完全かつ正確な変更履歴を保持し、データ喪失のリスクを最小限に抑えます。
-
リアルタイムの分析情報: 変更が生じたときにリアルタイムで分析できるため、迅速な意思決定が可能になります。
追記専用モードの使い方
追記専用モードは、ユーザー インターフェースまたは API 経由でストリームを作成する際に、簡単に有効化できます。Datastream により、必要なメタデータ列を持つ BigQuery テーブルが自動生成され、変更をモニタリングできるようになります。
![https://storage.googleapis.com/gweb-cloudblog-publish/original_images/image1_OF6Bcfh.gif](https://storage.googleapis.com/gweb-cloudblog-publish/original_images/image1_OF6Bcfh.gif)
![https://storage.googleapis.com/gweb-cloudblog-publish/original_images/image1_OF6Bcfh.gif](https://storage.googleapis.com/gweb-cloudblog-publish/original_images/image1_OF6Bcfh.gif)
まとめ
Datastream の追記専用モードは、Google Cloud のデータ複製機能およびデータ統合機能に追加される重要な機能です。変更データ キャプチャを簡素化し、変更の完全な履歴を提供することで、企業は自社データに基づくより深い分析情報を取得し、データの精度を向上させ、データ パイプラインを効率化することができます。詳細については、ドキュメントをご覧ください。
-プロダクト マネージャー Etai Margolin
-ソフトウェア エンジニア Yaara Gazit