このページは Cloud Translation API によって翻訳されました。

主なコンセプトと機能

動作とユースケース

Datastream を使用すると、リレーショナルデータベース管理システム（RDBMS）やその他のソースのソースデータを BigQuery、BigLake Iceberg テーブル、Cloud Storage などの宛先にほぼリアルタイムで移行できます。これにより、ダウンストリームのユースケース（データウェアハウジングと分析のためにデータを BigQuery に読み込む、人工知能や機械学習のユースケースに対してデータに対して Spark ジョブを実行する、など）に対応できます。

コンセプト

このセクションでは、Datastream を効果的に使用するために理解しておく必要がある主なコンセプトについて説明します。

変更データキャプチャ

変更データキャプチャ（CDC）は、変更されたデータを特定（および追跡）して、変更されたデータを使用してアクションを実行できるようにするために使用される一連のソフトウェア設計パターンです。CDC は、エンタープライズデータソースに加えられた変更の識別、キャプチャ、配信に基づくデータ統合のアプローチでもあります。

イベントソーシング

2005 年に導入されたイベントソーシングは、アプリケーションの状態の変化がすべてイベントオブジェクトでキャプチャされる設計パターンです。イベントソーシングを活用することで、アプリケーションでは、状態を再構築する、ポイントインタイムリカバリを（その時点までにイベントを処理することで）実行する、ロジックが変更された場合は状態を再計算する、またはコマンドクエリ責務分離（CQRS）設計を有効にすることが可能になります。リアルタイムイベント処理ツールの進化に伴い、多くのアプリケーションがイベントソーシングモデルに移行しています。これまで、トランザクションデータベースは、アトミック性、整合性、独立性、永続性（ACID）の要件により常にイベント指向でした。

トランザクションデータベース

トランザクションデータベースでは、データベースが行う一連のオペレーションは通常、ストレージエンジンでオペレーションが実行される前に先行書き込みログ（WAL）に書き込まれます。ストレージエンジンでオペレーションが実行され、WAL にコミットされると、オペレーションは成功したとみなされます。WAL を使用するとアトミック性と耐久性が可能になり、データベースの忠実性の高いレプリケーションも可能です。一部のデータベースでは、ストレージレベルで発生する正確なオペレーション（例: write 0x41 on location 20）がログに書き込まれるため、これらのアクションは同じストレージエンジンでのみ複製（またはやり直し）できます。他のデータベースでは、別のストレージエンジンで再実行できる完全な論理ステートメント（または行）がログに記録されます。

イベントとストリーム

Datastream は、さまざまなソースからほぼリアルタイムで大量のデータを取り込んで、データを移行先で利用できるようにします。Datastream では、データはイベント単位で保存されます。ストリームは、ソースからのイベントの継続的な取り込みと、宛先への書き込みを表します。

統合型

データソースには独自のタイプがあり、中にはデータベース自体に固有のものもあれば、汎用的で、データベース間で共有されるものもあります。統合された転送先へのストリームを生成する多くの異なるソースがあるため、すべてのソースで元のソースタイプを表す標準的で、統合された方法が必要です。統合型は、すべてのソースでデータ型を表現する一般的かつロスレスな方法であり、統合された方法で使用できるようになります。Datastream でサポートされている統合型は、サポートされているすべてのソースシステムにまたがる正規化されたすべての型のスーパーセットを表すため、すべての型をロスレスでサポートできます。

エンティティのコンテキスト

Datastream には 5 つのエンティティがあります。

プライベート接続の構成により、Datastream が安全なプライベートネットワーク接続を介してデータソースと通信できるようになります。この通信は、Virtual Private Cloud（VPC）ピアリングを介して行われます。
接続プロファイルは、特定のソースまたは転送先データベースへの接続情報を表します。
ストリームは、ソースと転送先の接続プロファイルのペアとストリーム固有の設定を表します。
オブジェクトは、ストリームの副次的な部分を表します。たとえば、データベースストリームにはすべてのテーブルに対してストリーミングされるデータオブジェクトがあります。
イベントは、特定のオブジェクトに対するデータ操作言語（DML）のすべての変更を表します。

プライベート接続構成を作成すると、プライベート通信チャネルを介して Google Cloud または他の場所にホストされているソースに接続できます。プライベート接続は省略可能です。Datastream は、パブリックネットワークを介した他の接続モードもサポートしています。

ソースと転送先の接続プロファイルを作成したら、接続プロファイルに保存されている情報を使用して、ソースから転送先にデータを転送するストリームを作成できます。

ストリームを作成すると、Datastream はソースに直接接続し、コンテンツを消費した後、イベント構造に基づいてイベントを処理して転送先に書き込みます。

プライベート接続構成と接続プロファイルは、再利用のためにストリームとは別に管理できます。

機能

Datastream の機能は次のとおりです。

サーバーレス: ストリームを構成すると、データが移動し始めます。インストール、リソースの割り当て、メンテナンスオーバーヘッドは発生しません。データ量は増減するため、Datastream の自動スケーリング機能により、データがニアリアルタイムで自動的に移動し続けるようにリソースが割り当てられます。
統合 Avro ベース型スキーマ: Datastream は、すべてのソース固有のデータ型を Avro 型に基づいて統合 Datastream 型スキーマに変換することで、ソースに依存しない処理を実現します。
履歴データと CDC データのストリーミング: Datastream は、履歴と CDC の両方のソースデータを同時にリアルタイムでストリーミングします。
追加ライセンスのない Oracle CDC: Datastream は、Oracle ソースのバージョン 11.2g 以降の LogMiner ベースの CDC ストリーミングを提供します。追加ライセンスやソフトウェアのインストールに追加料金はかかりません。
BigQuery の宛先: ソースの変更は、ニアリアルタイムで BigQuery テーブルに継続的に複製されます。BigQuery のデータは、ほぼすぐに分析に使用できます。
Cloud Storage の転送先: CDC データは、Cloud Storage の自己記述型 Avro ファイルまたは JSON ファイルに継続的に書き込まれます。この情報は、所定の場所での直接の追加処理や、ダウンストリームの別の転送先（Spanner など）への読み込みによって、追加の処理を行うために簡単に利用できます。

ユースケース

Datastream の使用には、主に次の 3 つのシナリオがあります。

データ統合: データベースと Software as a Service（SaaS）クラウドサービスからのデータストリームは、BigQuery にデータを読み込むことで、ニアリアルタイムのデータ統合パイプラインにデータをフィードできます。
ストリーミング分析: データベースの変更は、Dataflow などのストリーミングパイプラインに取り込まれ、不正行為の検出、セキュリティイベントの処理、異常検出に使用されます。
ほぼリアルタイムのデータ変更の利用可能性: ほぼリアルタイムでのデータ変更の利用可能性により、人工知能と機械学習アプリケーションが強化され、チャーンの防止や、マーケティング活動や本番システムへのフィードバックを活用したエンゲージメントの拡大ができます。

行動サマリー

Datastream を使用すると、お客様は複数のデータソースからの継続的な変更を Google Cloudに直接ストリーミングできます。

ソース

認証や追加の構成オプションなど、Datastream で使用するソースの設定作業が必要です。
各ソースは、すべてのデータ操作言語（DML）の変更を反映するイベントを生成します。
各ストリームでは、過去のデータをバックフィルするほか、進行中の変更を転送先にストリーミングできます。

宛先

Datastream は、宛先として BigQuery と Cloud Storage をサポートしています。ストリームが作成されると、選択した BigQuery データセットまたは Cloud Storage バケットが定義されます。

イベント配信

イベントの順序は保証されません。イベントメタデータには、イベントの順序を決めるために使用できる情報が含まれます。
イベント配信は少なくとも 1 回発生します。イベントメタデータには、転送先で重複するデータを削除するために使用できるデータが含まれています。
イベントのサイズは、BigQuery の宛先の場合はイベントあたり 20 MB、Cloud Storage の宛先の場合はイベントあたり 100 MB に制限されています。

イベントについて詳しくは、イベントとストリームをご覧ください。

高可用性と障害復旧

このセクションでは、高可用性と障害復旧に関連するシナリオを Datastream がどのように扱うかについて説明します。

高可用性: Datastream はリージョンサービスであり、各リージョンの複数のゾーンで実行されます。いずれかのリージョンで単一ゾーンの障害が発生しても、他のゾーンでのサービスの可用性や品質には影響しません。
障害復旧: リージョンに障害が発生した場合、そのリージョンで実行されているストリームはすべて停止している間中断します。サービス停止が解決した後、Datastream は中断したところから再開され、宛先に書き込まれていないデータはソースから再び取得されます。この場合、移行先ではデータの重複が発生する可能性があります。重複するデータの削除について詳しくは、イベント配信をご覧ください。

初期データと CDC データ

データソースには、ソースがストリームに接続される前に存在していたデータ（履歴データ）が含まれるため、Datastream は、履歴データとイベントをリアルタイムで発生するイベントの両方を生成します。

迅速なデータアクセスを確保するため、履歴データとリアルタイムのデータ変更を同時に転送先に複製します。イベントメタデータは、イベントがバックフィルのものか、CDC からのものかを示しています。

次のステップ

Datastream の詳細を確認します。
統合型マッピングについて学習する。
Datastream でサポートされているソースの詳細を確認する。
Datastream がサポートする宛先の詳細を確認する。
プライベート接続構成、接続プロファイル、ストリームを作成する方法を確認する。