Datastream の概要

概要

Datastream は、サーバーレスで使いやすい変更データ キャプチャ(CDC)およびレプリケーション サービスであり、データを確実に、かつ最小限のレイテンシで同期できます。

Datastream を使用すると、運用データベースから BigQuery にデータをシームレスに複製できます。さらに、Datastream では変更イベント ストリームを Cloud Storage に書き込みむことができます。Dataflow テンプレートとの統合が効率化されているため、Cloud SQL や Spanner などの幅広い宛先にデータを読み込むカスタム ワークフローを構築できます。また、Datastream を使用して Cloud Storage から直接イベント ストリームを利用し、イベント ドリブン アーキテクチャを実現することもできます。Datastream は、Oracle、MySQL、SQL Server(プレビュー)、PostgreSQL(AlloyDB for PostgreSQL を含む)の各ソースをサポートしています。

Datastream のメリット:

  • 低レイテンシのデータ レプリケーションのための ELT(抽出、読み込み、変換)パイプラインのシームレスなセットアップによって、BigQuery でほぼリアルタイムの分析情報を可能にします。
  • サーバーレスであるため、プロビジョニングや管理が必要なリソースはありません。また、必要に応じて最小限のダウンタイムで、サービスを自動的にスケールアップやスケールダウンができます。
  • 簡単にセットアップしてモニタリングできるため、短期間で価値を実現します。
  • Google Cloud データサービスの最高のポートフォリオで統合され、Datastream、Dataflow、Cloud Data Fusion、Pub/Sub、BigQuery などのデータ統合に対応できます。
  • 異種のデータベースおよびアプリケーション間でデータ ストリームを同期し、統合します。
  • セキュリティはプライベート接続オプション付きで、ユーザーが Google Cloud に要求するセキュリティです。
  • 透明性の高いステータス レポートにより正確性と信頼性を確保し、データとスキーマが変更しても確実に処理できます。
  • 移行とハイブリッド クラウド構成を実現するための分析、データベースのレプリケーション、同期、そしてイベント駆動型アーキテクチャの構築など、複数のユースケースをサポートします。

ユースケース

Datastream のストリーミング機能は、さまざまなユースケースを可能にします。

  • 最小限のレイテンシで組織全体のデータを複製および同期

    異種のデータベースやアプリケーション間でデータを確実かつ低レイテンシで同期することができ、ソースのパフォーマンスへの影響も最小限に抑えます。ハイブリッド環境全体で分析、データベース レプリケーション、クラウドへの移行、イベント駆動型アーキテクチャ向けにデータ ストリームを最大限に活用できます。

  • サーバーレス アーキテクチャをシームレスにスケールアップ / スケールダウンする

    データ量の推移に応じてシームレスにスケーリングできるサーバーレスで使いやすいサービスを、簡単な設定ですぐに始めることができます。インフラストラクチャの管理、パフォーマンスの調整、リソースのプロビジョニングに煩わされることなく、データから最新の分析情報を引き出し、優先度の高い課題への対応に集中できます。

  • Google Cloud のデータ統合スイートとの統合

    Google Cloud プロダクトのデータ統合スイートを使用すると、組織全体のデータを結び付けることができます。Datastream では Dataflow テンプレートを活用し、BigQuery、Spanner、Cloud SQL にデータを読み込みます。また、Cloud Data Fusion の CDC レプリケータ コネクタを機能させ、データ パイプライン作成をこれまで以上に容易にします。

エクスペリエンスの要素

Datastream を構成する主な要素は 3 つあります。

  • プライベート接続の構成により、Datastream がプライベート ネットワーク(Google Cloud 内または VPN もしくは相互接続で接続される外部ソース)を介してデータソースと通信することが可能になります。この通信は、Virtual Private Cloud(VPC)とのピアリング接続を介して行われます。
  • 接続プロファイルは、ソースと宛先の両方への接続情報を表します。この情報はストリームで使用されます。
  • ストリームは接続プロファイルの情報を使用して、CDC を転送するとともに、ソースから宛先にデータをバックフィルします。