コンテンツに移動
デベロッパー

Datastream について知っておくべきこと

2021年8月16日
https://storage.googleapis.com/gweb-cloudblog-publish/images/datastream_header.max-2600x2600.png
Google Cloud Japan Team

※この投稿は米国時間 2021 年 7 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。

データ量が増大し続ける中、多くの企業はデータの効率的な使用やデータからの分析情報の取得が困難と感じています。そうした企業の大半は、扱いにくく保守が難しいデータ アーキテクチャに煩わされています。

企業がこうした課題に取り組む方法の一つとして、変更ストリーミングがあります。変更ストリーミングとは、データ変更発生時のソース(通常はデータベース)から発信先への変更の移動を指します。変更データ キャプチャ(CDC)を活用した変更ストリーミングは、非常に重要なデータ アーキテクチャの構成要素になっています。Google は最近、サーバーレスの変更データ キャプチャとレプリケーション サービスである Datastream を発表しました。Datastream の主な特長は次のとおりです。

  • 最小限のレイテンシで組織規模でデータをレプリケートおよび同期します。異種のデータベースやアプリケーション間でデータを確実かつ低レイテンシで同期することができ、ソースのパフォーマンスへの影響も最小限に抑えます。ハイブリッド環境全体で分析、データベース レプリケーション、クラウドへの移行、イベント ドリブン アーキテクチャ向けにデータ ストリームを最大限に活用できます。

  • サーバーレス アーキテクチャをシームレスにスケールアップ / スケールダウンできます。データ量の推移に応じてシームレスにスケーリングできるサーバーレスで使いやすいサービスを、簡単な設定ですぐに始めることができます。インフラストラクチャの管理、パフォーマンスの調整、リソースのプロビジョニングに煩わされることなく、データから最新の分析情報を引き出し、優先度の高い課題への対応に集中できます。

  • Google Cloud のデータ統合スイートとの統合が可能です。Google Cloud のデータ統合プロダクトを使用して、組織全体でデータを統合します。Datastream では Dataflow テンプレートを活用し BigQuery、Cloud Spanner、Cloud SQL にデータを読み込みます。また、Cloud Data Fusion の CDC レプリケータ コネクタを強化し、データ パイプライン作成をこれまで以上に容易にします。

Datastream のユースケース

Datastream は Oracle、MySQL、そして Cloud Storage、Pub/Sub、BigQuery、Spanner などのその他の発信先のソースから変更ストリームを取得します。Datastream のユースケースには、次のようなものがあります。

  • 分析には事前構築済みの Dataflow テンプレートで Datastream を使用し、フルマネージドされた方法で BigQuery にレプリケートされた最新のテーブルを作成します。

  • データベース レプリケーションには事前構築済みの Dataflow テンプレートで Datastream を使用して、継続的にデータベースを Cloud SQL for PostgreSQL または Spanner にレプリケートおよび同期し、短いダウンタイムでのデータベース移行またはハイブリッド クラウド構成を強化します。

  • イベント ドリブン アーキテクチャの構築には、Datastream を使用して複数のソースから Google Cloud Storage のようなオブジェクト ストア、または将来的には Pub/SubKafka のようなメッセージ サービスに変更を取り込みます。

  • MongoDB で Datastream を使用して、既存のリレーショナル データストア(Oracle や MySQL など)からデータを継続的にストリーミングするリアルタイムのデータ パイプラインを整備します。

Datastream の設定方法

  1. ソース接続プロファイルを作成します。

  2. 発信先接続プロファイルを作成します。

  3. ソース接続プロファイルと発信先接続プロファイルを使用してストリームを作成し、ソースから pull するオブジェクトを定義します。

  4. ストリームを有効にして開始します。

開始後は、ストリームは継続的にソースから発信先にデータをストリーミングします。ストリームは一時中止と再開が可能です。

接続オプション

Datastream を使用してソース データベースから発信先へのストリームを作成する場合、ソース データベースへの接続を確立する必要があります。Datastream では接続手段として IP 許可リスト、転送 SSH トンネル、VPC ピアリング ネットワーク接続をサポートしています。

プライベート接続の構成により、Datastream がプライベート ネットワーク(Google Cloud 内または VPN もしくは相互接続で接続される外部ソース)を介してデータソースと通信することが可能になります。この通信は、Virtual Private Cloud(VPC)とのピアリング接続を介して行われます。

Datastream の詳細については、ドキュメントをご確認ください。

#GCPSketchnote の詳細については、GitHub リポジトリをフォローしてください。同様のクラウド コンテンツについては、Twitter で @pvergadia で発信しています。thecloudgirl.dev もぜひご覧ください。

 

-Google デベロッパー アドボケイト Priyanka Vergadia
投稿先