Datastream について知っておくべきこと
Google Cloud Japan Team
※この投稿は米国時間 2021 年 7 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。
データ量が増大し続ける中、多くの企業はデータの効率的な使用やデータからの分析情報の取得が困難と感じています。そうした企業の大半は、扱いにくく保守が難しいデータ アーキテクチャに煩わされています。
企業がこうした課題に取り組む方法の一つとして、変更ストリーミングがあります。変更ストリーミングとは、データ変更発生時のソース(通常はデータベース)から発信先への変更の移動を指します。変更データ キャプチャ(CDC)を活用した変更ストリーミングは、非常に重要なデータ アーキテクチャの構成要素になっています。Google は最近、サーバーレスの変更データ キャプチャとレプリケーション サービスである Datastream を発表しました。Datastream の主な特長は次のとおりです。
最小限のレイテンシで組織規模でデータをレプリケートおよび同期します。異種のデータベースやアプリケーション間でデータを確実かつ低レイテンシで同期することができ、ソースのパフォーマンスへの影響も最小限に抑えます。ハイブリッド環境全体で分析、データベース レプリケーション、クラウドへの移行、イベント ドリブン アーキテクチャ向けにデータ ストリームを最大限に活用できます。
サーバーレス アーキテクチャをシームレスにスケールアップ / スケールダウンできます。データ量の推移に応じてシームレスにスケーリングできるサーバーレスで使いやすいサービスを、簡単な設定ですぐに始めることができます。インフラストラクチャの管理、パフォーマンスの調整、リソースのプロビジョニングに煩わされることなく、データから最新の分析情報を引き出し、優先度の高い課題への対応に集中できます。
Google Cloud のデータ統合スイートとの統合が可能です。Google Cloud のデータ統合プロダクトを使用して、組織全体でデータを統合します。Datastream では Dataflow テンプレートを活用し BigQuery、Cloud Spanner、Cloud SQL にデータを読み込みます。また、Cloud Data Fusion の CDC レプリケータ コネクタを強化し、データ パイプライン作成をこれまで以上に容易にします。
Datastream のユースケース
Datastream は Oracle、MySQL、そして Cloud Storage、Pub/Sub、BigQuery、Spanner などのその他の発信先のソースから変更ストリームを取得します。Datastream のユースケースには、次のようなものがあります。
分析には事前構築済みの Dataflow テンプレートで Datastream を使用し、フルマネージドされた方法で BigQuery にレプリケートされた最新のテーブルを作成します。
データベース レプリケーションには事前構築済みの Dataflow テンプレートで Datastream を使用して、継続的にデータベースを Cloud SQL for PostgreSQL または Spanner にレプリケートおよび同期し、短いダウンタイムでのデータベース移行またはハイブリッド クラウド構成を強化します。
イベント ドリブン アーキテクチャの構築には、Datastream を使用して複数のソースから Google Cloud Storage のようなオブジェクト ストア、または将来的には Pub/Sub や Kafka のようなメッセージ サービスに変更を取り込みます。
MongoDB で Datastream を使用して、既存のリレーショナル データストア(Oracle や MySQL など)からデータを継続的にストリーミングするリアルタイムのデータ パイプラインを整備します。
Datastream の設定方法
ソース接続プロファイルを作成します。
発信先接続プロファイルを作成します。
ソース接続プロファイルと発信先接続プロファイルを使用してストリームを作成し、ソースから pull するオブジェクトを定義します。
ストリームを有効にして開始します。
開始後は、ストリームは継続的にソースから発信先にデータをストリーミングします。ストリームは一時中止と再開が可能です。
接続オプション
Datastream を使用してソース データベースから発信先へのストリームを作成する場合、ソース データベースへの接続を確立する必要があります。Datastream では接続手段として IP 許可リスト、転送 SSH トンネル、VPC ピアリング ネットワーク接続をサポートしています。
プライベート接続の構成により、Datastream がプライベート ネットワーク(Google Cloud 内または VPN もしくは相互接続で接続される外部ソース)を介してデータソースと通信することが可能になります。この通信は、Virtual Private Cloud(VPC)とのピアリング接続を介して行われます。
Datastream の詳細については、ドキュメントをご確認ください。
#GCPSketchnote の詳細については、GitHub リポジトリをフォローしてください。同様のクラウド コンテンツについては、Twitter で @pvergadia で発信しています。thecloudgirl.dev もぜひご覧ください。
-Google デベロッパー アドボケイト Priyanka Vergadia