新しいサーバーレスの Datastream で、変更データのキャプチャとレプリケーションを最大限に活用 - 一般提供を開始
Google Cloud Japan Team
※この投稿は米国時間 2021 年 12 月 2 日に、Google Cloud blog に投稿されたものの抄訳です。
このたび、Google Cloud のサーバーレス変更データ キャプチャ(CDC)およびレプリケーション サービスである Datastream の一般提供が開始されたことをお知らせします。Datastream では、異種のデータベース、ストレージ システム、アプリケーション間でデータを確実に、かつ最小限のレイテンシで同期し、リアルタイム解析、データベース レプリケーション、イベント ドリブン アーキテクチャをサポートできます。また、Oracle および MySQL データベースの変更ストリームを BigQuery、Cloud SQL、Google Cloud Storage、Cloud Spanner などの Google Cloud サービスに簡単かつシームレスに配信できるため、時間とリソースを節約し、データを正確かつ最新の状態に保てます。今すぐ Datastream の使用を開始しましょう。
* サポートされているすべてのソースと宛先については、ドキュメント ページを確認してください。
今年、Google の一般公開プレビュー版がリリースされて以降、Datastream は Chess.com、Cogeco、Schnuck Markets、MuchBetter など、幅広い業種のお客様に使用されてきました。この先行導入を通じて、リアルタイム解析や事業運営のためのレプリケーション機能、ストリーミング機能を備えた変更データ キャプチャの必要性について、お客様の意見をより間近に聞くことができました。
MuchBetter は複数の受賞歴のある e ウォレット アプリであり、真にセキュアで楽しく使える新感覚のバンキング ツールを世界中のユーザーに提供しています。同アプリは Google Cloud プレミア パートナーの Datatonic と連携し、Datastream を活用して MySQL OLTP データベースから BigQuery データ ウェアハウスにリアルタイム データをレプリケートし、分析ニーズに対応しています。MuchBetter のテクノロジー責任者である Andrew McBrearty 氏は次のように述べています。「MuchBetter は、Dataflow、BigQuery、Looker を活用することで、増え続ける運用データからさらなる分析情報を引き出せるようになりました。自社のソリューションに Datastream を使うことで、トレンド分析といったリアルタイムの機能を確実に持続的に運用できるようになり、ビジネス全体の効率が改善しました。また、実用的なインサイトの獲得や、データドリブンな意思決定のためにデータを活用できるようになっています。これによって MuchBetter はさらなる成長を遂げ、お客様が期待するペースに合わせることができます。また、初めて ML と AI を導入する道も開かれました」
Datastream を理解する
Datastream が Google Cloud のお客様から選ばれる理由には、リアルタイム変更データ キャプチャにおける差別化されたアプローチがあります。
シンプルなエクスペリエンス
変更データのリアルタイム レプリケーションは単純であるべきです。データベースの準備に関するドキュメント、保護された接続の設定、ストリームの検証をフローに組み込む必要があります。Datastream の提供するエクスペリエンスはまさにそのようなものであることを、MuchBetter もプロダクトの評価時に実感しています。「Datastream は使いやすく、すぐに利用を始められる(サーバーレス)ので、評価を開始してすぐに成果を実感することができました」と MuchBetter のプリンシパル データ エンジニアの Mark Venables 氏は言います。「これによって当社では、サードパーティの CDC サプライヤーと概念実証テストを調整するために必要だったかなりの量の事前作業が不要になりました」
エンドツーエンドのソリューション
ソース データベースから変更をレプリケートするパイプラインを構築するために、チームの時間をすべて費やす必要はありません。事前に作成された Dataflow テンプレートを使うと、BigQuery、Cloud Spanner、Cloud SQL にデータを簡単にレプリケートできます。Dataflow テンプレートはすぐに使用でき、テーブルを自動的に作成してレプリケート先でデータを更新します。また、想定外のイベントや重複イベントが発生しても適切に処理し、エラーを解消する機能を備えています。テンプレートの柔軟性を活かして、固有のニーズに合わせて Dataflow をきめ細かく調整できます。「Google が管理する Dataflow テンプレートを使うことで、最小限の労力と手間でパイプラインを稼働させることができました。そのため、ユーザーにソリューションを問題なく提供しながらも、さらに複雑なパイプライン開発にもっと多くの時間を費やすことができました」と Venables 氏は語ります。
セキュリティ
Datastream はソース データベースと宛先データベース間のプライベート接続をサポートし、移行データを安全に保護します。「接続性の確立は難しいと思われがちです。Datastream には驚かされました。セキュリティをより強化したモードでも、使いやすく設定も簡単だったのです」と Chess.com でプリンシパル クラウド アーキテクトを務める Grzegorz Dlugolecki 氏は述べています。Chess.com は、日々 1,000 万局以上ものチェスの対局をホストする大手オンライン チェス コミュニティおよびモバイルアプリです。同氏はこう続けています。「Datastream のプライベート接続構成によって、ソースと宛先との間にプライベート接続を簡単に作成でき、データを安全に保護できます」
高スループットかつ低レイテンシ
Datastream のサーバーレス アーキテクチャを利用すると、プロビジョニングやマシンの管理、データ スループットの変動に合わせたリソースのスケールアップについて心配する必要がなくなります。Datastream は高いパフォーマンスを保証しており、レイテンシを最小に抑えながら、単一のストリームで 1 秒あたり数十 MB を処理できます。Dlugolecki 氏は次のように話しています。「大手の ETL ソリューションを何件か評価しました。そのなかで、1 つのテーブルから成る当社の複雑なデータシートを同期できた唯一のツールが Datastream で、他のベンダーでは数年かかると予想されるところを、数週間で完了しました」
Datastream を使ってみる
今すぐ Datastream を使って、Oracle および MySQL データベースからリアルタイムの変更をストリーミングできます。
Google Cloud Console の [ビッグデータ] の下にある [データストリーム] 領域に移動し、[ストリームの作成] をクリックします。
ソース データベースのタイプを選択し、ソースを設定するために必要なアクションを確認します。
ソースの接続プロファイルを作成します。これは、後で追加のストリームに使用できます。
ソースをどのように接続するかを定義します。
宛先の接続プロファイルを作成して構成します。
ストリームを検証し、テストが成功したことを確認します。準備が整ったらストリームを開始します。
ストリームを開始すると、Datastream は過去のデータのバックフィルを行い、新しい変更が発生するたびにその変更をレプリケートします。
詳細を確認し、Datastream を今すぐ使い始める
このたび、Datastream の一般提供が開始され、Oracle と MySQL のソースで利用できるようになりました。Datastream は、オンプレミスとクラウド両方のソースをサポートし、過去のデータと変更を Cloud Storage にキャプチャします。Cloud Data Fusion および Cloud Dataflow(Google のデータ統合プロダクトとストリーム処理プロダクト)とのインテグレーションにより、BigQuery、Cloud Spanner、Cloud SQL など他の Google Cloud の宛先に変更をレプリケートします。
詳しくは、Datastream のドキュメントや、順を追って Datastream と Dataflow から BigQuery への流れを解説したチュートリアルをご覧ください。また、こちらの Datastream Qwiklab でトレーニングを開始することもできます。
- プロダクト マネージャー Etai Margolin