コンテンツに移動
データベース

Datastream で PostgreSQL からの取り込みと BigQuery への送信の一般提供が開始

2023年4月21日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 4 月 4 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud は昨年、Datastream for BigQuery のプレビュー版リリースを発表しました。Datastream for BigQuery は、オペレーショナル データベースのデータを Google Cloud のサーバーレス データ ウェアハウスである BigQuery に直接、シームレスにレプリケートするツールであり、組織がリアルタイムのデータに基づいて迅速かつ容易に意思決定を行うために役立ちます。このたび、Datastream for BigQuery の一般提供が開始されたことをお知らせいたします。

概要

Datastream for BigQuery は、BigQuery でリアルタイムの分析情報を簡単な手順で取得するためのシームレスかつ使いやすい独自のエクスペリエンスを提供します。Datastream は BigQuery の新しく開発された変更データ キャプチャ(CDC)と Storage Write API の UPSERT 機能を使用して、直接ソースシステムから BigQuery テーブルにリアルタイムで効率的に更新箇所をレプリケートします。複雑なデータ パイプライン、セルフマネージドのステージング テーブル、厄介な DML 結合ロジックの作成と管理や、データベースに固有のデータ型を BigQuery データ型に手動で変換する作業に貴重なリソースを浪費する必要はもうありません。BigQuery でソース データベース、接続タイプ、宛先を構成するだけで、Datastream for BigQuery が過去のデータのバックフィルを開始し、以降は継続的に、新しい変更が発生すると同時に変更がレプリケートされます。

Datastream for BigQuery の活用事例

ラテンアメリカ最大の小売プラットフォームである Falabella は、100 か所の実店舗を抱えるほか、オンライン ショップを展開しています。Falabella は自社の事業をモニタリングして継続的に改善を加えるために、さまざまなユースケースで日常的にデータ分析を活用しています。たとえば、以下のような利用例があります。

  • 顧客分析: 顧客の行動、好み、購入履歴をモニタリングし、マーケティング活動に活用するとともに、顧客のエクスペリエンス改善に役立てる。

  • 販売者分析: 販売者のパフォーマンス、売上データ、収益データをモニタリングして、傾向を把握したり、ビジネスに影響をおよぼす可能性のある問題を特定したりする。

  • ロジスティクス分析: 出荷から配送までのプロセスをモニタリングして、改善する。

  • 売上および収益の管理: 売上および収益データをモニタリングする(特にセール実施時)。

「これまで、データのレプリケートにはデータベースのフル スナップショットを使用しており、スナップショットの作成から BigQuery への読み込みまで、何時間もかかっていました」と、Falabella のデータ ソリューション責任者である René Delgado 氏は語ります。「この処理をオーケストレートするために、社内開発のカスタムツールをいくつか連係させて使っていました。エラーが発生すると、何か所も手動でチェックする必要がありましたし、これらのカスタムツールはデバッグや修復がしづらいという難点がありました。Datastream を導入した瞬間から、もうこれらのカスタム データ ツールをメンテナンスしたり、モニタリングしたりする必要がなくなったのが有難かったです。最良のコードとはすなわち、コードが不要であることと考えています。」

また、データ サイエンティストが分析クエリを実行するために、高価なデータベース レプリカをスピンアップするというユースケースもあります。「BigQuery ですべてのデータを利用できるようになったため、これらのデータベースを作成、管理する必要がなくなりました。それだけで、1 か月に 1 万ドルほどの節約になります」と、Delgado 氏は説明します。

「Datastream という 1 つのツールで、オペレーション データを BigQuery に準リアルタイムかつシームレスにレプリケートできます。そのおかげで、オペレーション データの分析情報をはるかに早く得られるようになりました。結果として、安定したデータ製品の提供や、ビジネスニーズへの的確な対処につながっています。」

PostgreSQL ソースに対応

さらに、Datastream PostgreSQL ソース版の一般提供も開始になりました。これで Datastream は、AlloyDB、Cloud SQL、Amazon RDS、セルフホストなど、幅広い PostgreSQL データベースに対応し、変更点を取り込めるようになりました。Datastream PostgreSQL ソース版は、論理デコーディングによって、PostgreSQL の先行書き込みログ(WAL)から読み取りを行うのが特徴です。この仕組みにより、柔軟性が高くなると同時に、データベース サーバーの読み込みへの影響を最小化できます。

プレビュー版への反応

プレビュー版の発表以降、多くのお客様が Datastream を使って、PostgreSQL などのデータベースから BigQuery へとデータを移行しています。特に好評を得ているのは Datastream の使いやすさで、他のソリューションでは数週間から数か月かかっていたデータのレプリケート処理が Datastream ならすぐに完了するという声が届いています。たとえば、あるお客様は「すばらしいの一言です。概念実証を 1 週間で完了して、翌週にはもう本番環境に備えられます」とコメントしています。また、Datastream の堅牢性も高く評価されており、特に、ソース データベースのアップグレードや、データベースの再起動、フェイルオーバーの管理など、よく発生するケースを簡単かつ透過的に処理できることが評価ポイントとなっています。

使ってみる

Datastream ストリームを新規作成するための詳細ガイドについては、クイックスタートをご覧ください。PostgreSQL から BigQuery にレプリケートする手順については、Google Cloud Skills Boost ラボのチュートリアルで詳しく解説していますので、こちらもご覧のうえ、どうぞ実際にお試しください。

Video Thumbnail

- プロダクト マネージャー Etai Margolin

投稿先