Datastream for BigQuery のご紹介
Google Cloud Japan Team
※この投稿は米国時間 2022 年 9 月 16 日に、Google Cloud blog に投稿されたものの抄訳です。
現在の競争の激しい環境では、組織はリアルタイムのデータに基づいて迅速かつ簡単に意思決定を行う必要があります。このような状況を踏まえ、PostgreSQL 向け AlloyDB、PostgreSQL、MySQL、Oracle などの運用データベース ソースから、Google Cloud のサーバーレス データ ウェアハウスである BigQuery に直接データをレプリケートするシームレスな機能を備えた Datastream for BigQuery のプレビュー版の提供を開始しました。Google は Datastream for BigQuery の導入により、データベース、分析機能、機械学習を単一のプラットフォームに統合し、現代の企業が必要とするスケーラビリティ、スピード、セキュリティ、シンプルさを提供するという統合データクラウドのビジョン実現に向けて次の大きな一歩を踏み出しました。サーバーレスの自動スケーリング アーキテクチャに基づく Datastream では、簡単に ELT(抽出、読み込み、変換)パイプラインを設定し、低レイテンシのデータ レプリケーションによってリアルタイムの分析情報を取得できます。
地域全体に何百もの店舗を展開する大手スーパーマーケット チェーンのケースを考えてみましょう。各店舗では、独自のローカル POS システムと在庫管理システムを運用し、店舗での取引と在庫レベルに関するデータを一日中収集しています。チェーン店の日常業務を可視化して合理化するために、IT 部門では毎晩行うバッチ処理を設定し、店舗からすべてのデータを収集して中央データ ウェアハウスに統合しました。これにより、店舗の業績に関するレポートを午前中に確認できるようになりました。しかし、このプロセスを維持するためには、データ エンジニアリング チームの時間とリソースを費やす必要がありました。また、チェーン店の成長に伴い、多くのデータ処理が必要になるため、このプロセスは長時間におよび、レポートの準備に遅くまでかかるようになりました。組織が求めているのは、手間をかけずに運用データをデータ ウェアハウスにレプリケートし、リアルタイムの意思決定を実現する最新のソリューションです。それを叶えるのが Datastream for BigQuery です。
BigQuery でのデータドリブンな意思決定を促進する Datastream
Google Cloud の BigQuery チームとの緊密な連携により開発された Datastream for BigQuery は、ユニークでシームレスかつ使いやすいエクスペリエンスを提供します。ユーザーはいくつかの手順を完了するだけで、BigQuery でリアルタイムの分析情報を活用できます。
Datastream は BigQuery の新しく開発された変更データ キャプチャ(CDC)とストレージ書き込み API の UPSERT 機能を使用して、ソースシステムから BigQuery テーブルにリアルタイムで効率的に更新をレプリケートします。複雑なデータ パイプライン、セルフマネージドのステージング テーブル、厄介な DML 結合ロジックの作成と管理や、データベースに固有のデータ型を BigQuery データ型に手動で変換する作業に貴重なリソースを浪費する必要はもうありません。BigQuery でソース データベース、接続タイプ、宛先を構成するだけで、Datastream for BigQuery が過去のデータのバックフィルを開始し、以降は継続的に、新しい変更が発生すると同時に変更がレプリケートされます。データベース スキーマが変わったとしても、Datastream はシームレスにスキーマの変更に対処して、自動的に BigQuery に新しいテーブルと列を追加します。
ボリュームベースの段階的な新しい価格設定
大容量のデータを移動するお客様にとって、より手頃な価格が実現する、ボリュームベースの段階的な価格設定の導入についてもお知らせします。ボリュームベースの段階的な価格設定では、実際の使用量に基づいた価格を自動的に適用することで、Datastream の長所を十分に引き出すことができます。
旅行やレジャーの分野でエクスペリエンスとサービスを提供する代表的な e コマースプラットフォームを運営する Klook は、さまざまなアプリケーションやデータベース全体のデータを大量に処理しています。Klook のデータチームは BigQuery を使用して、管理チームのために日次レポートと分析を作成し、より良いビジネス上の意思決定をサポートしています。「複雑なデータ環境に対応し、さまざまなソースから自社のデータ ウェアハウスにデータを取り込むことは非常に困難です」と、Klook のデータ担当シニア マネージャーである Stacy Zhu 氏は述べています。「Datastream を導入する前は、BigQuery にデータを取り込む作業を専門に行うデータ エンジニア チームを設け、データが正確であることを確認するために多くの時間と労力を費やしていました。Datastream を使用すると、データ アナリストが 1 回クリックするだけで正確なデータを BigQuery ですぐに使用できます。この使いやすさに加えて、パフォーマンスも優れているため、大規模な ELT データ処理も可能になりました。」
受賞歴を持つ、従業員エンゲージメント ソフトウェアおよびプラットフォームを提供する Achievers も、最近 Datastream を導入されたお客様です。「Achievers は、Google Cloud の VM(GCE)と Google Kubernetes Engine(GKE)を多用していました」と Achievers のリードデータ アーキテクトである Daljeet Saini 氏は述べています。「Datastream を使用してデータを BigQuery にストリーミングすると、アナリストやデータ サイエンティストが BigQuery をスマート アナリティクスに活用できるようになるため、データ ウェアハウスを次のレベルに引き上げることができます。」
今すぐ Datastream の利用を開始しましょう
すべての Google Cloud リージョンで、すべてのお客様にご利用いただける Datastream を、今すぐ始めることができます。Datastream for BigQuery の詳細については、プロダクト ページをご確認ください。
- Google Cloud データベース エンジニアリング担当ゼネラル マネージャー兼バイス プレジデント Andi Gutmans
- プロダクト マネージャー Etai Margolin