即座にリアルタイムを実現: 最新のインサイトを提供する BigQuery の継続的クエリを導入
Nick Orlove
BigQuery Product Manager
Pavan Edara
Distinguished Software Engineer
※この投稿は米国時間 2024 年 8 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。
世界はリアルタイムで動いています。たとえば、顧客が商品を購入すると、金融取引が行われ、商品が発送され、センサーがデータを生成し、セキュリティ上の脅威が発生します。こうしたリアルタイムのイベントによって生成されるデータの量は膨大です。しかし、多くの企業はいまだに従来のバッチ指向型の分析を利用しており、これに対応し切れていません。
BigQuery は膨大なデータセットや複雑なクエリを簡単に処理できるため、データ アナリストやエンジニアに人気があります。しかし、ユーザーからは入力と出力の両方で継続的なデータ ストリームに対応するリアルタイム機能の拡張を求める声が高まっています。こうしたお客様の課題に対処するため、BigQuery はリアルタイムのイベント ドリブンな分析プラットフォームへと生まれ変わりました。このたび、BigQuery の継続的クエリをリリースし、プレビュー版としてご利用いただけるようになったことを発表します。
BigQuery の継続的クエリは、真のリアルタイム データ分析につきものであるコストと複雑さの課題に対する Google の答えです。従来、「リアルタイム」とは数分、あるいは数時間前のデータを分析することを意味していました。しかし、データの取り込みと分析の状況は急速に進化しています。データ生成、顧客エンゲージメント、意思決定、AI を活用した自動化が急増したことにより、意思決定を行うまでに許容される時間は大幅に短くなりました。今日求められるのは、数分や数時間ではなく数秒でインサイトを得ることです。
顧客の期待も大きく変化しています。今日、顧客はあらゆるオンライン体験でリアルタイムのパーソナライズされたやり取りを求めています。企業は関連するすべてのコンテキストを使用して即座に対応するよう迫られていますが、これはバッチ指向型の分析では到底達成できないことです。
こうした要望に応えるのは困難です。BigQuery などのエンタープライズ データ プラットフォームは、高スループットでのリアルタイム データの取り込みに対応しているものの、本来はバッチ指向型の方法で分析を実行するように設計されており、そのデータはイベント ドリブンで「push」されるのではなく、アドホックまたはスケジュールされたジョブによってシステムから「pull」されます。BigQuery に追加のテクノロジーを統合すれば、ストリーミング分析を有効にすることもできますが、その結果としてアーキテクチャが複雑になり、多様なプログラミング スキルが必要とされるものの、限られたユースケースにしか対応できないというケースが少なくありません。
BigQuery の継続的クエリの導入
BigQuery の継続的クエリは、そのすべてを変えます。BigQuery の継続的クエリを使用すると、継続的に処理される SQL ステートメントを実行し、BigQuery に新しいイベントが到達した時点でデータを処理、分析、変換できるため、常に最新のインサイトを得ることができます。この機能を Google Cloud エコシステムとネイティブに統合することで、さらに大きな可能性を引き出せます。たとえば、Vertex AI と Gemini を活用して、リアルタイムの受信データに対して ML 推論を実行できます。また、継続的クエリの結果を Pub/Sub トピック、Bigtable インスタンス、他の BigQuery テーブルに複製し、さらなる処理や分析を行うことも可能です。まるで、いつでも自由に利用できるアナリストのように、常にデータ ストリームをモニタリングし、何か重要なイベントが発生した瞬間にアクションをトリガーしてくれます。
BigQuery の継続的クエリによって、BigQuery の機能は大幅に拡張され、既存の統合データ プラットフォームの強みに加えて、新たに動的かつイベント ドリブンなデータ処理機能が提供されます。この機能によって、データの変更に即座に対応するアプリケーションを構築できるようになり、新たな領域における可能性が開かれます。パーソナライズされたカスタマー エクスペリエンスを瞬時に構築して、異常をエスカレーション前に検出し、意思決定プロセスを自動化しましょう。すべてをかつてないほどのアジリティで実現できます。
BigQuery の継続的クエリの革新的な可能性
BigQuery の継続的クエリの導入は、データが保存されている場所でのリアルタイムかつイベント ドリブンなデータ分析に向けた大きな一歩となり、次のような方法で活用できます。
-
リアルタイム パイプラインを簡素化: 使い慣れた SQL 言語で複雑なリアルタイムのデータ変換と分析を表現できるため、追加のテクノロジーや専門的なプログラミング スキルは必要ありません。
-
リアルタイムの AI ユースケースを実現: Vertex AI と Gemini を使用して、リアルタイムのデータ変換を Google の堅牢な AI サービスに組み込むことで、パーソナライズされたコンテンツの生成、データ拡充とエンティティ抽出、異常の即時検出、イベント ドリブン アーキテクチャの強化など、AI を活用した幅広いリアルタイム アプリケーションを構築できます。
-
リバース ETL を合理化: BigQuery の継続的クエリは、Pub/Sub や Bigtable などの他の Google Cloud サービスと統合されているため、継続的クエリの結果を Pub/Sub トピックに送信してイベント ドリブンなデータ パイプラインと Bigtable インスタンスを作成し、リアルタイムのアプリケーション サービングを行うことができます。また、継続的クエリの結果を別の BigQuery テーブルに書き込み、さらに分析することも可能です。
-
スケーラビリティとパフォーマンスを実現: BigQuery の堅牢なサーバーレス インフラストラクチャを利用した継続的クエリは、高スループット、低レイテンシで大量のデータを処理できます。
簡単に言うと、BigQuery の継続的クエリは、リアルタイムのイベント処理を民主化するものです。これにより、より幅広いユーザーが利用できるようになり、企業は SQL を使用してデータの可能性を最大限に引き出せるようになります。
世界最大手の製薬、バイオメディカル企業のバイエル社をはじめ、お客様は BigQuery の継続的クエリを活用して新しいリアルタイムのユースケースを実現できることに価値を見出しています。
「バイエルでは、リアルタイム分析の実現が強く求められていますが、今までは困難でした。BigQuery の継続的クエリを評価する機会を得たことで、この機能がもたらす将来の可能性に大きな期待を寄せています。ERP、CRM、IoT データのリアルタイム インテグレーションからリアルタイムのモニタリングやアラートのユースケースまで、継続的クエリは、データ ウェアハウスで対処できるビジネス課題の種類を大幅に拡大してくれると考えています。」 - バイエル社、データ ウェアハウス エンジニアリング リード Anthony Savio 氏
実際の作成例
多くの場合、最善の学習方法は実際に使ってみることです。そこで、BigQuery の継続的クエリによって、ショッピング カートの放棄という e コマースのよくある課題に対処する方法を確認してみましょう。
想像してみてください。あなたが心を込めて素晴らしい商品を作り、見込み顧客をウェブサイトに呼び込んで、顧客が商品をカートに入れてくれたとします。しかし、顧客は購入を完了することなく姿を消してしまいました。これは避けたい事態ですが、ショッピング カートの放棄は普遍的な問題であり、Baymard Institute の調査によると、残念なことにカートの放棄率は平均 70% 前後にも上ります。この問題を解決する方法として、BigQuery の継続的クエリを使用すれば、リアルタイムのエンゲージメントにより、顧客の関心を取り戻すことができます。
今回の例では、BigQuery テーブルを使用して、ウェブサイトのカート放棄イベントを記録し、顧客の連絡先情報、放棄されたカートの中身、放棄するまでの時間を取得します。さらに、BigQuery の継続的クエリを実行して、このカート放棄テーブルの新しいイベントを常にモニタリングします。新たにカート放棄が発生した場合は、Vertex AI からこのイベントを送信して、顧客ごとにパーソナライズされたプロモーション メールを生成します。メールには商品の提案のほか、期間限定割引を記載してもよいでしょう。そして、パーソナライズされたメールの内容を Pub/Sub トピックにパブリッシュします。最後に、シンプルな Application Integration プラットフォームのトリガーを使って、受信した各 Pub/Sub メッセージに対するメールを送信します。
こちらの GitHub リポジトリを使えば、手順ガイドに従い、独自の継続的クエリのデモをエンドツーエンドで構築できます。
デモ環境を設定し、BigQuery のカート放棄テーブルにリアルタイムのイベントがストリーミングされたら、以下のような SQL クエリを作成して処理を行い、生成 AI を使ってパーソナライズされたメールを作成し、このメッセージを Pub/Sub トピックに書き込みます。
その後、BigQuery エディタで BigQuery の継続的クエリモードを有効にするだけで、このクエリを永続的に実行し、新しいイベントが到達した時点でデータを処理するように構成できます。
これで、ショッピング カートが放棄された場合、顧客は数秒以内に以下の例のようなパーソナライズされたメールを受信するため、売上を回収できる可能性が高まります。これらはすべて、BigQuery の継続的クエリで利用可能な SQL の機能とシンプルさを利用してオーケストレーションされています。
あらゆる業務を効率化
BigQuery の継続的クエリの結果を Pub/Sub に複製することで、イベント ドリブンなデータ アーキテクチャを構築するという非常に魅力的な可能性を実現できます。これは、特にパートナー統合を検討している場合に言えることです。実際、複数の Google Cloud ISV パートナーが、継続的クエリから生成される Pub/Sub メッセージを自社サービスでサポートしていることを確認済みです。具体的には、Aiven、Census、Confluent、Estuary、Hightouch、Keboola、Lytics、Nexla、Qlik、Redpanda などのパートナーが挙げられます。
「Confluent Cloud と BigQuery の継続的クエリとの連携により、企業のお客様はデータの可能性をリアルタイムで最大限に引き出せるようになります。この連携によって、データ パイプラインを合理化し、意思決定を強化して、革新的なデータドリブン アプリケーションを作成すれば、企業の競争力が大幅に高まります。」 - Confluent 社、データ ストリーミング プラットフォーム担当バイス プレジデント兼ゼネラル マネージャー、Mike Agnich 氏
使い慣れたインタラクティブなエクスペリエンスを求めるデータ サイエンティストのために、BigQuery の継続的クエリは BigQuery DataFrames と統合できます。これにより、Python ノートブック内でリアルタイム データ処理を直接活用し、効率的なテスト、迅速なプロトタイピング、既存の ML ワークフローへの継続的クエリのシームレスな統合を実現できるようになります。詳細については、Python の Streaming DataFrame ノートブックの例をご確認ください。
さっそく始めましょう
今日の変化がめまぐるしい世界において、過去のデータや準リアルタイムのデータのみを利用している企業は明らかに不利な立場にあります。リアルタイムのインサイトは、もはや高コストなものではなく、十分な情報に基づく意思決定を行い、卓越したカスタマー エクスペリエンスを提供し、競合他社よりも優位に立つうえで必要不可欠なものになりました。隠れたパターンを明らかにするデータ サイエンティスト、戦略的イニシアチブを推進するビジネス アナリスト、企業の方向性について計画する経営幹部など、誰にとってもリアルタイム データの力を理解することはきわめて重要です。
BigQuery の継続的クエリは、SQL という民主化された言語を使用して、受信したデータの可能性を最大限に活用できる革新的なソリューションです。イベント ドリブンなデータ分析という未来はすでに到来しています。今すぐ公開プレビュー版に登録し、BigQuery の継続的クエリがもたらす可能性をご確認ください。BigQuery の継続的クエリに関する Google Cloud Next 2024 セッションもこちらからご視聴できます。
これからの未来は BigQuery でリアルタイムを実現しましょう。
ー BigQuery プロダクト マネージャー Nick Orlove
ー 上級ソフトウェア エンジニア Pavan Edara