Google データクラウドのイノベーションで、継続的なリアルタイム インテリジェンスを実現
Sachin Agarwal
Group Product Manager, Google Cloud
Shan Kulandaivel
Group Product Manager, Google Cloud
※この投稿は米国時間 2024 年 5 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。
ますます多くの組織が、リアルタイム解析を活用して成果につなげることを希望しています。この AI の時代においては、最新の情報を AI システムに提供して、情報に基づく意思決定、トレンドと異常の特定、プロアクティブかつ効果的な介入の実装をサポートできるようにすることが重要です。可視性、予測、有効化におけるリアルタイム インテリジェンスのメリットを存分に実現するには、使いやすく、堅牢かつスケーラブルで、費用対効果の高いストリーミング インフラストラクチャを実装する必要があります。
Google は、Dataflow サービスについて説明したオリジナルの Dataflow 論文を発行した際、最新のストリーム データ処理を開発しました。Dataflow はウィンドウ処理、トリガー、チェックポインティングなどのコンセプトを独自の方法で実装し、受信遅延データなど、あらゆる種類のデータを継続的に処理します。Google は「The Forrester Wave™ Streaming Data Platforms, Q4 2023」レポートでリーダーに選出されました。SanjMo のプリンシパル アナリストを務め、Gartner の元バイス プレジデントである Sanjeev Mohan 氏も、Dataflow がその他の多くの Google Cloud プロダクトと緊密に統合され、リアルタイム アプリケーションのための完全なプラットフォームを提供していることを認めています。
多くの企業が Google Cloud のデータ、AI、およびリアルタイム ソリューションを使用して、リアルタイムの分析情報を提供して行動を起こすことにより、ビジネスに重大な効果をもたらしています。
-
Spotify は、ML ポッドキャスト プレビューの大規模な生成に Dataflow を活用しています。今後も、データ エンジニアリングとデータ サイエンスが持つ可能性の限界を押し広げ、顧客とクリエイターのためにより優れたエクスペリエンスを構築していくことを計画しています。
-
Puma は、顧客に合わせてコンテンツを調整する方法に関する理解を深めることで、平均注文額を 19% 増加させました。また、リアルタイムの在庫確認が 4 倍も速くなり、買い物客が最寄りの店舗で目的の商品を見つけるのに役立っています。
-
Compass はオーストラリアの地方自治体と連携して、コネクテッド カーが処理する 1 日あたり 150 万件を超えるデータセットをリアルタイムでモニタリングし、道路の安全を改善しています。
-
Tyson Foods は、画像や動画などの非構造化データを使用する次世代のスマート ファクトリーで Google Cloud を使用することで、Vision モデルをトレーニングし、IoT 接続されたセンサーをリアルタイムでモニタリングしてパターンを最適化しています。同社は安全で再現可能、かつスケーラブルなエンタープライズ ソリューションの実現に BigQuery を活用しています。
長年にわたり、Google はストリーミング機能を拡張し、誰もがさまざまな方法でストリーミングにアクセスできるようにしてきました。この取り組みには、Dataflow を強化したことによる、GPU と CPU 使用率への柔軟性の提供、リアルタイムのパイプライン拡張、新しいマネージド IO サービスと 1 回以上の処理、AI と統合して継続的なリアルタイムのクエリ処理を行う BigQuery の新機能、新しい Apache Kafka サービスが含まれます。
Dataflow のイノベーション
Google は、Dataflow ML に新機能を追加し、最も一般的な ML のユースケースをさらに容易にして、パフォーマンスと費用対効果を高めています。Dataflow の新しい Right Fitting を使用すると、コンピューティングの種類を組み合わせ、必要に応じて GPU のみを使用することで費用を削減できます。新たな拡充変換は、リアルタイム ML 機能を拡充し、Dataflow パイプライン内でのデータ急増や想定外の動作に適切に対応します。これによりトイルを低減して、ML モデルの最新データを活用できるようにします。
新しい IcebergIO コネクタは、データを Apache Iceberg のデータレイク テーブルに直接ストリーミングします。IcebergIO は数ある IO の中で初めて、Dataflow の新しいマネージド IO 機能を利用しています。Dataflow マネージド IO には、コネクタを新しいバージョンに自動更新したり、ユーザーによる操作なしでパッチを適用したりできるメリットもあります。
Dataflow ストリーミングは、1 回限りの保証を提供します。つまり、パイプラインで処理されたデータの影響は、正確に 1 回だけ反映され、受信遅延データもこの対象となります。低レイテンシかつ低コストのストリーミング データの取り込みを実現するため、Google は新たに「1 回以上の処理」を導入しました。入力レコードが少なくとも 1 回処理されるため、データソースの保証がすでに提供されている場合は特に役立ちます。
BigQuery の継続的クエリ
Next ’24 で、Google は BigQuery の継続的クエリのプレビュー版を発表しました。インフラストラクチャと Dataflow の基盤となる技術を活用することで、ユーザーはストリーム処理のジョブを直接作成し、BigQuery に読み込まれる最新データに基づいてリアルタイム変更ストリームを生成できます。また、こうしたリアルタイム ストリームは、Vertex AI を使用した LLM オペレーションなど、あらゆる AI 関数や ML 関数で操作できます。お客様はシンプルな SQL を使ってこれを行うことができるため、組織やユーザーがリアルタイム インテリジェンスとストリーミング インフラストラクチャのメリットを実現しやすくなります。
Next '24 ではまた、BigLake の 3 つの主要なオープンソース データレイク形式(Apache Iceberg、Apache Hudi、BigQuery とネイティブに統合された Delta Lake)のサポートを拡張しました。これには Iceberg のフルマネージド エクスペリエンスが含まれ、あらゆるデータの種類のストリーミング、さらには BigQuery Omni を使用するクラウド全体でのストリーミングにも対応できます。Google は、2024 SIGMOD イベントで発表予定の新しいホワイトペーパー「BigQuery's Evolution toward a Multi-Cloud Lakehouse(BigQuery のマルチクラウド レイクハウスへの進化)」のリリースも行いました。
新しい Apache Kafka サービス
最後に、Google は Next '24 で、Apache Kafka for BigQuery という Managed Apache Kafka サービスがリリース予定であることを発表しました。これは Apache Kafka のための完全なエンドツーエンドのマネージド サービスで、こうしたサービスを自分で実行する際に伴う操作とセキュリティ業務を自動化します。既存のアプリケーションと互換性があり、BigQuery に統合されているため、Storage Write API という BigQuery の高パフォーマンスなストリーミング取り込みを介して、Kafka のストリーミング データを BigQuery に迅速かつ容易に読み込むことができます。お申し込みいただくと、プレビュー版に関する通知を受け取ることができます。
使ってみる
Dataflow と BigQuery の詳細に関するドキュメントをご覧ください。Dataflow を初めて使用される方は、基礎トレーニングを受講できます。皆様に最新のイノベーションをお届けできることを非常に嬉しく思っております。Google のリアルタイム解析ソリューションでの構築をお楽しみください。
ー Google Cloud、グループ プロダクト マネージャー Sachin Agarwal
ー Google Cloud、グループ プロダクト マネージャー Shan Kulandaivel