データとインサイトの民主化: リアルタイム分析をユビキタスに
Google Cloud Japan Team
※この投稿は米国時間 2021 年 1 月 16 日に、Google Cloud blog に投稿されたものの抄訳です。
本シリーズの最初のブログ投稿では、データとインサイトの民主化について幅広くご説明しました。2 回目のブログでは、特に機械学習から得られるインサイトについて深く掘り下げ、データを取り巻く環境においてより多くのユーザーがこれらの機能を利用できるようにするための Google Cloud の取り組みについてご紹介しました。本シリーズの最終回となるこの 3 回目の投稿では、リアルタイムの意思決定のコンテキストでデータアクセス、データ インサイト、機械学習について検討し、ビジネスかテクニカルかを問わずあらゆるユーザーがリアルタイムのインサイトを利用できるようにするための Google Cloud の取り組みについてご説明します。
リアルタイム データ分析の現実
まず、リアルタイム データ分析(ストリーム分析とも呼ばれます)について見ていきましょう。この分析はビジネスの成功のために不可欠な存在となりつつあり、それには複数の要因があります。
まず、データがリアルタイム性を帯びるようになっています。IDC は、2025 年までに生み出されるデータ全体の 25% 超がリアルタイム性を備えると予測しています。Google は、リアルタイム データに基づいて Google Cloud で下されるビジネス上の意思決定の数はそれよりも多くなると見込んでいます。この拡大の促進要因は何でしょう?ビジネスだけでなく社会全体でデジタル化の傾向が総体的に進んでおり、それを示す要因は多数あります。たとえば、デジタル デバイス、IoT を活用した製造と物流、デジタル コマース、デジタル コミュニケーション、デジタル メディアの利用などです(これらはほんの一例です)。こうした活動によって生み出されるリアルタイム データを活用することで、企業は市場、競争、そして大切な購入者に関する分析の精度を高める機会を手にすることができます。
次に、パーソナライズに関する購入者の期待がかつてなく高まっています。おすすめ、オファー、エクスペリエンスなど、あらゆる側面で対象を個人レベルに絞り込むこと(「セグメント オブ ワン」)が求められています。企業はこの状況を把握しており、可能な限り最高のユーザーおよびカスタマー エクスペリエンスを提供するために互いに競い合っています。AB Tasty のような Google Cloud のお客様は、毎日数百万人のユーザーを対象に数十億のリアルタイム イベントを処理し、クライアントごとにユーザー セグメントを最小のレベルまで絞り込んで最適化したエクスペリエンスを提供しています。
新しいデータ パイプラインおよびデータ ウェアハウスを導入することで、以前は存在しなかった大量のデータへのアクセスをパーソナライズできるようになりました。つまり、新しいインサイトと相関関係が生まれ、結果的に意思決定が改善されお客様の収益が向上するということです。
AB Tasty プロダクト担当バイス プレジデント Jean-Yves Simon 氏
最後に、インサイトに基づいて迅速にアクションを実行できる機会がある場合、リアルタイム分析が最も有用です。リアルタイム データの生成を促進するものと同じデジタル化が、インスタント フィードバック ループで即時対応を促進する機会をもたらします。たとえば、おすすめをその場で表示するデジタル小売、リアルタイムの交通情報に基づいた配達車両のルート変更、オンライン ゲーム セッションの難易度の変更、製造プロセスのデジタル調整、取引完了前の不正行為の防止など、数え切れない事例について、現代のテクノロジーはビジネスの応答性と効率性を高める可能性を秘めています。
リアルタイム データ分析の民主化
Google Cloud は、この領域における民主化を 2 つの枠組みで考えています。1 つ目は、本ブログシリーズで取り上げてきた、さまざまなデータ使用者の能力を拡張するという標準的な枠組み(「リアルタイム インサイトを生成する能力をより多くのユーザーに提供するにはどうすればよいか?」)です。
2 つ目は、具体的に言えばストリーム分析を対象とした、企業レベルでの民主化です。まず、企業によるリアルタイムへの移行をどのように支援しているかについて説明し、続けてさまざまなユーザーをどのように支援しているかについて詳しく見ていきます。
あらゆる企業を対象としたストリーム分析の民主化
これまで、リアルタイム データの収集と処理、そしてリアルタイム データに基づくアクションの実行は非常に困難なものでした。リアルタイム データは本質的に、その量と速度が多くのユースケースで大幅に異なることがあり、パイプラインのデータの流れを維持しようとするデータ エンジニアにとっては、複雑性が何層にも重なることになります。リアルタイム データをパイプラインにスムーズに流すための苦肉の策として、多くのエンジニアがラムダ アーキテクチャを導入するようになりました。このアーキテクチャでは、(場合によっては部分的な)結果のリアルタイム コピーと、従来のバッチルートを通った結果の「正確な」コピーの両方を保存します。しかし、パイプラインの最後でのデータ調整が困難であるだけでなく、管理対象となるシステムの数が数倍になり、同じエンジニアが管理しなければならないエコシステムの数が増加するのが通常でした。また、このアーキテクチャを設定し稼働させ続けるには、専門のデータ エンジニアから構成される複数の大規模なチームが必要でした。これによって、ユースケース導入のハードルが上がり続けました。
Google と Google Cloud は、リアルタイム データの分析にはより優れた手法があるはずであると考え、自らそれを生み出しました。Dataflow と Pub/Sub の組み合わせにより、イベント ストリームのバリエーションに簡単に対応できる完全にサーバーレスのエクスペリエンスを提供することで、従来のストリーミング システムによって突き付けられる課題に対処したのです。Pub/Sub と Dataflow は、現在のジョブ、処理パフォーマンス、スケーリング、可用性、セキュリティなどに必要なリソースそのものに合わせて、完全に自動的にスケールできます。Dataflow により、データは一貫性のある確実な方法で 1 回だけ処理されるため、エンジニアはシステムによって生み出された結果を信頼できます。Dataflow のジョブは Apache Beam SDK を使用して記述されるため、Dataflow のプログラミング言語には多くの選択肢があります(移植性にも優れています)。最後に、Dataflow を使用することで、データ エンジニアは 2 つのバッチ ストリーミング モードのどちらにも簡単に切り替えることもできます。つまり、コードを一切変更せずに、リアルタイムの結果とコスト効率の高いバッチ処理を比較できます。
Google は、ストリーミング分析とバッチ処理を本来あるべき姿で統合しています。妥協は一切ありません。これこそ、ソフトウェア アーキテクトがストリーミングとバッチの統合ソリューションを開発する際に目指すべきものです。弾力的にスケールし、複雑な処理を実行でき、映画『ロッキー』の主人公並みの回復力を備えていなければなりません。
The Forrester Wave™, Streaming Analytics, Q3 2019(Forrester Research, Inc.、Mike Gualtieri 著)
Dataflow と Pub/Sub は一体となって操作しやすい統合エクスペリエンスを実現します。これにより、専門のデータ エンジニアで構成される大規模なチームが存在しない企業にも、リアルタイム分析の可能性が開かれます。わずか 6 人のエンジニアから構成される小規模なチームが毎日数十億のイベントを処理している事例もありました。チームはパイプラインを作成した後、残りの処理を Google Cloud に任せることができます。
あらゆるペルソナを対象としたストリーム分析の民主化
規模もスキルも不問で、あらゆるデータ エンジニアリング チームがストリーミングを利用できるようになるストリーミング プラットフォームを開発した Google Cloud は、意思決定の改善を目指し、より多くの人々がリアルタイム分析を実行できるようにするための取り組みを開始しました。Google Cloud がリアルタイム分析へのアクセスを拡大した手法について、詳しく見ていきましょう。
ビジネスとデータ分析
データ アナリストとビジネス アナリストがリアルタイム データにアクセスできるようにするには、まずデータが迅速にデータ ウェアハウスに取り込まれるようにする必要があります。BigQuery の設計コンセプトは「常に迅速、常に最新」であり、1 秒あたり数百万イベントの処理速度でデータ ウェアハウスへのストリーミング挿入を行います。これにより、データ ウェアハウスのユーザーはまさに最新のデータを使用できるようになり、その分析の適時性と正確性が高まります。
データ アナリストは、データ ウェアハウスから一般的に抽出するインサイトに加えて、BigQuery ML によって提供される機械学習機能も、取り込まれるリアルタイム データに適用できます。アクセスする必要があるデータのソースが存在することをデータ アナリストが把握しているものの、その時点でそれがウェアハウス内にない場合、Dataflow SQL で数行のシンプルな SQL を使用してデータの新しいストリーミング ソースを結び付けることができます。
データ アナリストを対象としたリアルタイム機能は、データ ウェアハウスから抽出されたダッシュボードを利用するビジネス アナリストにも連鎖した影響を及ぼします。BigQuery の BI Engine により、BI ユースケースで 1 秒未満のクエリ レスポンスと優れた同時実行性が実現しますが、データ ウェアハウスにリアルタイム データを含めることで、ビジネス アナリスト(および彼らに依存する関係者)はビジネスで今まさに何が起こっているかを大局的に把握できるようになります。BI に加え、Looker のデータドリブンのワークフローおよびデータ アプリケーション機能も、BigQuery の高速データ更新のメリットを享受できます。
ETL デベロッパー
Data Fusion(Google Cloud のコーディング不要の ETL ツール)は、まるでスイッチを切り替えるように簡単に、リアルタイムの処理機能を ETL デベロッパーに提供できます。Data Fusion のユーザーはデータをリアルタイムで処理するためのパイプラインを簡単に設定し、任意の数の Google Cloud のストレージまたはデータベース サービスに格納できます。さらに、多数の事前定義されたコネクタ、変換、シンクなど(機械学習 API を含む)をリアルタイムで呼び出す Data Fusion の機能は、ビジネスに高いレベルの柔軟性をもたらします。しかも、コーディングは一切不要です。
まとめ
本シリーズを構成する各ブログ(確認されていない方は、パート 1 とパート 2 をぜひご覧ください)では、Google Cloud によるデータとインサイトの民主化の手法をご紹介してきました。データアクセスを提供した後、ビジネスに幸運がもたらされることを祈るだけでは不十分です。Google Cloud は、ビジネス全体におけるアイデアとインサイトの生成の民主化を成功させるための明確な方程式があると考えています。
まず、ビジネスに関連するデータへの幅広いアクセスを確実に提供する必要があります。つまり、弾力性のあるストレージとコンピューティングを備え、両方を自動的にスケールできるシステムに移行します。これにより、手間のかかる操作を行わずに新しいデータソースと新しいデータワーカーを取り込むことができ、ビジネスのアジリティが高まります。
ユーザーが熟知し使い慣れたツール内からインサイトを生成できるようにします。そうしたツール内で既存のユーザーに新機能を提供することで、組織全体でデータを活用できるようになります。さらに、機械学習などの新しい分析領域を探求できるため、担当者は熱意をもって真剣に取り組み続けるでしょう。
担当者がデータにアクセスし、そのデータからインサイトを抽出できるようになったら、リアルタイム データを分析し、その分析結果を自動化する能力を与えます。これによってカスタマー エクスペリエンスが改善され、組織は市場でいち早く機会を手にできるようになります。
本シリーズをお楽しみいただけたでしょうか。ビジネスにおけるデータおよびインサイトの民主化のために Google Cloud をご検討いただけますと幸いです。まずは無料トライアルをお試しいただくか、BigQuery サンドボックスをご利用ください。相談をご希望の場合はお気軽にお問い合わせください。
The Forrester Wave™, Streaming Analytics, Q3 2019
-データ分析担当プロダクト管理ディレクター Sudhir Hasbe
-プロダクト マネージャー Ryan Lippert