Built with BigQuery: 費用 vs. パフォーマンスのパラダイムに挑戦する Aible のサーバーレスの取り組み
Google Cloud Japan Team
※この投稿は米国時間 2023 年 2 月 16 日に、Google Cloud blog に投稿されたものの抄訳です。
業界をリードする企業である Aible は、30 日以内に AI によってビジネス上の成果を導き出すサービスを提供しています。同社のソリューションは、元データからビジネス価値を得られるようチームを支援し、ユーザー獲得、離脱の防止、需要予測、予防保全などにつなげます。これらのソリューションにより、IT チームとデータチームは、マーケティング予算や市場状況の変化といったビジネス固有の状況を考慮しつつ、自動データ検証によって価値あるデータを特定し、チームを越えて協力してデータを探索し、エンタープライズ アプリケーションで AI によるレコメンデーション機能を搭載して、各チームがビジネス目標を達成できるよう支援できるようになります。
たとえば、ある販売最適化モデルにより、最適な収入や利益を得るために販売リソースを 10% 増やすことが求められた場合、ユーザーは、そのようなリソース変更が可能かどうかを指定でき、Aible は、そのビジネスニーズを満たすために Aible によって自動トレーニングされた数千のモデルとハイパーパラメータの組み合わせから最適な予測モデルとしきい値を選択します。このように、Aible は、ハイパーパラメータとモデルの検索空間を節約し、ユーザーのビジネス目標や制約事項を考慮して最適なモデル設定を検索することで、ビジネス最適化と機械学習を組み合わせています。
経済状況の変化に伴い、多くの企業が標準的なサブスクリプション モデル(実際の利用率や需要率を考慮することなく、規模が変化しないインフラストラクチャ構成を調達)からデータ ウェアハウスのユースケースに転換しています。しかしながら、データ ウェアハウス内のデータに基づいて分析を行ったり、予測モデルを構築したいと考えると、大部分の組織でこの流れが止まってしまいます。データ サイエンティストが突然、分析プロジェクトやデータ サイエンス プロジェクトの継続期間の 6~9 か月稼働させるサーバー クラスタを立ち上げ始めるからです。その理由は、ほとんどのデータ サイエンス プラットフォームと分析プラットフォームがサーバーレスでないことで、これらを「常時稼働」させる場合は費用もかさみます。
BigQuery のサーバーレス アーキテクチャを基盤とした Aible の価値提案(使いやすさ、自動化、ROI 回収期間の短縮)
サーバーレス アーキテクチャは、不必要なサーバーの稼働を解消し、高い費用効率を実現します。分析、データサイエンス、機械学習のプロジェクトの継続期間中にサーバーを稼働させ続ける必要のないサーバーレス手法では、ユーザーは、メタデータとブラウザを使用し、高い応答性を維持してシステムを操作しながら、絶対に必要なときに短時間だけコンピューティング リソースを起動させることができます。BigQuery のようなサーバーレスのフルマネージド型エンタープライズ データ ウェアハウスは、次の起動まで、またはアクセスが必要になるまで状態を保存でき、セキュリティとスケーラビリティの面でも有益な特性を備えています。
Aible は、Google Cloud を活用して、サーバーレス アーキテクチャと独自に増強した手法を、さまざまなユーザーのほとんどの分析およびデータ サイエンスのユースケースに適用し、優れた費用効率を実現しています。Aible は、人間が少しだけ質問する間に、AI は何百万もの質問を行い、その答えをメタデータとして保存できる、という単純な事実に気付きました。そのため、真にサーバーレスのエンドツーエンド システムを用意できれば、ユーザーは、元データをサーバーから再度取得することなく、質問の回答を得られます。
たとえば、メタデータを操作すれば、あるユーザーが販売チャネルに注目したダッシュボードを作成して、別のユーザーが販売の地理的パターンを分析し、3 人目のユーザーが別の営業担当者の成績を比較評価するといったこともできます。Aible のエンドツーエンドのサーバーレス ユーザー インターフェースは、ユーザーのブラウザで直接実行され、顧客のクラウド アカウントに保存されたメタデータにアクセスします。
大きな問題となっていたのは、AI が 100 万件の質問を一度に行った場合、果たして費用は下がるのかどうかでした。2023 年 1 月、Google と Aible は、Fortune 500 に名を連ねるある企業と協力して、このアーキテクチャを検証しました。検証は、BigQuery 上で Aible を使用し、特別な最適化を行わずに実施しました。どのようなデータセットを使用するかは、顧客企業が独自に判断しました。検証結果は素晴らしいものでした。2 週間にわたり、さまざまな規模の 75 件以上のデータセットが評価され、行の総数は 1 億行を超え、回答された後に保存された質問の総数は、1 億 5,000 万件を超えました。そして、その評価全体にかかった費用はわずか $80 でした。
この顧客企業の場合、従来の分析プロジェクトやデータ サイエンス プロジェクトの完了には、通常 4 か月程度かかっています。顧客企業は、通常のプロジェクト継続期間をベースに、75 件のプロジェクトを実施するには、サーバーとその関連費用に 20 万ドル以上の費用がかかると推定しました。上の表に示すとおり、AI ファーストのエンドツーエンド型サーバーレス手法は、従来のサーバーと比較して 1,000 倍以上効率的でした。
以下の図は、Aible と Google を組み合わせた、AI ファーストのエンドツーエンド型サーバーレス環境がなぜそれほど効率的だったかを具体的に示しています。なお、Aible は、実際のクエリを BigQuery 上でサーバーレスで実行できるため、真のエンドツーエンド型サーバーレス環境で、どんなサイズのデータも分析できました。Aible は、AWS と Azure にも対応しています。Aible のアーキテクチャは、中小規模のデータセットであれば、Lambda と Function Apps を使用してまったく同じように機能します。しかしながら、Aible は現在、Spark を採用しているので、AWS や Azure での大規模なデータセットでは、Google Cloud で提供されるエンドツーエンド型サーバーレス機能と比較して、システムの効率は大きく低下します。
下の例で示すとおり、通常のデータ分析プロジェクトは 6 か月間実施され、4,320 時間のサーバー時間を要しますが、Aible は、プロジェクト全体を通し実際にはわずか 6 時間で「分析」活動を完了できます。これにより、サーバー時間を 720 分の 1 に削減できることになります。一方で、Intel と Aible が実施したベンチマークによると、Aible のサーバーレス分析は、同等のサーバーで同じ分析を行うよりも 3 倍も費用対効果が高いという結果も出ています。Aible は、データの評価、変換、分析、および予測モデルの作成が必要な場合、関連するクエリをお客様が所有する BigQuery データセットまたは BigQueryML モデルに、必要に応じて push します。その後、関連するメタデータ(分析結果やモデルを含む)を Cloud Storage または BigQuery 内のお客様の非公開 Google Cloud プロジェクトに適宜保存します。ユーザーが分析結果またはモデルを操作するときは、必ずすべての作業がユーザーのブラウザで行われ、必要に応じてメタデータへの安全なアクセスが行われます。Aible がお客様のデータにアクセスすることは絶対になく、データは、お客様の非公開 Google Cloud プロジェクトに安全に保存されます。
Google Cloud Platform サービス上に構築された Aible
1. Aible Sense
Aible Sense は、データ ジャーニーの第一歩として、圧倒的な量のデータから価値あるデータを導き出すよう支援するサービスです。Aible Sense は、データ エンジニアリングとデータ サイエンスの作業を完全に自動化し、データセットの品質が十分であることを保証(異常値検出、含有確率、SHAP 値などのテストを実施)して、統計的に妥当な分析情報、説得力のある予測モデル、価値の高いデータ ウェアハウスを生成します。
下の画像は、Google Cloud にデプロイされた Aible Sense のアーキテクチャを表しています。Aible は、分析ワークロードを BigQuery、BigQueryML、Vertex AI に適宜 push し、上述の機能を作成、検証します。
2. Aible Explore
Aible Explore では、チームがデータを使用してブレーンストーミングを行えます。チームの垣根を超えた自由な探索により、新たな発見が得られ、変動要素間のパターンと関係を割り出すことができます。Aible Explore は、ガイドに沿ったデータ探索と拡張分析により、ビジネス ユーザーがビジネス推進要因を視覚的に理解し、根本原因を特定して、背景情報を数分で見つけ出せるよう支援します。Aible は、リアルタイムに動作する Looker ダッシュボードをワンクリックでエクスポートし、セマンティック モデルの構築に必要な言語である LookML を作成して、BigQuery の基礎データを参照します。Aible は、ユーザーの介入なしに必要な LookML コードを生成することにより、BQ データへの Looker ダッシュボードの迅速なデプロイを実現し、サイクルタイムを劇的に短縮します。下の画像は、Google Cloud にデプロイされた Aible Explore のアーキテクチャを表しています。BigQuery は大規模で複雑なデータに対して非常に優れたスケーラビリティを発揮します。Aible はクエリを BQ に push することで、ついに Spark クラスタに頼ることなく、あらゆるサイズのデータに対する分析を行えるようになりました。
3. Aible Optimize
Aible Optimize は、正しい予測がもたらす固有のメリットと誤った予測がもたらす費用、およびマーケティング予算の制約など、各 AI レコメンデーションに従って行動するうえでの妨げとなり得るビジネス上の制約事項を考慮します。そして、このようなビジネスの現実を踏まえたうえで、AI レコメンデーションがお客様のビジネスにどのような影響を与えるかを正確に提示します。最適な予測モデルは、Looker や Salesforce などのエンタープライズ向けのアプリケーションまたはシステムから利用できるサーバーレス(CloudRun)RESTful エンドポイントとして自動的にデプロイされます。下の画像は、Google Cloud にデプロイされた Aible Optimize のアーキテクチャを表しています。モデルのトレーニングに関しては、BigQueryML と VertexAI が大規模で複雑なデータセットに対して非常に優れたスケーリングを行えます。この基盤技術を活用することで、Aible は最終的に Spark クラスタに頼ることのない、あらゆるサイズのデータに対する予測モデルのトレーニングを実現し、同時に Spark フレームワークが提供する以上の水準の復元性を付加できました。
論より証拠 - Overstock のカスタマー ジャーニー:
Overstock.com は、Aible を使用して、データ品質評価までのスピードを、データセットあたり数週間から数分に短縮しました。Aible プロジェクト全体は、インストールと Overstock の BigQuery とのインテグレーションから、経営幹部による審査と結果の承認まで、わずか 5 日間で完了しました。
Overstock.com の CTO である Joel Weight 氏は、次のように記しています。「私たちは Google BigQuery を幅広く使用しています。Aible と BigQuery のシームレスなインテグレーションにより、ワンクリックでデータセットを分析し、数分のうちに、確認すべき重要な分析情報を表示する動的ダッシュボードを自動的に表示できるようになりました。当社の今までのベスト プラクティスでは、この作業には何週間もかかっていたでしょう。数分でデータ分析ができれば、市場の状況やお客様の行動が変化しても、瞬時に新しい分析情報を得ることができます」。
Weight 氏のコメントは、Aible を使用する理由、膨大な分析費用の削減にとどまらない、はるかに価値のある理由を指摘しています。急速に変化する市場において、最も実用的なパターンは「未知の未知」となります。もちろん、ダッシュボードは新しいデータですぐに更新できますが、これまでと同様のデータに関する質問を行うことに変わりはありません。データに新しい分析情報が隠されているか?まだ考えてもいない質問はあるか?従来の手作業による分析では、そのような分析情報を検出するのに数週間から数か月かかり、それでも想定されるすべての質問を行うことはできません。BigQuery に統合された Aible は、何百万件もの質問を行い、収入、費用などのビジネス KPI に及ぼす影響の順に重要な分析情報を提示できます。これは、数分で行えます。これにより、誰が分析を行い、それによってどれだけ早く結果を出せるか、という「現実に実行できることを実行する技術」が完全に変わります。
Aible は、Google のデータクラウドの一部である Google BigQuery をネイティブに活用し、これらのデータ評価、データ変換、探索、モデル学習を、実質無制限のリソース全体に同時に読み込みます。Aible は、お客様所有の BigQuery データセットにデータを安全に複製することで、さまざまな情報源からのデータをシームレスに分析します。また、Aible は、BigQuery でステージングされたデータ(Aible が BigQuery で自動的にステージングした他の情報源のデータを含む)を基に、ネイティブな Looker ダッシュボードをシームレスに生成し、カスタム LookML 生成などの必要なステップをすべて自動的に処理します。
まとめ
Google のデータクラウドは、データドリブンなアプリケーションを構築するための完全なプラットフォームを提供します。データの取り込み、処理、保存の簡素化から高度な分析、AI、ML、データ共有機能まで、すべてがオープンかつ安全でサステナブルな Google Cloud Platform と統合されています。多様なパートナー エコシステム、オープンソース ツール、API を備えた Google Cloud は、テクノロジー企業が必要とするポータビリティと差別化要因を提供できます。
Aible + Google Cloud の詳細については、Aible.com をご覧ください。
Google Cloud の Built with BigQuery イニシアチブの詳細については、こちらをクリックしてご確認ください。
このブログ投稿に協力してくれた Google Cloud のチームメンバー、Christian Williams (Cloud パートナー エンジニアリング担当プリンシパル アーキテクト)に感謝します。
- Aible、創設者 / CEO Arijit Sengupta 氏