Sparkflows と Google Cloud によるセルフサービス分析と生成 AI の強化
Google Cloud Japan Team
※この投稿は米国時間 2024 年 2 月 14 日に、Google Cloud blog に投稿されたものの抄訳です。
ML と生成 AI を利用したセルフサービス型の分析は、データドリブンな企業にとっての新たな至上目標であり、予測的な分析情報を通じて意思決定の強化を可能にし、運用効率とイノベーションを大幅に向上させます。セルフサービス分析が従業員の生産性とビジネス効率の重要な推進力であると企業の経営幹部は考えるようになってきています。
技術担当者は現在、Apache Spark、Ray、pandas、sk-learn、h20 などのさまざまなオープンソース ライブラリを使用して、分析と ML のアプリケーションを作成しています。これには大量のコードを記述する必要があり、習熟に時間がかかります。また、ビジネス ユーザーが安全かつスケーラブルな方法でシステムを操作するためのフロントエンド インターフェースの開発にも時間がかかります。
企業もまた、データ サイエンスの専門家を採用して維持するという課題に直面しており、数多くの異種ツールやテクノロジーを管理するために諸経費が発生しています。サイロ化されたソースのデータはますます多様化し、なおかつ量も増加しており、その処理は分析の取り組みにとって大きな障害となります。ワークロードをシームレスにスケーリングできないと、ビジネス ソリューションの開発が遅れます。
分析の民主化と ML アプリケーションの構築を最適に行うには、直感的で使いやすいワークフロー、分析アプリ、会話インターフェースにより、ビジネス ユーザーと IT チームがクラウド テクノロジーで提供されるサービスを活用できる必要があります。
このため、すべてのユーザーがクラウドを利用したビジネス ソリューションを作成、リリースできるようになる統合セルフサービス プラットフォームが強く求められます。
Sparkflows
Sparkflows は Google Cloud のパートナーであり、データ プロダクトを構築するためのセルフサービス分析、ML、生成 AI 機能を搭載した高度なプラットフォームを提供しています。Sparkflow では、直感的なユーザー主導型インターフェースを通じて、多様なオープンソース テクノロジーを統合できます。
Sparkflows を使用すると、データ分析チームは、460 個以上のノーコード / ローコード プロセッサと以下に示すさまざまなワークベンチを使用して、ETL、探索的分析、特徴量エンジニアリング、ML モデル、生成 AI アプリの開発を促進できます。


Sparkflows のさまざまな AI ワークベンチと生成 AI ワークベンチ
Sparkflows と Google Cloud によるセルフサービス
Google Cloud 上で実行される Sparkflow は、BigQuery、Vertex AI、AlloyDB、Cloud Storage に接続できる統合されたセルフサービスのデータ サイエンス機能を提供します。また、Dataproc や BigQuery などの高性能分散ジョブ実行エンジンに計算を自動的にプッシュダウンします。こうした自動インテグレーションにより、非常に大規模なデータセットに合わせてビジネス ソリューションがスケーリングされます。


相互作用図: Sparkflows と Google Cloud
Sparkflows は、販売およびマーケティング、小売業の製造およびサプライ チェーン部門、そして消費財の顧客向けに多数のソリューションを開発してきました。
Sparkflows と Google Cloud を使用したビジネス シナリオ
ここで、ある小売企業のエンジニアリング チームが、セルフサービス分析ツールをマーケティング チームに提供する必要があるとします。このツールは離脱する可能性のある顧客を特定し、クーポンへの反応、売上、ユーザー属性データを分析することでキャンペーンの効果を測定できると仮定します。
マーケティング チームはデータを迅速に取り込んで準備し、ML モデル、分析レポート、生成 AI アプリを自動化された方法で作成する必要があります。これにより、Spark コードが生成され、ジョブが Dataproc クラスタに簡単に送信されます。
インストール
まず、Sparkflows は顧客の安全な VPC ネットワーク内の仮想マシンか、Google Cloud で実行されているコンテナにインストールされます。Sparkflows は、組み込みの SSO インテグレーションを使用して安全に実行されます。
構成
管理者ユーザーは、Sparkflows 管理コンソールで Dataproc Serverless Spark クラスタに加え、PaLM API などのさまざまな種類の LLM サービスを構成します。


セルフサービス ソリューションの設計と実行
Sparkflows は、継続的な ML のための統合されたエクスペリエンスを実現します。


次に、離脱する可能性のある顧客を特定するために必要な手順と、顧客によるレビューを分析して満足度を測定する機能について説明します。このプロセスでは以下のことを行います。
Sparkflows は、上記の操作を実行するためにさまざまな Google Cloud サービスに接続します(「相互作用図: Sparkflows と Google Cloud」を参照)。
データセット
この例では、データセット(顧客トランザクション、キャンペーン、クーポン、ユーザー属性情報)が BigQuery に保存され、商品レビューデータが Cloud Storage に保存されます。ビジネス ユーザーは小売などの分野を選択し、Sparkflows 内で Google Cloud に保存されているすべてのデータセットを表示できます。ユーザーは Cloud Storage 内のファイルの参照、BigQuery テーブルの探索やクエリ実行が可能です。Sparkflows データセット エクスプローラは Data Catalog とシームレスに連携します。




データの準備
ユーザーは、350 個を超えるノーコード / ローコードのデータ準備プロセッサを使用して、データセットを取り込み、データ プロファイリングや自動品質チェック、クリーニング、探索的分析を実行するためのさまざまなワークフローを迅速に設計できます。このようなワークフローのすべては、現在のビジネス ソリューションの Spark コード生成と機能開発を自動化し、エンジニアリング時間を数週間から数時間に短縮することができます。
各ビジュアル ワークフローにより、Dataproc Serverless で起動される Spark ジョブが自動的に作成されます。Dataproc Serverless は、この Spark ジョブを実行するための理想的なプラットフォームです。性能および費用対効果の高い分散コンピューティング プラットフォームであり、必要に応じて追加のコンピューティング リソースを迅速にスピンアップできます。また、ジョブ実行期間中のリソースに対してのみ課金されるため、費用対効果も非常に優れています。
ML モデルのトレーニング
データ サイエンティストとアナリストは、特徴量エンジニアリングを実行して、前の手順で設計したワークフローで処理されるデータから集約されたさまざまな指標を計算できます。デベロッパーは、80 個を超えるノーコード / ローコードの ML プロセッサを活用して、ML モデリング ワークフローを作成できます。これらの特徴は、離脱する可能性が最も高い顧客を予測できるモデルをトレーニングするために使用されます。
顧客セグメントの作成には、購入パターンとクーポン利用の情報に基づく特徴が使用されます。
ML モデルを活用した予測
離脱予測のワークフローの例を以下に示します。
組み込みスケジューラ、API、分析アプリの UI を使用して手動で予測ワークフローをトリガーできます。


ML モデルを活用した予測ワークフロー
可視化 - 記述分析と予測分析
ビジネス ユーザーは、レポート デザイナー UI のワークフローで使用されるノードをドラッグすると有益なレポートを作成できます。これにより、データ サイエンティストは、プロファイルの統計情報、データ品質の結果、探索的分析情報、トレーニングの指標、予測の出力を検査できます。
基盤となるワークフローが Dataproc クラスタで実行されると、レポートは自動的に更新されます。


記述分析と予測分析のレポート
ビジネス分析アプリ
Sparkflow のビジネス分析アプリを使用すると、ビジネス ユーザーはデータ プロダクト用のフロントエンド アプリケーションを構築できます。ビジネス ユーザーはブラウザを使用してビジネス分析アプリを操作します。分析アプリはインタラクティブ UI で構築されています。
生成 AI アプリ
次は、ビジネス チームが以下の操作を実行できるように、生成 AI アプリをいくつか構築してみましょう。
- 商品レビューデータに基づく答えを得る質問
- 要約、トピックの抽出、テキストの翻訳
まず、管理コンソールで Vertex PaLM API 接続を構成し、分析アプリで接続を選択します。


- ユーザーが商品レビューをクエリして分析情報を取得できるようにする


- ユーザーがドキュメントの翻訳とクエリを実行できるようにする


小売企業の営業チームとマーケティング チームでは、Sparkflows をこのように使用して離脱の可能性のある顧客の特定、キャンペーンの効果測定、対象となる顧客セグメントの発掘、商品レビューやビジネス文書の分析を行うことができます。
ML ソリューション


コンテンツ合成、コンテンツ生成、NLQ ベースのレポートからプロンプトベースのビジネス ソリューションに至るまで、さまざまな生成 AI アプリが可能になります。
生成 AI ソリューション


連携のメリット
AI と生成 AI の活用により素早い対応が可能になることは、あらゆる種類の企業に大きな価値をもたらします。Sparkflows と Google Cloud のパートナーシップにより、高性能で手頃な価格のセルフサービス型 AI および生成 AI 機能をユーザーが安全かつスケーラブルな方法で利用できます。Vertex の費用対効果に優れた生成 AI 料金モデルと Sparkflows の割引価格パッケージのおかげで、Sparkflows と Google Cloud を使用した生成 AI ソリューションを低費用で構築できます。まとめると、Sparkflows と Google Cloud は業務の効率を高め、ビジネス ソリューションを加速し、製品化までの時間を短縮することで、ビジネスの成長を推進します。
Sparkflows を試してみる
Sparkflows と Google Cloud を使ってみるためのリンクをいくつかご紹介します。
謝辞: Kaniska Mandal 氏、Deb Dasgupta をはじめ、このコラボレーションに貢献し、プロセスの実行時にガイダンスを提供してくれた Google Cloud と Sparkflows チームの多くのメンバーに感謝します。
-Google、グローバル、共同設立者 / CEO Jayant Shekhar 氏
Google、グローバル パートナー アーキテクト Maruti C