BigQuery と Vertex AI を使用した Gemini の詳細
Xi Cheng
Engineering Manager
Firat Tekiner
Product Management, Google
※この投稿は米国時間 2024 年 3 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。
従来からデータチームと AI チームの間にある障壁がイノベーションの妨げとなることがあります。通常、この 2 つの領域は切り離して運用され、別のツールを使用するため、データサイロや、データの冗長コピー、データ ガバナンスのオーバーヘッド、費用の課題につながります。AI 導入の観点では、これによりセキュリティ リスクが高まり、ML デプロイの失敗につながり、ML モデルを本番環境で運用できるようになる確率が低くなります。
データや AI に対する投資、特に生成 AI 関連への投資から最大の価値を引き出すには、このような障壁を取り除くことのできる単一のプラットフォームを使用することが推奨されます。それにより、データの取り込みと準備から、分析、探索、可視化まで、ML トレーニングと推論に至るまでの「データを AI 活用へつなげるためのワークフロー」を加速できます。
これを実現できるようにするため、Google は BigQuery と Vertex AI を使用してデータと AI をより密接に結びつけるイノベーションを最近発表しました。このブログ投稿では、これらのイノベーションのいくつかを詳しく紹介し、BigQuery で Gemini 1.0 Pro を使用する方法を説明します。
BigQuery ML を使用して AI をデータに適用する
BigQuery ML を使用すると、データ アナリストやデータ エンジニアは使い慣れた SQL を使用して、直接 BigQuery で ML モデルを作成、トレーニング、実行できます。これにより、従来の役割を超えて、高度な ML モデルを BigQuery で直接活用でき、線形回帰、ロジスティック回帰、ディープ ニューラル ネットワークの組み込みサポート、Vertex AI でトレーニングされたモデル(PaLM 2 や Gemini Pro 1.0 など)のほか、TensorFlow、TensorFlow Lite、XGBoost に基づいてインポートされたカスタムモデルが利用可能になります。さらに、ML エンジニアとデータ サイエンティストはトレーニング済みモデルを BigQuery を介して共有できるので、管理された方法でデータを使用し、データセットを簡単に見つけることができます。
データ パイプラインの各コンポーネントでは、さまざまなツールやテクノジーが使用されます。この複雑さによって開発とテストに時間がかかり、専門チームへの負担が大きくなります。BigQuery ML を使用すると、ユーザーは使い慣れた SQL 構文を使用して直接 BigQuery 内で ML モデルを構築し、デプロイできます。生成 AI をさらに簡単に使用できるようにするため、さらに一歩進めて、Vertex AI を介して Gemini 1.0 Pro を BigQuery に統合しました。Gemini 1.0 Pro モデルは、テキスト要約や感情分析などの幅広いタスクにわたって、より高い入出力スケールとより優れた結果を得られるよう設計されています。
BigQuery ML は、データのワークフローに直接埋め込むことで、生成モデルのスケーリングと効率化を実現します。これによりデータの移動によるボトルネックを排除し、チーム間のシームレスなコラボレーションを推進しつつ、セキュリティとガバナンスを強化できます。より大規模で高い効率性を実現する BigQuery の実績あるインフラストラクチャのメリットを活用できます。
生成 AI を直接データに適用することには、以下のような多くのメリットがあります。
-
BigQuery と生成 AI モデルの API 間のデータ パイプラインの構築、管理が不要
-
データの移動を避けることで、ガバナンスを合理化しデータ損失のリスクを軽減
-
AI モデルを呼び出すためのカスタム Python コードの書き込み、管理の必要性を低減
-
パフォーマンスを犠牲にせずにペタバイト規模のデータ分析が可能
-
アーキテクチャの簡素化で総所有コストを削減
消費者予測プラットフォームの大手である Faraday は、自社データで感情分析を行う際に、これまではデータ パイプラインを構築して複数のデータセットを結合する必要がありました。同社は LLM を直接自社データに適用することで、このプロセスを簡略化しました。追加の顧客ファーストパーティ データを結合してモデルにフィードバックし、高度にカスタマイズされたコンテンツを生成する処理を、すべて BigQuery 内で行うことができます。詳細については、こちらのデモ動画をご覧ください。
BigQuery ML と Gemini 1.0 Pro
BigQuery で Gemini 1.0 Pro を使用するには、まず、ホストされた Vertex AI 大規模言語モデルを表すリモートモデルを作成します。通常、これにかかる時間はわずか数秒です。モデルが作成されたら、そのモデルを使用してテキストを生成し、データを BigQuery テーブルと直接統合します。
次に、ML.GENERATE_TEXT 構文を使用して、Vertex AI を介して Gemini 1.0 Pro にアクセスし、テキスト生成タスクを実行します。CONCAT は、PROMPT 文とデータベース レコードを連結します。temperature は、レスポンスのランダム性を制御するプロンプト パラメータです(この値が小さいほど、関連度が高くなります)。flatten_json_output はブール値で、true に設定すると、JSON のレスポンスから平坦でわかりやすいテキストが抽出されて返されます。
生成 AI がデータにもたらすもの
現在、AI テクノロジーがビジネスデータに対して何ができるかについて世の中が理解しはじめたと、Google は考えています。生成 AI により、データ アナリストの役割は、単に大規模データセットの収集、処理、分析を行うだけでなく、データドリブンなビジネスへの影響を積極的に促進することへと拡大しつつあります。
たとえば、データ アナリストは生成モデルを使用して、過去のメール マーケティングのデータ(開封率、クリック率、コンバージョン率など)を要約し、どのような件名にすると開封率が高くなるか、また、パーソナライズされたオファーが一般向けのプロモーションよりパフォーマンスが高いかどうかを把握できます。このような分析情報を使用して、アナリストはモデルに対し、特定の好みに応じた魅力的な件名のリストを作成するよう指示できます。さらに、生成 AI モデルを活用して、魅力的なメールの内容の下書きも作成できます。これらすべての操作を、一元化されたプラットフォームで行うことが可能です。
早くから利用しているユーザーは、さまざまな業界にわたる多様なユースケースの解決に強い関心を示しています。たとえば、ML.GENERATE_TEXT を使用すると、次のような高度なデータ処理タスクを簡素化できます。
-
コンテンツの生成: 複雑なツールを必要とせずに、BigQuery 内で直接お客様のフィードバックを分析し、パーソナライズされたメールの内容を生成します。プロンプトの例: 「[テーブル名] に保存された顧客の感情に基づいてカスタマイズされたマーケティング メールを作成してください」
-
要約: オンライン レビューやチャットからの文字起こしなど、BigQuery の列内に保存されたテキストを要約します。プロンプトの例: 「[テーブル名] の購入者レビューを要約してください」
-
データの強化: 指定された都市名から国名を取得します。プロンプトの例: 「X 列の郵便番号に対応する市町村名を Y 列に出力してください」
-
書き換え: 音声からテキストに文字起こしした場合など、テキスト コンテンツのスペルや文法を修正します。プロンプトの例: 「X 列を書き換えて結果を Y 列に追加してください」
-
特徴抽出: オンライン レビューや通話の文字起こしのような大きなテキスト ファイルから重要な情報や単語を抽出します。プロンプト例: 「X 列から都市名を抽出してください」
-
感情分析: テキスト内の特定のサブジェクトに関する人間の感情を理解します。プロンプト例: 「X 列から感情を抽出して結果を Y 列に追加してください」
-
検索拡張生成(RAG): BigQuery ベクトル検索を使用して質問やタスクに関連するデータを取得し、コンテキストとしてモデルに提供します。たとえば、サポート チケットを使用して、密接に関連する既存のケースを 10 件見つけ、コンテキストとしてモデルに渡し、解決策を要約して提案します。
Vertex AI で Gemini 1.0 Pro のような最先端の基盤モデルのサポートが拡大されたことで、BigQuery を使用して、シンプルで簡単かつ費用対効果が高い方法で、データクラウド内の非構造化データを統合できます。
今後開催されるデータと生成 AI に関するイベントに参加しましょう
これらの新しい機能の詳細については、ドキュメントをご覧ください。こちらのチュートリアルを使用すると、Google の最高水準の AI モデルをデータに適用し、BigQuery からデータを移動することなく、モデルをデプロイし、ML ワークフローを運用化できます。Gemini のような高度なモデルの可能性を引き出しつつ、エンドツーエンドのデータ分析や AI アプリケーションを BigQuery から直接構築する方法と、開発の舞台裏について説明したデモもご覧いただけます。最新のイノベーションについて、また BigQuery ML でシンプルな SQL でモデルを作成して使用する方法については、最近のプロダクト イノベーション ウェブキャストをご覧ください。
このブログ投稿の執筆には、Google 社員である Mike Henderson、Tianxiang Gao、Manoj Gunti が協力してくれました。多くの Google 社員の尽力によって、これらの機能が実現しています。