BigQuery と Vertex AI で生成 AI の力を発揮する
Google Cloud Japan Team
※この投稿は米国時間 2024 年 3 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。
組織は AI を活用して新たな分析情報を取得し、効率化を実現することを夢見ています。そのためには、構造化データと非構造化データの両方を含むすべての企業データに、管理された安全な方法で簡単かつシームレスにアクセスできるようにするデータと AI のプラットフォームが必要です。
こうしたお客様のご希望を実現するために、より大きなスケールと高い効率でデータと AI をさらに結び付ける、BigQuery と Vertex AI を活用したイノベーションを発表いたします。これにより、次のことが可能になります。
- BigQuery ML を通じて Gemini モデルを利用可能にすることで、企業データのマルチモーダル生成 AI を簡素化する
- Vertex AI のドキュメント処理 API および音声文字変換 API と BigQuery とのインテグレーションを拡張することで、非構造化データから価値を引き出す
- BigQuery のベクトル検索を使用して、AI を活用したビジネスデータの検索を構築し、活用する
BigQuery と Vertex AI のファーストパーティ モデルのインテグレーションを使用して AI を直接データに組み込むことで、生成 AI の力をすべてのデータチームが平等に利用できるようにし、大規模言語モデルで企業データをシームレスに有効活用できるようになります。これにより、BigQuery 独自のサーバーレス アーキテクチャを利用してスケーリングと効率性を高めながら、AI を活用した分析の構築をより簡単、迅速かつ安全に行えます。
Gemini モデルで生成 AI のユースケースを簡素化する
BigQuery ML では、使い慣れた SQL によって BigQuery 内で ML モデルを作成、トレーニング、実行できます。毎年数億の予測クエリとトレーニング クエリが実行されているため、BigQuery の組み込み ML の使用量は前年比で 250% 増加しました1。
現在、Google は Vertex AI による Gemini 1.0 Pro のインテグレーションにより、BigQuery をさらに拡張しています。Gemini 1.0 Pro モデルは、テキスト要約や感情分析などの幅広いタスクにわたって、より高い入出力スケールとより優れた結果を得られるよう設計されています。BigQuery コンソール内から、シンプルな SQL ステートメントや BigQuery に組み込まれた DataFrame API を使用して、このモデルにアクセスしていただけるようになりました。
これにより、構造化データ、非構造化データ、生成 AI モデルを組み合わせて、新しいクラスの分析アプリケーションを作成できるデータ パイプラインを構築できます。たとえば、購入者レビューをリアルタイムで分析し、購入履歴や現在の商品の在庫状況と組み合わせて、パーソナライズされたメッセージやオファーを生成することができます。これらすべてを BigQuery 内で行うことが可能です。BigQuery と Gemini モデルのインテグレーションについて詳しくは、こちらをご覧ください。
今後数か月以内に、Gemini 1.0 Pro Vision モデルのサポートを拡大することで、お客様がマルチモーダル生成 AI のユースケースを活用できるようにする予定です。これにより、使い慣れた SQL クエリを使用して画像、動画、その他の複雑なデータを分析できるようになります。たとえば、BigQuery で大規模な画像データセットを操作している場合、Gemini 1.0 Pro Vision モデルを利用すると、画像の説明を生成したり、画像を分類して検索しやすくしたり、主な特徴、色、デザインなどにアノテーションを付けたりすることができます。
AI で非構造化データから価値を引き出す
画像、ドキュメント、動画などの非構造化データは、活用されていない企業データの大部分を占めています。ただし、非構造化データは解釈が困難で、有益な分析情報を抽出しにくい場合があります。
BigLake はデータレイクとウェアハウスを単一の管理フレームワークで統合し、非構造化データの分析、検索、セキュリティ、ガバナンス、共有を可能にします。データ量の増加に伴い、お客様による BigLake の使用量は数百ペタバイトにまで増えました。BigLake の力を活用することで、お客様は Vertex AI の Vision API、オープンソースの TensorFlow Hub モデル、または独自のカスタムモデルを含む幅広い AI モデルを使用して、すでに画像を分析しています。
現在 Google は、こうした機能を拡張することで、Vertex AI のドキュメント処理 API と音声文字変換 API を使用して、ドキュメントや音声ファイルから簡単に分析情報を抽出できるようにしています。お客さまはこうした新機能を利用して、コンテンツの生成や分類、感情分析、エンティティ抽出、要約、エンベディング生成などを行う生成 AI アプリケーションを作成することができます。
たとえば、財務報告書から収益、利益、資産などの情報を引き出し、過去の株価実績を含む BigQuery データセットと組み合わせることで、より詳細な財務実績の分析を行えます。同様に、カスタマー サポートの通話録音の感情分析、一般的な問題の特定、通話の分析情報と購入履歴の関連付けにより、カスタマー サービスの向上を図ることができます。
非構造化データでベクトル検索を改善する
先月中旬、Google は Vertex AI との統合により BigQuery データに対するベクトル類似度検索を可能にする BigQuery ベクトル検索のプレビュー版を発表しました。この機能は一般に近似最近傍探索とも呼ばれ、セマンティック検索、類似性検出、大規模言語モデル(LLM)による検索拡張生成(RAG)など、多数の新しいデータや AI のユースケースを強化するうえで重要になります。ベクトル検索は、コンテキストの理解の向上、曖昧さの低減、事実の正確性の確保に加え、さまざまなタスクやドメインへの適応性を可能にすることで、AI モデルの品質を向上させることもできます。
たとえば、ベクトル検索は、小売業者がお客様に合わせた商品のおすすめを改善できます。買い物客が小売業者の e コマース ウェブサイトで赤いドレスの写真を調べているとします。ベクター検索では、買い物客が色、デザイン、さらに着ていく場所などのスタイルの好みを検索できます。ベクトル検索を使用すると、小売業者は同じ説明でなくても、類似した他のドレスを自動的に提案できます。そのため、買い物客は探している商品を見つけやすくなり、小売業者は買い物客が購入する可能性が高い商品を表示することができます。
BigQuery ベクトル検索は、テキスト エンベディング機能に基づいて構築され、AI ガバナンス ポリシーとアクセス制御に準拠しており、次のような新しいデータと AI のユースケースを実現します。
- 検索拡張生成(RAG): 質問やタスクに関連するデータを取得し、コンテキストを添えて LLM に提供します。たとえば、サポート チケットを使用して、密接に関連する既存のケースを 10 件見つけ、コンテキストとして LLM に渡し、解決策を要約して提案します。
- セマンティック検索: ドキュメントにまったく同じ単語が含まれていなくても、指定したクエリと意味的に類似したドキュメントを検索します。関連記事、類似商品、質問への回答に関する検索などのタスクに役立ちます。
- テキスト クラスタリング: ドキュメントを類似したドキュメントのグループにクラスタリングします。ドキュメントの整理、重複したドキュメントの検索、ドキュメントのコーパスの傾向特定といったタスクに役立ちます。
- 要約: 元のドキュメントと最も類似したドキュメントを見つけて要点を抽出してドキュメントを要約します。エグゼクティブ サマリーの生成、要約の作成、ニュース記事の要約などのタスクに役立ちます。
今後開催されるデータと生成 AI に関するイベントに参加しましょう
Google はこれからも、生成 AI を使用したビジネスデータの強化を進めてまいります。詳しくは、2024 年 3 月 7 日午前 9 時~10 時(太平洋標準時)にライブ配信される Data Cloud Innovation(データクラウド イノベーション)ウェブキャストにご登録ください。また、Next ’24 にもぜひご参加ください。今年の変革を加速するのに役立つ最新のプロダクト ニュースやイノベーションに関する有益な情報を入手していただけます。
1. BigQuery の組み込み ML の使用量は、2022 年 7 月から 2023 年にかけて前年比で 250% 増加。
ー Google Cloud、データ分析担当バイス プレジデント兼ゼネラル マネージャー、Gerrit Kazmaier