BigQuery で PaLM の力を活用
Google Cloud Japan Team
※この投稿は米国時間 2023 年 8 月 31 日に、Google Cloud blog に投稿されたものの抄訳です。
IDC は、2025 年までに世界のデータ量が 175 ゼタバイトとなり、その 80% が非構造化データであると推定しています。しかし、非構造化データの 90% は分析されることはありません。これは、非構造化データの抽出、変換作業が煩雑で、費用がかさみ、リスクを伴うだけでなく、複数のツールを必要とするためです。そのため、非構造化データが組織のデータ パイプラインに使用されることはほぼありません。
そんななか、Google Cloud のテキストや視覚の基盤モデルを含む生成 AI における最近のイノベーションにより、データチームがこの未開拓の非構造化データを活用できる道が多方面に向けて切り開かれています。BigQuery の新しいテーブルタイプであるオブジェクト テーブルは、Cloud Storage に保存された非構造化データに構造化レコード インターフェースを提供し、さらなる可能性を引き出します。
このたび、その取り組みをさらに一歩進め、BigQuery と Vertex AI の基盤モデルのインテグレーションにより、BigQuery 内で直接、非構造化データをシンプルかつ簡単に分析できるようにしました。BigQuery と Vertex AI の基盤モデルのインテグレーションにより、データの保存場所に直接、生成 AI を導入することが可能になります。このアプローチには次のような多数のメリットがあります。
BigQuery と生成 AI モデルの API 間のデータ パイプラインの構築、管理が不要
データの移動を避けることで、ガバナンスを合理化しデータ損失のリスクを軽減
AI モデルを呼び出すためのカスタム Python コードの書き込み、管理の必要性を低減
パフォーマンスを犠牲にせずにペタバイト規模のデータ分析が可能
アーキテクチャの簡素化で総所有コストを削減
これらはすべて、BigQuery 内で直接、ML 機能を活用できる BigQuery ML 推論エンジンによって実現が可能であり、最近、一般提供が開始されました過去 2 年間において BigQuery ML は、2 年連続で前年比 250% のクエリ増加を記録しています。そして今年は、すでに 3 億以上の予測クエリやトレーニング クエリが BigQuery ML で実行されています。
最初にサポートされた基盤モデルである PaLM 2(text-bison)によるテキスト分析に始まり、今では BigQuery ML にわずか数行の SQL を記述するだけで、要約や感情分析などの高度なテキスト処理タスクのための非構造化データの分析、構造化された形式での結果の取得、より深い分析を目的とした他のデータとの併用などが実施できるようになっています。
仕組み
BigQuery ML の推論エンジンは、内部で ML.GENERATE_TEXT 関数を使用して Model Garden から Vertex AI text-bison モデルを呼び出します。この機能を使用するための 2 つのシンプルな手順がこちらです。
1. モデルをリモートモデルとして登録する
2. 推論を実行する。ここでは、指定された都市名から国名を取得することでデータ拡充を実現する場合を例として使用します。「city」が「example_table」内の列であることに注意してください。
BigQuery における PaLM 活用のお客様事例
BigQuery と Vertex AI の基盤モデルのインテグレーションを早くから利用しているユーザーは、さまざまな業界にわたる多様なユースケースの解決に強い関心を示しています。たとえば、ML.GENERATE_TEXT を使用すると高度なデータ処理タスクを簡素化できます。
コンテンツの生成: 複雑なツールを必要とせずに、BigQuery 内で直接お客様のフィードバックを分析し、パーソナライズされたメールの内容を生成
要約: オンライン レビューやチャットからの文字起こしなど、BigQuery の列内に保存されたテキストを要約
データの強化: 指定された都市名から国名を取得
書き換え: 音声からテキストに文字起こしした場合など、テキスト コンテンツのスペルや文法を修正
特徴抽出: オンライン レビューや通話の文字起こしのような大きなテキスト ファイルから重要な情報や単語を抽出
感情分析: テキスト内の特定のサブジェクトに関する人間の感情を理解
Faraday は消費者予測プラットフォームの大手ですが、これまではデータ パイプラインを構築して複数のデータセットを結合する必要がありました。現在では、感情分析を簡素化できるだけでなく、顧客の感情を取得し、追加の顧客ファースト パーティ データと結合して LLM に再びフィードすることで、高度にカスタマイズされたコンテンツを生成することもできます。そして、これらの操作はすべて BigQuery 内で行えます。詳しくは、こちらのデモ動画をご覧ください。
「Faraday のクライアントは、すでに、構造化データから作成した予測の恩恵を受けています。そこに Google が BigQuery と Vertex AI の基盤モデルを統合したことで、非構造化データも活用したスケーラブルなビジネス成果の予測が可能となりました」 - Faraday、CTO、Seamus Abshere 氏
使ってみる
詳細については、ドキュメントページをご覧いただくか、こちらのチュートリアルでテキストからのキーワードの抽出をお試しください。
- ソフトウェア エンジニア Xi Cheng