コンテンツに移動
データ分析

Vertex AI を活用して BigQuery で音声分析を簡素化

2024年1月12日
Google Cloud Japan Team

Gemini 1.5 モデル をお試しください。

Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダル モデルです。

試す

※この投稿は米国時間 2024 年 1 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。

企業は、顧客との通話、プロダクトのデモ、セールス提案などから、毎日大量の音声データを生成しています。このようなデータはビジネスを変革する可能性を秘めており、顧客満足度の向上、製品改善の優先順位付け、ビジネス プロセスの合理化などに役立てることができます。AI モデルはここ数か月で改善されましたが、音声データをスケーラブルかつ管理された方法で AI モデルに接続することは非常に困難な場合があり、お客様が大規模なインサイトを得る能力が制限される可能性があります。

このたび、BigQuery で Vertex AI 音声文字変換モデルのプレビュー版をご利用いただけるようになりました。SQL のシンプルさとパワーを活用したこの新機能を使えば、組み込みのセキュリティとガバナンスを提供しながら、音声ファイルを簡単に文字変換して他の構造化データと組み合わせ、分析や AI のユースケースを構築できます。Vertex AI 機能を使用してデータに合わせて音声文字変換モデルをチューニングし、BigQuery から使用することもできます。

これまで、分析機能の開発には、音声データの文字変換用に個別の AI パイプラインを構築する必要がありました。これらのパイプラインは BigQuery からサイロ化されており、お客様は文字変換されたデータを BigQuery に取り込むためにカスタム インフラストラクチャを作成して分析を行っていました。そのため、価値創出までの時間が長くなり、ガバナンスも困難になり、各チームで特定のユースケースに対し複数のシステムを管理する必要が生じていました。

データを統合、管理して AI エクスペリエンスにつなげる

Google Cloud の Speech to Text V2 API は、簡単かつ効率的に音声文字変換を行えるさまざまな機能を提供します。こうした機能の一つが、音声文字変換用に特定のドメイン モデルを選択できる機能です。この機能を使用すると、カスタマー サービスへの問い合わせ、医療記録、ユニバーサル音声など、音声の種類に最適化されたモデルを選択して文字変換を行えます。専用のモデルを選択したうえで、モデル適応を使用して独自のデータに合わせてモデルを柔軟にチューニングすることもできます。これにより、特定のユースケースにおける音声文字変換の精度を向上させることができます。

モデルを選択したら、BigQuery でオブジェクト テーブルを作成し、Cloud Storage に保存されている音声ファイルにマッピングします。オブジェクト テーブルではきめ細かなアクセス制御が可能で、アクセス権のある音声ファイルに対してのみ文字変換を生成できるように設定できます。管理者は、オブジェクト テーブルに行レベルのアクセス ポリシーを定義して、基盤となるオブジェクトへのアクセスを保護できます。

音声文字変換を生成するには、既製または適応させた音声文字変換モデルを BigQuery に登録し、SQL を使用してオブジェクト テーブルに対して呼び出します。音声文字変換は BigQuery テーブルのテキスト列として返されます。このプロセスによって、基盤となるインフラストラクチャを気にすることなく、大量の音声データを簡単に文字変換できます。さらに、オブジェクト テーブルが提供するきめ細かなアクセス制御により、顧客データの安全性が保証されます。

以下は、Speech to Text V2 API を BigQuery で使用する方法の例です。

読み込んでいます...

このクエリは、オブジェクト テーブル内のすべての音声ファイルの文字変換を生成し、その結果を transcription という名前の新しいテキスト列として返します。

感情分析、要約、その他の分析のユースケース

音声入力を文字変換した後で、そのテキストデータを分析する方法を 3 つご紹介します。

  • BigQueryML を使用して、よく使用される自然言語のユースケースを実行する: BigQueryML は、テキストモデルのトレーニングやデプロイを実行するための幅広いサポートを提供します。たとえば、BigQuery ML を使用して、サポートへの問い合わせ時の顧客の感情を識別したり、製品へのフィードバックをさまざまなカテゴリに分類したりできます。Python をご利用の場合は、BigQuery Studio を使用して、テキスト分析を行う Pandas 関数を実行することもできます。
  • 音声文字変換のメタデータを BigQuery テーブルに保存されている他の構造化データと結合する: これにより、構造化データと非構造化データを組み合わせて、より強力なユースケースを実現できます。たとえば、否定的な感情のサポートコールを活用して顧客のライフタイム バリュー(CLTV)の高い顧客を特定したり、顧客のフィードバックから特に要望の多い製品機能の一覧を作成したりできます。
  • BigQuery から PaLM API を直接呼び出し、文字変換されたデータの要約、分類、Q&A プロンプトを行う: PaLM は、さまざまな自然言語タスクに使用できる強力な AI 言語モデルです。たとえば、PaLM を使用してサポートコールの要約を生成したり、顧客からのフィードバックをさまざまなカテゴリに分類したりできます。
読み込んでいます...

検索および生成 AI のユースケースの実装

音声文字変換を実行したら、BigQuery の検索機能とインデックス作成機能を生かして極めて困難な検索クエリ向けに最適化されたインデックスを構築します。これにより、強力な検索機能を利用できるようになります

この統合により、音声ファイルに対する新しい生成 LLM アプリケーションも実現できるようになります。BigQuery の強力な組み込みの ML 関数(ML.GENERATE_TEXTML.GENERATE_TEXT_EMBEDDINGML.UNDERSTAND_TEXTML.TRANSLATE など)を使用すれば、文字変換されたテキストからさらなるインサイトを引き出して、分類、感情分析、エンティティ抽出、抽出型の質問応答、要約、異なるスタイルでのテキストの書き換え、広告コピーの生成、コンセプト考案、エンべディング、翻訳といったさまざまなタスクに利用できます。

次のステップ

上記の機能は現在プレビュー版で利用可能です。利用を開始するには、ドキュメントデモをご覧になるか、Google の営業担当者までお問い合わせください。

-グループ プロダクト マネージャー Gaurav Saxena
-スタッフ ソフトウェア エンジニア Bo Yang

投稿先