コンテンツに移動
パートナー

Gemini でスケーラブルな音声文字起こしを実現したパートナーの事例

2025年3月6日
Schneider Larbi

Sr. Partner Engineer

Dr. Charlotte Gistelinck

Sr. Partner Engineer

※この投稿は米国時間 2025 年 2 月 25 日に、Google Cloud blog に投稿されたものの抄訳です。

 

顧客との通話や会議の文字起こしから、調査インタビューの分析、目視可能なコンテンツの作成まで、音声文字起こしは、音声データから分析情報を抽出するうえで重要な役割を果たします。Google のパートナーは、さまざまな業界のクライアントと協力して、効率性、アクセシビリティ、およびデータドリブンな意思決定を強化する音声文字変換ソリューションを実装しています。

手動による音声文字変換や基本的な音声入力ツールなどの従来の音声文字起こし方法は、時間がかかり、間違いが発生しやすく、費用もかかることがあります。このブログ投稿では、費用対効果が高い方法で、音声文字起こしプロセスを自動化して、高精度な結果を迅速に提供することで Gemini が実現するスケーラブルな音声文字起こしの最新ソリューションについて説明します。

音声文字起こしのスケーリングに関する課題

組織は、自組織内で音声文字変換のニーズが拡大するにつれ、費用の増加、大量の音声を処理する際のレイテンシ、さまざまな音声条件下における精度の維持といった課題に直面する可能性があります。特に、従来のソリューションでは次のような問題に直面します。

  • 複数の話者、アクセント、背景雑音が含まれる複雑な音声を処理する。

  • 医療、法務、カスタマー サービスの各分野で、業界固有の用語の正確性を保つ。

  • 特にグローバルなビジネス環境において、多言語のニーズに対応する。

  • 処理時間と費用を最適化し、過剰なリソース消費を伴わずに迅速な変換を実現する。

スケーラブルなソリューションでは、スピード、精度、カスタマイズを損なうことなく、これらの課題に効率的に対処する必要があります。これが Gemini の優れた点です。

パートナーによる Gemini の活用方法

Google Cloud パートナーは、音声文字起こしを活用して、さまざまな業界のクライアントが効率性、コンプライアンス、アクセシビリティを向上させるよう支援しています。次に例を示します。

  • メディアとエンターテイメント: インタビュー、ポッドキャスト、ウェビナーの音声文字変換によりコンテンツを作成したり、字幕を生成してアクセシビリティとエンゲージメントを高めたりできます。

  • カスタマー サービス: 顧客との通話をリアルタイムで文字に起こし、品質保証、感情分析、顧客対応の最適化に役立てます(Customer Engagement Suite with Google AI会話分析情報もご覧ください)。

  • 法務とコンプライアンス: 法的手続き、契約、コンプライアンス関連のコミュニケーションを書き起こして、精度の向上、事例管理の合理化、規制の遵守を図ります。

  • 医療: 医療に関する音声入力や臨床記録を構造化された記録に変換して、文書化の改善、電子医療記録(EHR)の統合、規制遵守を実現します。

  • ビジネスおよび企業: 会議、インタビュー、プレゼンテーションの文字起こしにより、コラボレーション、知識の共有、記録の保持を改善します。

Gemini は、高度な AI と Google Cloud とのシームレスな統合の強固な組み合わせにより、スケーラブルな音声文字起こしの可能性を再定義します。Gemini の優位性は次のとおりです。

  • 大規模なデータセットの効率的な処理: Gemini は大量の音声データを簡単に処理できるため、高スループットの音声文字変換を必要とする組織に最適です。

  • 優れた精度とコンテキスト理解: 音声認識と自然言語理解における Google の数十年にわたる研究開発の成果を活用した Gemini によって、会話のニュアンスを捉えた非常に正確な音声文字変換が実現します。特に複数の話者、アクセント、または背景雑音がある場合でも、手動での確認や修正の必要性を最小限に抑えることができます。

  • 話者ダイアライゼーション: Gemini は音声ファイル内の話者を正確に識別して区別できるため、会話の流れを追って、発言者を正確に特定することがさらに容易になります。

  • 多言語対応: 複数の言語や方言の音声文字変換に対応しているため、グローバルなビジネスや多様なコンテンツに活用できます。

カスタマイズ可能なフォーマット: Gemini には柔軟なフォーマット オプションが備わっているため、タイムスタンプ、話者ラベル、句読点など、ユーザーの特定のニーズに合わせて文字起こしをカスタマイズできます。

差別化されたソリューションの導入

Google Cloud パートナー エンジニアリング チームは、システム インテグレータ(SI)と協力して、Google Cloud 上の Google の Gemini を使用して音声文字起こしを大規模に実装できる差別化されたソリューションを構築しました。

Gemini の高度なマルチモーダル機能と推論機能により、音声文字起こしの新たな可能性が開きました。このようなソリューションにより、音声ファイルを Gemini に直接送信して音声文字変換を実行できます。以下のリファレンス アーキテクチャは、このようなソリューションの構築方法を示しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1._gen_AI_powered_audio_transcription_refe.max-1000x1000.png

生成 AI を活用した音声文字起こしのリファレンス アーキテクチャ

このアーキテクチャは、Gemini を使用した音声文字起こしに対する堅牢でスケーラブルなアプローチを示しており、音声文字起こしのユースケースに合わせて変更できます。仕組みは次のとおりです。

1. ファイルのアップロードと並べ替え:「Cloud Storage バケットへのアップロード」は、.wav、.mp3、.mp4 ファイルなどのソースとなる音声ファイルを保存するために使用されます。これらのファイルがアップロードされると、EventarcSort Cloud Run 関数をトリガーします。このトリガー イベントは Cloud Pub/Sub を使用して渡されます。

Sort Cloud Run 関数は、受信ファイルを、そのファイル形式(.wav、.mp3)に基づいて、並べ替え、フィルタすることで管理します。ファイル形式に応じて、「Cloud Storage バケットに保存」するか「Cloud Storage バケットにアーカイブ」します。

2. 音声文字変換: 音声ファイルが「Cloud Storage バケットに保存」されると、Eventarc は Cloud Pub/Sub を使用して Recording Cloud Run 関数をトリガーします。この Recording 関数は、音声文字起こしのために音声ファイルを Gemini 1.5 Flash LLM モデルに送信します。

3. Gemini の多面的な処理: Gemini は、次の 3 つの主要なタスクを実行します。

a. 分析とフォーマット: 音声ファイルを分析し、関連するデータを抽出して、音声ファイルのスキーマに基づいて JSON 形式に構造化します。

b. 音声文字変換と要約: Gemini は音声コンテンツを文字に起こし、簡潔な要約を生成します。

c. 出力と評価: 要約されたテキスト「TTS 出力用の Cloud Storage バケット」に送信され、TTS Audio Generation 関数がトリガーされます。この関数は、Golden Script 用の Cloud Storage バケット」にあるスクリプトを実行してサンプル音声を生成します。そして、そのサンプル音声は、単語誤り率(WER)、文字誤り率(CER)、一致率などの確立された指標に基づいて音声文字変換の品質を評価するために使用されます。

このアプローチの主なメリットには、サーバーレスのイベント ドリブン アーキテクチャ(Cloud Run、Eventarc)による動的スケーリング、フルマネージド サービス(Cloud Storage)による管理の簡素化、必要なときだけリソースを消費することによる費用対効果、高度な要約や話者ダイアライゼーションなどの Gemini による機能強化などがあります。

設計上の考慮事項

Gemini を使用して Google Cloud で音声文字起こし用のアプリケーションとサービスを設計する場合、最適なパフォーマンスとスケーラビリティを実現するために重要な要素がいくつかあります。

1. 音声ファイルの効率的な処理: Google Cloud でサーバーレスの音声文字変換を行うために、大きな音声ファイルをメモリに直接読み込まないようにします。代わりに、Google Cloud Storage URI を使用して、メモリを制限することなく効率的に音声にアクセスし、処理します。

2. サーバーレス関数のタイムアウト: Cloud Run で大きな音声ファイルを処理する際に、関数が早期に終了しないように、関数のタイムアウトを最大 60 分に延長します。また、Eventarc の Pub/Sub サブスクリプションの確認応答期限を 300 秒に設定します。

3. モデルの選択とコンテキスト ウィンドウ: 生成 AI による音声文字起こしでは、音声ファイルのサイズと長さによってモデルが選択されます。ファイルが大きい場合や音声が長い場合は、Gemini 1.5 Flash(100 万トークン)や Gemini 1.5 Pro(200 万トークン)のようなコンテキスト ウィンドウの大きいモデルが必要になります。これにより、現在の市場が直面している従来の LLM の入力に関する制限を克服できます。Gemini 1.5 の拡張コンテキスト ウィンドウと完璧に近い検索機能により、多くの新しい可能性が開かれます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2._Context_lengths_of_leading_foundation_mod.max-800x800.png

主要な基盤モデルのコンテキストの長さ

上の図は、音声文字起こしのユースケースにおいて、Gemini 1.5 Pro と Flash によってスケーラブルな音声文字起こしが実現し、お客様のニーズに応じてそれぞれ最大 22 時間と 11 時間の音声が処理できることを示しています。

4. 話者ダイアライゼーションの最適化: Gemini に組み込まれた話者追跡機能を効果的に活用する方法は次のとおりです。

a. 最新の Gemini SDK を使用する: 最適なダイアライゼーション パフォーマンスを実現するために、コードで最新の SDK を使用していることを確認します。

b. 効果的なプロンプトを設計する: ダイアライゼーションとフォーマットの要件について Gemini に明確に指示するプロンプトを作成します。以下の図は、ダイアライゼーション プロンプトのコード例を示しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3._Sample_transcription__diarization_prompt.max-900x900.png

音声文字変換とダイアライゼーション プロンプトのサンプル

このサンプルコードは、Cloud Storage URI から音声ファイルを文字に起こし、その文字起こしを表示するよう Gemini に指示しています。

5. 高度なダイアライゼーション手法: 複数の話者、アクセント、背景雑音が含まれる複雑なシナリオでは、プロンプトを効率的に設計して Gemini のダイアライゼーションの精度を向上させます。ダイアライゼーションと音声文字変換を別々の関数に分離することを検討します。以下のスニペットにその例を示します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/4._Separate_transcription__diarization_fun.max-2200x2200.png

音声文字変換関数とダイアライゼーション関数の分離

上のスクリーンショットでは、赤いボックスでハイライト表示されている箇所が、Gemini に音声文字変換を実行するよう指示するプロンプトです。また、音声文字変換の形式も指定しています。このようなプロンプトにより、Gemini はまず音声をテキストに変換して要約することに注力できます。

音声文字変換関数は、実際には単純な関数であり、ゼロショット プロンプトです。ダイアライゼーション関数については、短い例をいくつか含めたプロンプトを設計することをおすすめします。青でハイライト表示されているコードブロックは、複数の話者が存在する場合にモデルが効果的かつ効率的にダイアライゼーションを行うのに役立つ、いくつかのサンプルを含むダイアライゼーション関数を示しています。

6. 音声文字変換の品質評価: Google Cloud で生成 AI を活用した音声文字起こしシステムを構築する際は、音声文字変換された回答を評価するメカニズムを実装して、精度をさらに高めることをおすすめします。モデル評価サービスなどのツールを使用して、音声文字変換の品質を評価し、改善することを検討してください。

使ってみる

Gemini でスケーラブルな音声文字起こしを実現してください。Gemini の API ドキュメントを参照して、高度な機能をソリューションに簡単に統合する方法をご確認ください。この投稿で説明したベスト プラクティスと設計上の考慮事項を実装することで、クライアントは優れた音声文字変換を実現でき、さまざまな業界でイノベーションが推進されます。

承認済みのパートナーでサポートが必要な場合は、Google パートナー エンジニアにデプロイのサポートを依頼してください。

- Schneider Larbi、シニア パートナー エンジニア
- Charlotte Gistelinck 博士、シニア パートナー エンジニア

 

投稿先