AI & 機械学習

Google Cloud での音声関連テクノロジーに関する究極のガイド

2022年4月28日

https://storage.googleapis.com/gweb-cloudblog-publish/images/gcp_speech.max-2600x2600.jpg

Google Cloud Japan Team

※この投稿は米国時間 2022 年 4 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。

AI のおかげで、声に出して話すことはマシンとのコミュニケーションにおいて（スマートフォンにテキストを送信するように指示したり、スマートスピーカーに天気を尋ねたりする場合など）だけでなく、人間同士の対話を豊かにする（ビデオ会議中にほぼリアルタイムで字幕を生成する場合など）ための第一の手段にもなりました。

今回の投稿では、音声テクノロジーの最も興味深く実用的な応用と、この種のアプリの構築を可能にする Google Cloud ツールをご紹介します。

字幕

字幕の生成は、音声入力（STT）テクノロジーの最もシンプルで便利な応用の一つです。この機能は非常に実用性が高く、実際に YouTube に直接組み込まれています。コンテンツ制作者は、ボタンをクリックするだけで Google の内蔵 STT モデルを使用して動画の字幕を生成できるので、音声の有無にかかわらず動画を楽しむことができます。

純粋な音声には Google Cloud Speech API を、動画の文字起こしには Video Intelligence API を利用して、皆様のアプリで簡単にこの機能を作成できます。これらの API は、音声の文字起こしだけでなくタイムスタンプも提供するため、元のコンテンツにその音声文字変換をリンクさせることが可能です。この API を使用して字幕を自動生成する方法については、次の動画をご覧ください。

リアルタイム字幕

Speech-to-Text は、コンテンツが作成される前に実行できる（つまり、動画を投稿する前に字幕を付ける）だけでなく、会議中での字幕生成や、基調講演者の講演中に文字起こしするなど、その場でリアルタイムに実行することもできます。この機能は、Google Chat にすでに組み込まれています。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1_Speech_on_Google_Cloud.gif

また、デベロッパーは Google Cloud の Speech API を使ってこのリアルタイム機能を拡張することもできます。この設定では、音声は Speech エンドポイントに継続的にストリーミングされます。エンドポイントは中間音声文字変換を返し、最終的には話し手が発話を停止したタイミングで「最終」音声文字変換を解決します。

音声の翻訳

字幕自体は便利なものですが、音声からのテキスト変換は、そのテキストにさらに機械学習モデルを適用して、より高度なユースケースが可能になるという点で非常に有用です。

たとえば翻訳です。AI を活用した Speech-to-Text モデルを使用して音声を自動的に文字起こしできるのと同様に、AI を活用した翻訳モデル（Google Translate API など）を使用して、テキストを 100 以上の対応言語に翻訳することが可能です。

このようなユースケースは非常に一般的になっており、実は Google Cloud は、音声の文字起こしと翻訳を同時に行うための追加 API、Media Translation API を提供しています。またこの API は、次のようなリアルタイムストリーミングのシナリオでも活用できます。

STT と Translation を組み合わせることで、自動生成された翻訳済みの字幕を作成できます。さらに一歩進んで Text-to-Speech（TTS）を追加すると、次のように、AI が生成した吹替（音声翻訳）を作成することも可能です。

こうした応用では、Speech-to-Text API、Translation API、Text-to-Speech API を組み合わせることによって力を発揮します。皆様の AI 吹替アプリを構築する方法についてはこちらをご覧ください。

音声と NLP

コンピュータが人間の言葉を理解する「自然言語処理（NLP）」の分野はますます進歩しています。音声をテキストに文字起こししたら、次のような最新の NLP テクノロジーをその音声文字変換データに適用できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Speech_on_Google_Cloud.max-2000x2000.jpg

たとえば、STT API に組み込まれている「コンテンツフィルタリング」機能を使用すると、音声文字変換テキストから冒とく的な語句を自動的に検出し、それらを必要に応じて除外できます。STT API と組み合わせると、Natural Language API の感情分析機能によって、音声文字起こしが否定的な感情を表しているのか、肯定的な感情を表しているのかを知ることが可能です。

このテクノロジーの併用で最も成功した例の一つとして、スマートコールセンターがあります。仮想エージェントと会話して航空便の変更をしたことがある方なら、音声と NLP との連携をおわかりいただけるでしょう。

このテクノロジーは、コールセンターの仮想エージェントを動かすだけでなく、コールセンターとお客様との何十万時間もの会話を理解するためにも使用できます。これらの会話を STT によって文字起こしした後、NLP を使用して検索しやすいようにします（電話での会話という点を除けば、Google 検索のように使用できます）。これにより、コールセンターでのサービスが向上します。

たとえば、感情分析モデルでは、お客様が通話中に肯定的な感情を示しているのか、否定的な感情を示しているのかを検出できます。エンティティ抽出では、通話中に言及された特定の「エンティティ」（特定の製品名、人名、テクノロジー名、住所、通貨など）を識別できます。トピックのモデリングは、何度も発生する会話のトピックを特定するのに役立ちます（例: 「請求」に関する苦情の急増）。そして最後に、テキスト分類モデルを使用すると、会話を「バグレポート」、「請求」などのカテゴリにグループ分けできます。

Google の Contact Center AI（CCAI）は、これらの機能を 1 つのサービスとしてパッケージ化したものです。これには、スマート仮想エージェントを簡単に構築できる Dialogflow CX、音声と NLP を使用して人間のエージェントをリアルタイムで支援する Agent Assist、コンタクトセンターの関係者がコンタクトセンターのデータパターンを監視するのを支援する CCAI Insights が含まれます。実際に確認してみたい場合は、こちらの動画をご覧ください。

コールセンター以外にも、検索可能な動画アーカイブや医療分析情報まで、音声と NLP の応用の可能性は実に無限大です。

音声駆動型インターフェース

これまで、STT API を使用して音声を文字起こしする方法と、NLP を適用して、その文字起こしを理解して変換する方法について説明してきました。CCAI が示しているように、これらのテクノロジーを適用した最もエキサイティングなものの 1 つとして、完全に音声で制御されるアプリがあります。ベッドに横になっているときに、寝室の電気を消すようスマートスピーカーに指示したことがある方ならおわかりでしょう。

音声駆動型インターフェースにより、画面領域のほとんどないテクノロジーとの対話が可能となります。たとえば、スマートウォッチ、スマートスピーカー、車の運転中に操作できるアプリ、電話でのフライトの変更を手助けしてくれる仮想エージェントなどが挙げられます。

このような音声アプリを構築するには、単に話された言葉を理解するだけでなく、その言葉の意味も理解できるソフトウェアが必要です。つまり、ユーザーの意図を認識する機械学習モデルが必要となります。アプリがコマンドを認識するようなシンプルなもの（「電気を消して」など）の場合もあれば、多重的な会話を処理できるような、より複雑な音声インターフェースが必要になる場合もあります。そのためには、Conversational AI が必要です。Conversational AI に関する詳細と、chatbot と音声を組み合わせてインテリジェントな音声駆動型インターフェースを構築する方法については、こちらの講演をご覧ください。

そのほかに、Conversational AI 学習ハブでもご確認いただけます。

開始方法

Google Cloud の Speech-to-Text API は、Speech コンソールで簡単にお試しいただけます。音声ファイル（または Google Cloud Storage に保存されている音声ファイルへのリンク）をアップロードするだけで、文字起こしが生成されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_Speech_on_Google_Cloud.max-1800x1800.jpg

新しい文字起こしを作成する

https://storage.googleapis.com/gweb-cloudblog-publish/images/4_Speech_on_Google_Cloud.max-2000x2000.jpg

ファイルをアップロードする

https://storage.googleapis.com/gweb-cloudblog-publish/images/5_Speech_on_Google_Cloud.max-2000x2000.jpg

話されている言語を選択する

https://storage.googleapis.com/gweb-cloudblog-publish/images/6_Speech_on_Google_Cloud.max-1900x1900.jpg

文字起こしされた音声

これらのユースケースが示すように、AI は効率性の向上と現実世界の課題解決に力を発揮しています。この機会に伴い、Google には、すべての人のために役立つ AI プロダクトを構築および統合する責任があると考えています。Google Cloud の AI プロダクトは、Google の AI の原則に基づいた設計によって責任をもって組み込まれています。しかし、Google のプロダクトやサービスは、それだけで成立する独立した存在ではありません。AI を成功させるには、組織がユースケース、トレーニングデータ、社会的なコンテキストを考慮する必要があります。責任ある AI のガバナンスプロセスの詳細については、こちらをご覧ください。

音声を利用したアプリの構築を始める準備はできましたか？Google Cloud の Speech-to-Text API を確認し、今すぐ無料トライアルを開始しましょう。

- AI 応用エンジニア Dale Markowitz

投稿先