インターネット接続せずに Google Cloud 音声認識 AI をローカルで実行
Google Cloud Japan Team
※この投稿は米国時間 2022 年 10 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。
「歌を歌って」「アプリを起動して」「質問に答えて」と音声アシスタントに頼んだのにまったく反応がなかったという経験は誰にでもあるでしょう。ネットワークのサービスが停止していたか、それとも通信圏内からはるかに遠い場所にいたか、どのような原因にせよ結果は同じです。音声アシスタントがサーバーに接続できず、機能しなかったということです。
Google の Speech-to-Text(STT)API は現在、毎月 10 億分を超える音声を処理しています。音声アシスタント、ひいては自動音声認識(ASR)全般が、数百万人もの人々の意思決定や生活に不可欠なものとなっていることは明らかです。しかし、高品質な音声を適切な形でユーザーに届けるには、通常、ASR を処理する AI システムに専用ハードウェアへの安定したクラウド接続が必要でした。
Google Cloud Next ‘22 で一般提供が開始された Speech On-Device には、インターネット接続が断続的であったり、ほとんどまたはまったく利用できなかったりする環境でのさまざまな新しい用途向けに、クラウドで利用できるものと同じ強力な音声認識機能が組み込まれています。これらのオンデバイス Speech-to-Text テクノロジーと Text-to-Speech テクノロジーはすでに Google アシスタントで使用されていますが、Speech On-Device により、新世代のアプリとサービスがこれらのテクノロジーを活用できるようになります。
ネットワーク接続の有無にかかわらず音声に関する優れたユーザー エクスペリエンスを実現
Speech On-Device は、トンネルの中を走行する自動車、キオスクなどの統合デバイスで実行されるアプリ、IoT デバイスなどに対して、わずかな処理能力だけでサーバー品質の音声機能を提供できます。データはローカル デバイスに保存されるため、プライバシーの保護にも役立ちます。
ローカルでの実行を可能にしたのは、Speech-to-Text(STT)と Text-to-Speech(TTS)の両方における新たなモデリング手法です。
Speech-to-Text(または ASR)については、最新のコンフォーマー モデルのようなエンドツーエンドの音声モデルへの取り組みを長年続けた結果、機能が充実した音声モデルを実行するために必要なサイズと計算能力を減らすことができました。これらのテクノロジーの進化によって、ローカル デバイスの CPU で実行可能な軽量モデルでも、サーバーに匹敵する品質の機能を提供できるようになりました。
Text-to-Speech については、Google が開発した新テクノロジーを活用して、高品質な音声を車両に組み込んでいます。Speech On-Device の TTS は、Google の WaveNet テクノロジー「DeepMind」のより自然な音声を生成するための画期的なモデルに匹敵する音質を実現しています。それだけでなく、必要とする処理能力も大幅に削減され、アクセラレータを使わずに組み込み CPU で簡単に実行することもできます。
Speech On-Device は、デベロッパーが取り組みやすいテクノロジーです。各システム(STT と TTS)から、ユーザーに固有のハードウェア、オペレーティング システム、ソフトウェア環境に特化したバイナリが提供されます。このバイナリは、デバイス上の他のサービスが通信できるローカルの gRPC インターフェースを公開するため、複数のサービスが必要に応じて簡単に音声認識または音声合成にアクセスできます。追加のライブラリや統合は必要ありません。
各モデルのサイズはわずか数百メガバイトです。システム全体を最新の ARM ベースのシステム オン チップ(SoC)のシングルコアで実行できるだけでなく、リアルタイムのインタラクションに使用できるレイテンシも引き続き実現できます。つまり、アクセラレーションや最適化について懸念せずに、既存のシステムに追加できるということです。また、あらゆる Cloud Speech-to-Text API モデルと同様、Speech On-Device はそのまますぐに使えるように設計されているため、トレーニングやカスタマイズも必要ありません。
Speech On-Device を活用している Google Cloud のお客様事例
Google は、企業のお客様がこのサービスを利用して実現する新しい音声主体のエクスペリエンスの登場を楽しみにしています。Speech On-Device を早期に採用していただいたお客様の事例を見れば、その効果のほどがうかがえます。たとえば、トヨタ自動車は Speech On-Device を活用しており、Toyota Connected North America の機械学習担当バイス プレジデントを務める Ryan Wheeler 氏は、その取り組みを Google Cloud Next ‘22 のセッションで紹介しています。
Speech On-Device に関心を持たれた場合は、お客様のユースケースが Google Cloud のベスト プラクティスに該当するかどうかを評価するレビュー プロセスをご用意しています。まずは、担当の販売代理店にお問い合わせください。
- Cloud Speech 担当プロダクト責任者 Calum Barnes