AI & 機械学習

音声認識 AI に関する一年の振り返り

2022年12月27日

https://storage.googleapis.com/gweb-cloudblog-publish/images/aiml_.max-2600x2600.jpg

Google Cloud Japan Team

※この投稿は米国時間 2022 年 12 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。

2022 年には、あらゆる領域で AI ベースの音声認識技術が大活躍しました。Google トレンドでは関心の高まりが測定され、音声パターンによって一部の病気を特定できるという驚くべき医療の進歩がありました。また、ユーザーが音声でコントロールする多様なデジタルサービスとデバイスも登場しました。

Google Cloud は 2022 年、優れた音声認識 AI 技術と自然言語技術をお客様に提供しました。お客様はこれらの技術を幅広いユースケースに活用しています。たとえば、健全な子供の発育を支援するロボットや、通話、ボイスメール、その他の音声操作から得られたデータに基づくカスタマーサービスの改善などが挙げられます。

Google Cloud のクラウド AI および業種別ソリューション担当ゼネラルマネージャーを務める Andrew Moore も説明しているように、音声認識 AI 技術と、関連する機能の進化が今後のビジネスと世界に大きな影響をもたらすことが期待されています。最新情報をすべて把握してから 2023 年を迎えられるよう、この 1 年間の音声認識 AI に関する注目のお知らせを以下にまとめます。

Speech-to-Text（STT）API のビジュアルインターフェース

2 月には、70 以上の言語の 120 種類の地域方言に対応する STT API のビジュアルユーザーインターフェースについてお知らせしました。STT API を使用すると、デベロッパーは Google の長年にわたる自動音声認識および音声文字変換技術の研究成果を活用して、音声をテキストに変換できます。また、ビジュアルインターフェースによって API がさらに直感的になるため、デベロッパーはより簡単にこの技術をプロジェクトで活用できるようになります。4 月に 5 周年を迎えたこの API は、1 か月に 10 億分間を超える音声を処理しています。これは、米国歴代の大統領の就任演説すべてを 100 万回以上文字起こしできるだけの分量です。

Text-to-Speech（TTS）API のカスタム音声への対応

3 月には TTS API のカスタム音声の一般提供開始をお知らせしました。これにより、人間が話すような自然な音声をテキストから作成できます。カスタム音声を使用すると、企業は独自の音声録音を使用して音声モデルをトレーニングできるため、顧客にユニークなサービスを提供できるようになります。企業は高品質なモデルを作成するためのガイダンスと一緒に、音声録音を直接 TTS API で送信できます。

改良された STT API モデル

4 月には STT API の最新モデルをリリースしました。このモデルは、音響、発音、言語のトレーニング用の個別のモデルではなく 1 つのニューラルネットワークを使用し、Transformer モデルと畳み込みレイヤを結合する新しいアプローチに基づいたものです。その結果、STT API が対応する数十の言語と方言で精度が大幅に向上しました。12 月に、ブルガリア語、スウェーデン語、ルーマニア語、タミル語、ベンガル語などの言語に対応した最新モデルを追加したため、最新モデルの言語の合計数は 45 を超えました。全言語の一覧はこちらをご覧ください。

Natural Language（NL）API のための大規模言語モデル（LLM）

秋には LLM に関する Google の画期的な調査に基づくコンテンツ分類の新モデルで NL API をアップデートしました。これには、LaMDA、PaLM、T5 などのプロジェクトが含まれます。最新の複数の言語モデリングアプローチを統合し、トレーニングデータセットを更新、拡張することにより、コンテンツ分類は 1,000 を超えるラベルと 11 の言語（英語に加えて、中国語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語、オランダ語）に対応するようになりました。

Text-to-Speech Neural2

Google Cloud Next ‘22 で、次世代の TTS 音声である Neural2 の提供開始をお知らせしました。この音声の基盤は、カスタム音声ソリューションを実現するために Google が開発した PnG NAT 技術です。Neural2 の音声には、カスタム音声で PnG NAT によってデフォルトの音声に加えられたものと同じ改良が加えられています。12 月には Neural2 の一般提供を開始し、現在では、英語、フランス語、スペイン語、イタリア語、ドイツ語、ポルトガル語、日本語でデフォルトの音声を利用できるようになりました。全言語の一覧はこちらをご覧ください。

Speech On-Device を介した、ネットワーク接続されていなくても可能な音声サービス

Google Cloud Next ‘22 で Speech On-Device の一般提供を発表しました。これにより、通信エリア圏外での運転中やネットワーク障害の発生時など、ネットワーク接続がない場合に音声サービスにアクセスしようとして感じるストレスを排除できます。たとえば、トヨタ自動車はすでに Speech On-Device を活用しています。Toyota Connected North America の機械学習担当バイスプレジデントを務める Ryan Wheeler 氏が、この事例を Google Cloud Next ‘22 のセッションで紹介しました。

2023 年も、影響力の大きい革新的な Google の研究成果をクラウドサービスに活かしていく所存です。それまでは、Google Cloud の音声認識 AI プロダクトの詳細について、こちらのガイド、Codelab、責任ある AI への取り組みに関するページをご参照ください。

- Cloud AI および業種別ソリューション担当プロダクトマネージャー Keelin McDonell

投稿先