コンテンツに移動
AI & 機械学習

Google Cloud の Speech API に大規模モデルの力を組み込む

2023年5月26日
https://storage.googleapis.com/gweb-cloudblog-publish/images/aiml_2022_gK6LGLD.max-2500x2500.jpg
Google Cloud Japan Team

※この投稿は米国時間 2023 年 5 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。

企業とお客様の間のタッチポイントで音声の重要性が増したことで、Google の Speech-to-Text(STT)API は Google Cloud において最も成長の著しい API の一つとなっています。Google Cloud の Speech API は、さまざまな業種のお客様向けに 1 か月に 10 億分を超える音声を処理し、一般的な言語の音声を人間に近いレベルで理解することができます。

多くの企業が Google Cloud の音声サービスを使用して、次世代のサービスやカスタマー エクスペリエンスを実現しています。HubSpot は STT を使用して AI 会話ツールを開発し、MRV は API を使用してカスタマー サービスの時間を 3 分の 1 削減しました。また、Spotify は STT を活用して、Car Thing という音声インターフェースを提供しています。  

Google の目標は、お客様のユースケースに合わせて、可能な限り最高品質の音声認識を提供することです。Google Cloud は、Google Research などのメンバーと協力して品質の向上と新しいモデルの推進を続けています。そしてこのたび、大規模モデルの力を組み込んだ Speech API をご利用いただけるようになりました。

今年 3 月、ユニバーサル音声モデルの実現に向けて、Google は研究結果を発表しました。先週開催された Google I/O では、ユニバーサル音声モデルの新しいバージョンである Chirp を Google Cloud に導入することを発表しました。Chirp は今後、Google Cloud で Speech AI の基礎となるモデルです。本日は、Chirp によってどのように大規模モデルの力を Speech API に適用しているかについて、詳しく説明します。  

Chirp は Google Cloud の 20 億パラメータの音声モデルで、100 以上の言語にわたる 280 億のテキストと数百万時間の音声に対する自己教師あり方式のトレーニングによって構築されています。Chirp は英語で 98% の精度の音声認識を実現し、話者が 1,000 万人に満たないいくつかの言語では、以前と比較して 300% を超える改善率を達成しています。

Chirp はこれまでの音声モデルより規模が大きいだけでなく、新しいトレーニング アプローチも取り入れています。Chirp のエンコーダはまず、100 以上の言語から集められた数百万時間分の教師なし(ラベルなし)の音声データを使用してトレーニングされました。モデルはその後、各言語の少量の教師ありデータを使用して、音声文字変換向けに微調整されています。この点が、各言語固有の教師ありデータを大量に使用していた従来の音声認識技術とは異なります。Chirp はこのような技術により、話者が非常に少なく、ラベル付けされたトレーニング データが少ない言語や方言で大幅な品質向上を実現しています。Google Could に Chirp を追加することにより、より多くの言語や方言で、話者の多い言語に近い品質の音声認識をご提供できるようになりました。

Internet Archive の TV News Archive との提携により、GDELT プロジェクトは Google Cloud の Speech-to-Text API と Translation API を適用して、全世界のテレビニュースの文字起こしと翻訳を行っています。これにより研究者やジャーナリストは、さまざまな言語や方言が使用される各地域の出来事を理解し、引用することができます。「全世界で、テレビのニュースは社会にとって重要な情報源です。しかしながら、検索や翻訳が可能な文字起こしがないために、大部分が利用できない状態にありました。Google Cloud の Speech-to-Text AI と Translation AI を組み合わせることで、GDELT はこれまでに 66,000 以上の番組で 3 億 2,800 万語以上の文字起こしと翻訳を行ってきました。Google の新しい音声モデルである Chirp により、音声文字変換の正確性を向上させ、対応言語を大幅に拡大することができるため、当社のサービスを世界中に広げることが可能になりました」と、GDELT プロジェクトの発起人である Kalev Leetaru 氏は述べています。

Google は、他の企業も Chirp を使用して、さまざまな言語に対応した新しい Speech AI のユースケースを開拓されることを期待しています。Chirp は現在、Speech-to-Text API でプレビュー版でご利用いただけます。Chirp のドキュメントをご覧になり、Speech-to-Text コンソールを使ってご利用を開始してください。

今後も事前トレーニング済みの Speech API のさらなる強化を継続し、ビジネスやプログラム、アプリケーションに音声の力をご活用いただけるよう努めてまいります。


- Cloud Speech 担当プロダクト責任者 Calum Barnes
投稿先