Google Cloud Platform

Cloud Speech API : 長時間音声の認識と 30 言語を新たにサポート

2016 年のリリース以来、Google Cloud Speech API は、音声コマンド、コールセンターのルーティング、データ アナリティクスなど、あらゆる音声認識ニーズの品質向上のために利用されてきました。それと同時に、機能や設定の充実を求める声もお客様から多数寄せられています。

そこで私たちは先ごろ、より多くのお客様に AI をビジネスで活用していただくために、サポートする音声データの長時間化や、サポート言語の追加などに対応した Cloud Speech API をリリースしました。

この投稿では、Cloud Speech API の改良点について紹介します。

単語レベルのタイムスタンプ

お客様の要望の中で最も多かったのは、変換されたテキストに含まれる個々の単語にタイムスタンプ情報を付けることでした。単語レベルでタイムスタンプが付けられていれば、音声ファイル内でその単語が出てくる箇所にジャンプしたり、音声データの再生中に関連テキストを表示したりすることができます。タイムスタンプの詳細についてはこちらをご覧ください。

Happy Scribe は、使いやすく手ごろな音声テキスト化サービスのエンジンに Cloud Speech API を採用し、インタビューなどのテキスト起こしが必要な記者や研究者に提供しています。

音声データから対応するテキストをたどれるようになり、テキストの校正にかかる時間が大幅に短縮されました。Andre Bastie 氏、Happy Scribe の共同設立者

VoxImplant は、自動音声応答(IVR)や音声認識などのオーディオ/ビデオ アプリケーションを構築する企業を支援しています。

Cloud Speech API がタイムスタンプをサポートしてくれたおかげで、リアルタイムのテキスト変換を通じて 2 人の通話内容を正確に分析できるようになり、お客様のビジネスに大きな影響を与えています。タイムスタンプを使えば通話内容を正確に把握できるため、お客様は時間を有効に活用でき、今まで以上に Cloud Speech API を重宝するようになりました。Alexey Aylarov 氏、VoxImplant の CEO

3 時間までの音声ファイルをサポート

長時間オーディオのニーズに応えるため、対応する音声ファイルの長さが 80 分から 3 時間へと拡大されました。3 時間を越えるファイルについても、Cloud Support を通じてクォータ拡張を申請していただければ、Google がケース バイ ケースで対応します。

サポート言語の追加

Cloud Speech API はすでに 89 の言語をサポートしていますが、それに加えてベンガル語やラトビア語、スワヒリ語など新たに 30 の言語をサポートし、10 億人を越える話者をカバーします(発表記事)。

これにより、Cloud Speech API のお客様は、今までよりも多くの国の多くの利用者にリーチを拡大し、ほとんど全世界に近いエリアでビジネスを展開できます。また、多くの国の人々が、今までは手が届かなかった製品やサービスに音声でアクセスできるようになります。

サポート言語の完全なリストはこちらを参照してください。

こうした機能強化により、Cloud Speech API でできることは大きく広がります。詳しくはこちらをご覧ください。

* この投稿は米国時間 8 月 14 日、Product Manager である Dan Aharon によって投稿されたもの(投稿はこちら)の抄訳です。

- By Dan Aharon, Product Manager