Google Cloud

Cloud Speech API を正式リリース

2017年5月1日

Google Cloud Japan Team

私たち Google は昨夏、自動音声認識（ASR）サービスである Google Cloud Speech API のオープンベータ版をリリースしました。それ以来、非常にたくさんのお客様に協力していただきながらサービス品質の向上に努め、このほど同 API を正式にリリースしました。

Cloud Speech API は、他の Google プロダクト（たとえば、Google Search、Google Now、Google Assistant）の音声認識機能を支えるコアテクノロジーを使って構築されていますが、Google Cloud のお客様のニーズに合わせる形で修正が施されています。同 API は、動画分析、画像分析、テキスト分析、ダイナミックな翻訳などの共通タスクに使用できる事前学習済みの機械学習モデルの 1 つです。

お客様とパートナーのすばらしいフィードバックにより、私たちは今回の正式リリースに合わせて、次のような機能追加とパフォーマンス改善を行いました。

長文オーディオの変換精度の向上。
処理の高速化。バッチシナリオの場合、通常は旧バージョンの 3 倍高速です。
サポートするファイル形式の拡張。WAV、Opus、Speex を追加しました。

Cloud Speech API を早期に導入した企業の間では、同 APIのユースケースは大きく 2 つに分かれました。1 つは音声検索や音声コマンド、自動音声応答（IVR）などのアプリケーションやデバイスにおける制御メソッドとしての使い方で、もう 1 つは音声分析です。後者は、コールセンターのリアルタイムインサイトといった難しい課題に対応する、非常に興味深い一連の機能を実現する道を開きます。

米国テキサス州ヒューストンに本拠を置く InterActiveTel は、ディーラーと顧客の電話のやり取りを追跡、モニタリングしてレポートを作成するソリューションで Cloud Speech API を使っています。