Google Cloud Platform

Cloud Speech API を正式リリース

私たち Google は昨夏、自動音声認識(ASR)サービスである Google Cloud Speech API のオープン ベータ版をリリースしました。それ以来、非常にたくさんのお客様に協力していただきながらサービス品質の向上に努め、このほど同 API を正式にリリースしました。

Cloud Speech API は、他の Google プロダクト(たとえば、Google Search、Google Now、Google Assistant)の音声認識機能を支えるコア テクノロジーを使って構築されていますが、Google Cloud のお客様のニーズに合わせる形で修正が施されています。同 API は、動画分析、画像分析、テキスト分析、ダイナミックな翻訳などの共通タスクに使用できる事前学習済みの機械学習モデルの 1 つです。

お客様とパートナーのすばらしいフィードバックにより、私たちは今回の正式リリースに合わせて、次のような機能追加とパフォーマンス改善を行いました。

  • 長文オーディオの変換精度の向上。
  • 処理の高速化。バッチ シナリオの場合、通常は旧バージョンの 3 倍高速です。
  • サポートするファイル形式の拡張。WAVOpusSpeex を追加しました。
Cloud Speech API を早期に導入した企業の間では、同 APIのユース ケースは大きく 2 つに分かれました。1 つは音声検索や音声コマンド、自動音声応答(IVR)などのアプリケーションやデバイスにおける制御メソッドとしての使い方で、もう 1 つは音声分析です。後者は、コールセンターのリアルタイム インサイトといった難しい課題に対応する、非常に興味深い一連の機能を実現する道を開きます。

米国テキサス州ヒューストンに本拠を置く InterActiveTel は、ディーラーと顧客の電話のやり取りを追跡、モニタリングしてレポートを作成するソリューションで Cloud Speech API を使っています。

Cloud Speech API は、非常に正確な音声文字変換をほぼリアルタイムで行ってくれます。変換精度が上がれば、顧客との電話のやり取りから最大限の情報を引き出し、収益を拡大したいディーラーの力になることができます。Gary Graves 氏、CTO and Co-Founder、InterActiveTel

Cloud Speech API の詳細はこちらをご覧ください。

* この投稿は米国時間 4 月 18 日、Product Manager である Dan Aharon によって投稿されたもの(投稿はこちら)の抄訳です。

- By Dan Aharon, Product Manager