Google Cloud Platform

AI 音声サービスをより使いやすく ―― オプションの追加、料金の値下げ、対応言語と音声の増加も

※この投稿は米国時間 2019 年 2 月 22 日に Google Cloud blog に投稿されたものの抄訳です。

音声の認識および合成機能は、人と機械とのやりとりが自然に、簡単に、広く行われるようにするうえで重要ですが、まだまだ珍しいものでもあります。そこで私たちはこのほど、Cloud Speech-to-Text および Cloud Text-to-Speech の機能を充実させ、使用できる音声を増やし(ほぼ 2 倍)、対応言語も拡大( 1.5 倍)、さらに料金も値下げすることで(最大 50 %)、これらのサービスを世界中の企業にとってより使いやすくしました。

Cloud Speech-to-Text : 企業にとっての使い勝手が向上

インテリジェントな音声アプリケーションを作成する際、音声認識の精度は非常に重要になります。90 % の精度でも、なかなか実用的な会話ができません。多くの企業が使用している音声アプリケーションでは電話回線で通話を行う必要がありますが、残念ながら、こうした通話では雑音が多くなります。そのため、それらのデータは従来、AI ベースの音声技術では解釈が困難でした。

GOO_623BOT_1280x720px_Redux-Revised-03e42r.GIF

綺麗なデータが得られないこうした状況を考慮し、私たちは 2018 年にプレミアム モデルとして、動画モデルと 電話音声の文字変換のための拡張モデルのベータ版を発表しました。これらのモデルは、データ ロギングによって記録される使用状況データを私たちと共有し、私たちのモデル精度改善プログラム(英語のみ)に参加したお客様のご協力のもと開発いたしました。その結果、電話音声の文字変換のための拡張モデルは現在、同モデル導入前と比較しテキスト起こしのエラーが 62% 少なくなっています(2018 年には、導入前より 54% 少ないという結果が得られていましたが、さらに改善されました)。YouTube の自動字幕起こし機能で使われているのと同様の技術をベースにしている動画モデルも、エラーが 64% 減少しています。動画モデルは会議やポッドキャストなど、複数の話者がいる場面でも精度を保ちます。

Transcription_quality_WER_improvement-whitjzj6.PNG

電話音声の文字変換のための拡張モデルは従来、2018 年に発表されたデータ ロギング プログラムに参加されたお客様にのみ提供していました。しかし、多くの大企業から、データ ロギング プログラムに参加することなく同拡張モデルを使えるオプションを提供してほしいという要望をいただきました。そこでこのたび、プログラムへの参加を問わず誰もが拡張モデルを使えるようになり、データ ロギング プログラムに参加するお客様には安価な料金が適用されることになりました。これにより、多くのお客様が精度向上の恩恵を受けることができます。

私たちはこの 2 つのプレミアム モデルの一般提供を開始するとともに、マルチチャンネル認識機能も正式にリリースしました。この機能により、Cloud Speech-to-Text API は、複数の音声チャンネル別に音声(会話における複数の話者など)を識別します。これは、複数の話者が参加する通話や会議の分析といったユース ケースで非常に役立ちます。一般提供開始に伴い、これらの全ての機能はSLA(サービス レベル契約)やその他のエンタープライズ レベルでの保証の対象となりました。

LogMeIn のサービスに付加価値をもたらす Cloud Speech-to-Text

LogMeIn は、音声認識精度とエンタープライズ スケールの両方を必要とされているお客様の 1 社です。毎日数百万人のビジネス ユーザーが同社の GoToMeeting サービスを使ってオンライン会議を行っています。LogMeIn は Cloud Speech-to-Text を利用して、GoToMeeting のエンタープライズ顧客向けに議事録を自動的に作成し、ユーザー同士のより効率的なコラボレーションを可能にします。

私たち LogMeIn は、Google Cloud の動画音声リアルタイム テキスト変換技術を利用したサービスに手応えを感じています。動画音声のテキスト変換を手がける最適なパートナーを求めて広範な市場調査を行った結果、Google が最高品質のソリューションと一連の有用な関連技術を提供していると判断しました。私たちのサービスについては、会議内容をまとめ、それを会議後に共有できる形で記録することで、大きな価値を提供しているとの評価をお客様からいただいています。私たちの Google Cloud との取り組みは、インテリジェントなコラボレーションをサービスの基盤に据え、グローバルな UCC (ユニファイド コミュニケーション&コラボレーション)のお客様に付加価値を提供することに尽力していることを示すものです。LogMeIn の Unified Communications and Collaboration(UCC)担当SVP兼ゼネラル マネージャー、Mark Strassman 氏

Cloud Speech-to-Text : より使いやすい価格設定に(最大 50% 値下げ)

私たちは Cloud Speech-to-Text をさらに使いやすくするため、料金も値下げしました。

  • 標準モデルとプレミアム video モデルの場合、データ ロギング プログラムに参加するお客様は、このプログラムの対象となるすべてのご利用について 33% の料金割引が適用されます。
  • プレミアム video モデルの料金を 25% 値下げしました。データ ロギング プログラムに参加してきた video モデルのお客様の料金は、実質的にこれまでより 50% 安くなります。

3z7ra.PNG

Cloud Text-to-Speech : より多くの音声や言語で利用可能に

さらに、企業が音声合成に関する私たちの研究や経験から利益を得られるよう支援しています。Google Cloud TPU を備えた WaveNet の技術へのアクセスにより、業界水準よりも高速かつ簡単に、新しい種類の言語や音声を生成することができます。2018 年 8 月のアップデート以来、私たちは Cloud Text-to-Speech を大きく進化させ、使用できる音声、WaveNet 音声、WaveNet 言語の数をほぼ倍増させるとともに、対応言語の数をほぼ 1.5 倍に増やしました。具体的には以下のとおりです。

  • デンマーク語、ポルトガル語(ポルトガル)、ロシア語、ポーランド語、スロバキア語、ウクライナ語、ブークモール語(ノルウェー)の 7 つの言語または方言(いずれもベータ)を新たに対応言語として追加しました。これにより、対応している言語の数は 21 となり、新たに数百万人のエンドユーザーにご利用いただけるようになりました。
  • 新たにサポートしたこれらの言語では、31 の新しい WaveNet 音声(と 24 の新しい標準音声)が利用できます。これに伴い、私たちの音声合成技術にアクセスできる企業も増えています。この技術は平均オピニオン評点(mean opinion score : MOS)から見て、人間の発話との質的な差をすでに 70 % 縮めています。サポートされている全ての言語と音声のリストはこちらからご覧になれます。
  • WaveNet 音声による言語や方言は、1 年前の Cloud Text-to-Speech の発表時には 1 つだけでしたが、2018 年 8 月に 9 つとなり、このたび 20 に増えており、WaveNet の対応言語はますます拡大しています。

4n4uz.PNG

Cloud Text-to-Speech のデバイス プロファイル機能についても一般提供を開始いたしました。この機能は、さまざまなハードウェアでの合成音声の再生を最適化します。たとえば、コールセンター アプリケーションを使うお客様の場合は自動音声応答装置(Interactive Voice Response : IVR)に最適化し、コンテンツやメディア(ポッドキャストなど)にフォーカスしているお客様ではヘッドフォンに最適化します。どちらの場合も、音声効果はハードウェアに合わせてカスタマイズされます。

今すぐ始めましょう

Cloud Speech サービスは簡単に試用できます。Cloud Speech-to-TextCloud Text-to-Speech のランディング ページのシンプルなデモをお試しください。満足いただけた場合は、Google Cloud Platform(GCP)の 300 ドル分の無料クレジットを使ってご利用を開始いただけます。なお、Cloud Speech-to-Text では毎月 60 分まで無料で音声処理を行えます。

- By Dan Aharon, Product Manager, Cloud Speech products