AI & 機械学習

Cloud Text-to-Speech の音声数が約 70% 増加、32 の言語と方言に対応

2019年9月25日

Google Cloud Japan Team

※この投稿は米国時間 2019 年 8 月 28 日に Google Cloud blog に投稿されたものの抄訳です。

編集者注: このブログを更新し、対応している言語と方言を正確に反映しました。現在、ノルウェー語（ニーノシュク）の音声はご利用いただけません。

今年 2 月に、Cloud Text-to-Speech の対応言語（方言）と音声を増やすと発表しました。このたび、次のような進展がありましたのでお知らせいたします。

チェコ語、英語（インド）、フィリピン語、フィンランド語、ギリシャ語、ヒンディ語、ハンガリー語、インドネシア語、標準中国語（中国）、現代標準アラビア語、ベトナム語など 11 の言語と方言の音声を新たに追加しました。これにより、対応している言語と方言の数は合計 32 になりました。
すべての言語と方言で 76 種類の新しい音声（合計 187 種類）をご利用いただけるようになりました。その中には、ニューラルネットワークを応用した WaveNet の新しい音声も 38 種類（合計 95 種類）も含まれています。サポートされている音声と言語の全一覧はこちらでご覧いただけます。
32 種類の言語と方言すべてで、最低 1 種類の WaveNet 音声を利用できます。

これらの更新により、Cloud Text-to-Speech で開発したアプリケーションで、数多くの国のさらに多くの人々にリーチできるようになりました。対応言語は今後ますます拡大する予定です。コールセンターの AI 仮想エージェント、車や家の IoT デバイスとのやり取り、書籍などテキストベースのコンテンツの音声化など、幅広いユースケースでぜひご活用ください。

https://storage.googleapis.com/gweb-cloudblog-publish/images/text-to-speech-regions_BqOeLo1.max-1800x1800.png

Google Cloud Text-to-Speech は、Google が機械学習と AI ワークロードを迅速化するために独自にゼロから設計したシリコンチップ、Tensor Processing Unit（TPU）上で実行されます。Google 独自のコンピューティングインフラストラクチャと最先端の研究を組み合わせることで、業界の平均よりもはるかに速く WaveNet 音声を開発してデプロイできるようになりました。WaveNet 音声は、1 年半前の Cloud Text-to-Speech リリース時には 1 言語で 6 種類でしたが、今では 33 言語で
95 種類になりました。

Cloud Text-to-Speech は、他の大手パブリッククラウドプラットフォームと比較して、現在ほとんどの言語と方言を「自然な」（ニューラルネットワーク応用）音声で提供しており、音声の種類も豊富です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/cloud_text-to-speech_voices_graph_29eoq0Y..max-1000x1000.png

WaveNet のメリット

ユーザーは、コールセンターに電話するとき、車や家の IoT デバイスに言葉で指示を出すとき、テキストベースのメディアを変換した音声を聞くときに、自然で人間らしく聞こえる音声を期待するようになってきています。人間らしく聞こえる音声を提供できる企業は、顧客に最適なエクスペリエンスを提供できます。そのエクスペリエンスをさまざまな言語や国でも提供できれば、世界中でそのメリットを得られるようになります。

Cloud Text-to-Speech で利用できる WaveNet 音声を使えば、企業で巨額を投資して AI を応用した独自の音声合成を開発しなくても、そのメリットを享受できます。ニューラルネットワーク技術を基盤とする WaveNet は、自然に聞こえる音声を生成します。英語（米国）では、音声合成と人間の発声の質的な差が 70% 縮まっています（平均オピニオン評点による評価）。その実用的効果としては、人間とコンピュータとのやりとりが、多くの聞き手にとってスムーズで親しみやすいものになるということが挙げられます。