コンテンツに移動
AI & 機械学習

Cloud Text-to-Speech の音声数が 約 70% 増加、32 の言語と方言に対応

2019年9月25日
Google Cloud Japan Team

※この投稿は米国時間 2019 年 8 月 28 日に Google Cloud blog に投稿されたものの抄訳です。 

編集者注: このブログを更新し、対応している言語と方言を正確に反映しました。現在、ノルウェー語(ニーノシュク)の音声はご利用いただけません。

今年 2 月に、Cloud Text-to-Speech の対応言語(方言)と音声を増やすと発表しました。このたび、次のような進展がありましたのでお知らせいたします。

  • チェコ語、英語(インド)、フィリピン語、フィンランド語、ギリシャ語、ヒンディ語、ハンガリー語、インドネシア語、標準中国語(中国)、現代標準アラビア語、ベトナム語など 11 の言語と方言の音声を新たに追加しました。これにより、対応している言語と方言の数は合計 32 になりました。 

  • すべての言語と方言で 76 種類の新しい音声(合計 187 種類)をご利用いただけるようになりました。その中には、ニューラル ネットワークを応用した WaveNet の新しい音声も 38 種類(合計 95 種類)も含まれています。サポートされている音声と言語の全一覧はこちらでご覧いただけます。

  • 32 種類の言語と方言すべてで、最低 1 種類の WaveNet 音声を利用できます。

これらの更新により、Cloud Text-to-Speech で開発したアプリケーションで、数多くの国のさらに多くの人々にリーチできるようになりました。対応言語は今後ますます拡大する予定です。コールセンターの AI 仮想エージェント、車や家の IoT デバイスとのやり取り、書籍などテキストベースのコンテンツの音声化など、幅広いユースケースでぜひご活用ください。

https://storage.googleapis.com/gweb-cloudblog-publish/images/text-to-speech-regions_BqOeLo1.max-1800x1800.png

Google Cloud Text-to-Speech は、Google が機械学習と AI ワークロードを迅速化するために独自にゼロから設計したシリコンチップ、Tensor Processing Unit(TPU)上で実行されます。Google 独自のコンピューティング インフラストラクチャと最先端の研究を組み合わせることで、業界の平均よりもはるかに速く WaveNet 音声を開発してデプロイできるようになりました。WaveNet 音声は、1 年半前の Cloud Text-to-Speech リリース時には 1 言語で 6 種類でしたが、今では 33 言語で
95 種類になりました。

Cloud Text-to-Speech は、他の大手パブリック クラウド プラットフォームと比較して、現在ほとんどの言語と方言を「自然な」(ニューラル ネットワーク応用)音声で提供しており、音声の種類も豊富です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/cloud_text-to-speech_voices_graph_29eoq0Y..max-1000x1000.png

WaveNet のメリット

ユーザーは、コールセンターに電話するとき、車や家の IoT デバイスに言葉で指示を出すとき、テキストベースのメディアを変換した音声を聞くときに、自然で人間らしく聞こえる音声を期待するようになってきています。人間らしく聞こえる音声を提供できる企業は、顧客に最適なエクスペリエンスを提供できます。そのエクスペリエンスをさまざまな言語や国でも提供できれば、世界中でそのメリットを得られるようになります。 

Cloud Text-to-Speech で利用できる WaveNet 音声を使えば、企業で巨額を投資して AI を応用した独自の音声合成を開発しなくても、そのメリットを享受できます。ニューラル ネットワーク技術を基盤とする WaveNet は、自然に聞こえる音声を生成します。英語(米国)では、音声合成と人間の発声の質的な差が 70% 縮まっています(平均オピニオン評点による評価)。その実用的効果としては、人間とコンピュータとのやりとりが、多くの聞き手にとってスムーズで親しみやすいものになるということが挙げられます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/WaveNet_cloud_text-to-speech.max-1100x1100.max-1100x1100.png

標準的な合成音声と WaveNet 音声の違いはかなり明確です。新たに追加した音声をぜひ聞いてみてください。


英語(インド): 標準音声 vs WaveNet 音声

ハンガリー語: 標準音声 vs WaveNet 音声

ベトナム語: 標準音声 vs WaveNet 音声

標準中国語: 標準音声 vs WaveNet 音声

日本語: 標準音声 vs WaveNet 音声


お好みのテキストによるデモは、Cloud Text-to-Speech API を使用して構築したサンプル UI でお試しいただけます。

次のステップ

Cloud Text-to-Speech は、API が処理する最初の 100 万文字までは無料でご利用いただけます。そのため、ご自身のデータを使用してシンプルなデモやテスト用のアプリを簡単に作ってみることができます。Cloud Text-to-Speech をぜひお試しください。

- By Dan Aharon, Product Manager, Speech

投稿先