Google Cloud

Cloud TTS (Text-to-Speech) 一般提供開始

2018年3月28日

Google Cloud Japan Team

この投稿は米国時間 3 月 27 日に投稿されたもの（投稿はこちら）の抄訳です。

Google では、本日より Cloud Text-to-Speech の一般提供を開始します。

Google が提供する Google アシスタントや検索、Google マップ等の製品では、高品質な Text to Speech (TTS）という音声生成技術を利用することで、より自然な会話調の音声サービスを可能にしています。この TTS の技術を活用したいという、多数の開発者の方からいただいたご要望にお応えするべく、一般提供を本日開始しました。

Cloud Text-to-Speech は、さまざまな用途でご利用いただけます。

コールセンターの自動音声応答装置 (Interactive Voice Response, IVR) でのリアルタイムかつ自然な会話
IoT 機器 (TV、自動車、ロボットなど) のトークバック機能
テキストコンテンツ (ニュース、本など) の音声変換 (ポッドキャスト、オーディオブックなど)

Cloud Text-to-Speech は、日本語を含む 12 の言語と 32 の異なる音声をご用意しました。また、Cloud Text-to-Speech は、氏名、日付、時間、住所などといった複雑なテキストも正確に発音でき、すぐにお使いいただくことができます。また、音声ピッチ、速度、ボリュームのカスタマイズが可能で、MP3 や WAV などといったさまざまなオーディオ形式での出力をサポートしています。

DeepMind 開発の技術を採用

新たに一般提供を開始した Cloud Text-to-Speech には、DeepMind が開発した音声生成モデル WaveNet による、より原音に忠実で高品質な音声素材が含まれています。

DeepMind は、2016 年後半に WaveNet の最初のバージョンを公開しました。このモデルは、大量の音声サンプルデータをニューラルネットワークに学習させることで、一から音声波形を生成します。トレーニングの過程では、ニューラルネットワークはどのようなトーンの組み合わせが自然か、リアルな音声の波形はどんな形かといった構造を抽出しました。WaveNet は、入力されたテキストに対し音声波形を生成、より品質と精度の高い音声の生成を可能にしました。

現在、Google では、Google Cloud TPU インフラストラクチャ上で改良版の WaveNet を運用しており、当初に比べサンプル波形の生成速度は 1,000 倍に、1 秒の音声を 0.05 秒で生成します。この 1 秒の長さの音声は、2 万 4000 個のサンプル点からなる波形で構成され、出力音声の解像度も 8 ビットから 16 ビットになったことで、より自然な音声の生成を可能にしました。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/KcKPUPwH4GqIQ5IQlPiE8eUzYs47_N3mPga-Q3GkmEy9C1N0q9R_9MsgOd5BKiS7CyqHnmBgHO.GIF

これらの改良の結果、新しい WaveNet が生成した US English の音声は、平均オピニオン評点 (mean opinion score, MOS) で 5 点満点中 4.1 点を取得しました。従来版の音声と比較して、この評価は 20％の向上を示しており、人の自然なスピーチとのギャップも 70% 以上縮まったことを示しています。WaveNet は少ない録音データから高精度のモデルを生成することができ、今後も音声の種類や品質の改善が期待され、Google Cloud をご活用いただく皆さまに便利にご活用いただけるものと考えています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/gOXdSLNbJCoPVD3q7VxT92tU2jZCiE5Uxm8K_N51k2uP.max-600x600.PNG

試験的に Cloud Text-to-Speech を活用した Cisco や Dolphin ONE は以下のようにコメントしています。

「コラボレーションソリューションのリーディングプロバイダーとして、Cisco はこれまでも最新テクノロジーをエンタープライズユーザーへ提供してきました。Google の Cloud Text-to-Speech によって、顧客が望む自然な音声品質の達成が可能になりました。」
(Tim Tuttle, CTO of Cognitive Collaboration, Cisco)

「Dolphin ONE の Calll.io テレフォニープラットフォームによって、場所を問わずに複数のデバイスから当社のサービスに接続することができます。Cloud Text-to-Speech を当社の製品に統合することで、ユーザーへ自然なコールセンター体験を提供することが可能になりました。Google Cloud の機械学習ツールによって、Dolphin One ユーザーは最先端のテクノロジーを活用することができます。」
(Jason Berryman, Dolphin ONE)