標準音声と WaveNet 音声

概要

Text-to-Speech では、自然な人間の声に似た生の音声データを作成します。つまり、人が話しているように聞こえる音声を生成します。Text-to-Speech に合成リクエストを送信するときは、その単語を「発声する」声を指定する必要があります。

Text-to-Speech で選択できるボイスには、幅広い選択肢があります。ボイスは、言語、性別、アクセント(一部の言語)によって異なります。一部の言語では複数の声を選択できます。ご利用の言語で使用可能な音声の完全なリストについては、サポート対象の音声のページをご覧ください。このリストの特定の音声を使用するように Text-to-Speech に指示するには、API にリクエストを送信するときに VoiceSelectionParams フィールドを設定します。synthesize リクエストを送信する方法の詳細については、Text-to-Speech クイックスタートをご覧ください。

標準音声:

Text-to-Speech による音声の作成方法は、合成音声技術による音声の機械モデルの作成方法によって異なります。一般的な音声テクノロジーの 1 つであるパラメータ テキスト読み上げでは通常、ボコーダと呼ばれる信号処理アルゴリズムを介して出力を渡すことによって音声データを生成します。Text-to-Speech で利用可能な標準音声の多くは、このテクノロジーのバリエーションを使用しています。

WaveNet 音声

Text-to-Speech API には、Google アシスタント、Google 検索、Google 翻訳の音声生成に使用されているWaveNet モデルを使用して生成されたプレミアム音声のグループもあります。WaveNet テクノロジーには一連の合成音声が用意されているだけでなく、合成音声を作成する新しい方法が提供されます。

WaveNet では、他のテキスト読み上げシステムよりも自然な音声が生成されます。このテクノロジーでは、より人間らしく、音節、音素、単語の強調や抑揚がある音声が合成されます。平均的に、WaveNet では他のテキスト読み上げテクノロジーよりも好まれる音声が生成されます。

ネイティブ スピーカーによる WaveNet の高い評価を示すグラフ 図 1:WaveNet、他の合成音声、人間の音声の比較を示すグラフ。 Y 軸の値は、各音声の平均オピニオン評点(MOS)を表します。テストの被験者は、自然な発話のように聞こえるレベルに応じて、各音声を 1〜5 のスケールで評価しました。MOS スコアと WaveNet テクノロジーの詳細については、DeepMind WaveNet のページをご覧ください。

他のほとんどのテキスト読み上げシステムとは異なり、WaveNet モデルでは生の音声波形をゼロから作成します。このモデルでは、大量の音声サンプルを使用してトレーニングされたニューラル ネットワークを使用します。トレーニング中に、このネットワークでは、やりとりしている声調、実際の音声波形など、音声の基になる構造を抽出します。テキスト入力が提供されると、トレーニングされた WaveNet モデルでは、一度に 1 つのサンプル、1 秒間に最大 24,000 のサンプル、個々のサウンド間のシームレスな遷移を使用して、対応する音声波形をゼロから作成できます。

WaveNet で生成された音声クリップと、別のテキスト読み上げプロセスで生成されたクリップとの違いを聞き分けるには、以下の 2 つのクリップを比較してください。


例 1。高品質な WaveNet 以外の音声


例 2。WaveNet の音声

WaveNet モデルの詳細については、DeepMind によるブログ記事をご覧ください。

使ってみる

Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Text-to-Speech のパフォーマンスを評価します。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。

Text-to-Speech の無料トライアル