標準音声、WaveNet 音声、Neural2 音声

コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

概要

Text-to-Speech では、自然な人間の声に似た生の音声データを作成します。つまり、人が話しているように聞こえる音声を生成します。Text-to-Speech に合成リクエストを送信するときは、その単語を「発声する」声を指定する必要があります。

Text-to-Speech で選択できる音声には、幅広い選択肢があります。音声は、言語、性別、アクセント(一部の言語)によって異なります。一部の言語では複数の音声を選択できます。ご自身の言語で利用可能な音声の完全なリストについては、サポートされている音声のページをご覧ください。Text-to-Speech に、このリストからの特定の音声を使用するよう指示するには、API にリクエストを送信するときに VoiceSelectionParams フィールドを設定します。synthesize リクエストを送信する方法については、Text-to Speech のクイックスタートをご覧ください。

標準音声

Text-to-Speech による音声の作成方法は、合成音声テクノロジーが音声の機械モデルを作成する方法によって異なります。一般的な音声テクノロジーの 1 つであるパラメータ テキスト読み上げでは通常、ボコーダと呼ばれる信号処理アルゴリズムを介して出力を渡すことによって音声データを生成します。Text-to-Speech で利用可能な標準音声の多くは、このテクノロジーのバリエーションを使用しています。

WaveNet 音声

Text-to-Speech API には、Google アシスタント、Google 検索、Google 翻訳の音声生成に使用されている WaveNet モデルを使用して生成されたプレミアム音声のグループもあります。WaveNet テクノロジーには一連の合成音声が用意されているだけでなく、合成音声を作成する新しい方法が提供されます。

WaveNet では、他のテキスト読み上げシステムよりも自然な音声が生成されます。このテクノロジーでは、より人間らしく、音節、音素、単語の強調や抑揚がある音声が合成されます。

ネイティブ スピーカーによる WaveNet の高い評価を示すグラフ 図 1. WaveNet、他の合成音声、人間の音声の比較を示すグラフ。Y 軸の値は、各音声の平均オピニオン評点(MOS)を表します。テストの被験者は、自然な発話のように聞こえるレベルに応じて、各音声を 1~5 のスケールで評価しました。MOS スコアと WaveNet テクノロジーの詳細については、DeepMind WaveNet のページをご覧ください。

他のほとんどのテキスト読み上げシステムとは異なり、WaveNet モデルでは生の音声波形をゼロから作成します。このモデルでは、大量の音声サンプルを使用してトレーニングされたニューラル ネットワークを使用します。トレーニング中に、このネットワークでは、やりとりしている声調、実際の音声波形など、音声の基になる構造を抽出します。テキスト入力が提供されると、トレーニングされた WaveNet モデルでは、一度に 1 つのサンプル、1 秒間に最大 24,000 のサンプル、個々のサウンド間のシームレスな遷移を使用して、対応する音声波形をゼロから作成できます。

WaveNet で生成された音声クリップと、別のテキスト読み上げプロセスで生成されたクリップとの違いを聞き分けるには、以下の 2 つのクリップを比較してください。


例 1。高品質な WaveNet 以外の音声


例 2。WaveNet の音声

使ってみる

Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Text-to-Speech のパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。

Text-to-Speech の無料トライアル

Neural2 音声(プレビュー版)

Text-to-Speech API には、Neural2 というプレミアム音声が用意されています。Neural2 音声は、カスタム音声の作成に使用したのと同じ技術に基づいています。Neural2 は最先端の合成音声生成で、独自のカスタム音声をトレーニングしなくても、誰でもカスタム音声技術を利用できます。これは、グローバル エンドポイントと単一リージョン エンドポイントで使用できます。