音声の種類

概要

Text-to-Speech は、人間のような自然な音声のデータを生成します。つまり、人が話しているように聞こえる音声を生成します。Text-to-Speech に合成リクエストを送信するときは、音声を指定する必要があります。

Text-to-Speech で選択できる音声には、幅広い選択肢があります。音声は、言語、性別、アクセント(一部の言語)によって異なります。一部の言語では複数の音声を選択できます。ご自身の言語で利用可能な音声の完全なリストについては、サポートされている音声のページをご覧ください。Text-to-Speech に、このリストからの特定の音声を使用するよう指示するには、API にリクエストを送信するときに VoiceSelectionParams フィールドを設定します。synthesize リクエストを送信する方法については、Text-to Speech のクイックスタートをご覧ください。

ジャーニー音声

ジャーニー音声(試験運用版)は大規模言語モデリングの進歩に支えられており、韻律の豊かさが向上しています。ジャーニー音声では、より広い範囲のピッチ、音量、音色、長さを管理できます。また、音声のメカニクスも向上しており、他の音声オプションと比べて、なめらかさに欠ける部分や中断がより適切に処理されます。会話型音声のユースケースでは、これらの音声を試すことをおすすめします。


例 1。en-US-Journey-D の音声

カジュアルな音声(プレビュー版

カジュアルな音声は、会話調の不完全な対話を管理して、人間のユーザーによる自然でくつろいだ感じを出すように設計されています。なめらかさに欠ける表現(おー、うー、うーん、むー)をサポートし、より自然なケイデンスと口調を実現できます。


スタジオ音声

Text-to-Speech API には、スタジオというプレミアム音声が用意されています。この音声タイプは、ナレーション、ニュースの読み上げなど、長いテキストで使用するために特別に設計されています。


例 1。グレイト ギャツビーを読む en-US-Studio-O の声。

Neural2 音声

Text-to-Speech API には、Neural2 という音声が用意されています。Neural2 音声は、カスタム音声の作成に使用したのと同じ技術に基づいています。Neural2 を使用すると、独自のカスタム音声をトレーニングしなくても、誰でもカスタム音声技術を利用できます。これは、グローバル エンドポイントと単一リージョン エンドポイントで使用できます。


例 1。Neural2 音声

WaveNet 音声

Text-to-Speech API には、Google アシスタント、Google 検索、Google 翻訳の音声生成に使用されている WaveNet モデルを使用して生成されたプレミアム音声のグループもあります。WaveNet テクノロジーには一連の合成音声が用意されているだけでなく、合成音声を作成する新しい方法が提供されます。

WaveNet では、他のテキスト読み上げシステムよりも自然な音声が合成されます。このテクノロジーでは、より人間らしく、音節、音素、単語の強調や抑揚がある音声が合成されます。

ネイティブ スピーカーによる WaveNet の高い評価を示すグラフ 図 1. WaveNet、他の合成音声、人間の音声の比較を示すグラフ。Y 軸の値は、各音声の平均オピニオン評点(MOS)を表します。テストの被験者は、自然な発話のように聞こえるレベルに応じて、各音声を 1~5 のスケールで評価しました。MOS スコアと WaveNet テクノロジーの詳細については、DeepMind WaveNet のページをご覧ください。

他のほとんどのテキスト読み上げシステムとは異なり、WaveNet モデルでは生の音声波形をゼロから作成します。このモデルでは、大量の音声サンプルを使用してトレーニングされたニューラル ネットワークを使用します。トレーニング中に、このネットワークでは、やりとりしている声調、実際の音声波形など、音声の基になる構造を抽出します。テキスト入力が提供されると、トレーニングされた WaveNet モデルでは、一度に 1 つのサンプル、1 秒間に最大 24,000 のサンプル、個々のサウンド間のシームレスな遷移を使用して、対応する音声波形をゼロから作成できます。

WaveNet で生成された音声クリップと、別のテキスト読み上げプロセスで生成されたクリップとの違いを聞き分けるには、以下の 2 つのクリップを比較してください。


例 1。高品質な WaveNet 以外の音声


例 2。WaveNet の音声

標準音声

Text-to-Speech による音声の作成方法は、合成音声テクノロジーが音声の機械モデルを作成する方法によって異なります。一般的な音声テクノロジーの 1 つであるパラメータ テキスト読み上げでは通常、ボコーダと呼ばれる信号処理アルゴリズムを介して出力を渡すことによって音声データを生成します。Text-to-Speech で利用可能な標準音声の多くは、このテクノロジーのバリエーションを使用しています。

使ってみる

Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Text-to-Speech のパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。

Text-to-Speech の無料トライアル