音声の種類

Text-to-Speech は、人間のような自然な音声のデータを生成します。つまり、人が話しているように聞こえる音声を生成します。Text-to-Speech に合成リクエストを送信するときは、音声を指定する必要があります。

Text-to-Speech で選択できる音声には、幅広い選択肢があります。音声は、言語、性別、アクセント(一部の言語)によって異なります。一部の言語では複数の音声を選択できます。ご自身の言語で利用可能な音声の完全なリストについては、サポートされている音声のページをご覧ください。Text-to-Speech に、このリストからの特定の音声を使用するよう指示するには、API にリクエストを送信するときに VoiceSelectionParams フィールドを設定します。synthesize リクエストを送信する方法については、Text-to Speech のクイックスタートをご覧ください。

ジャーニー音声(プレビュー版

AudioLM エンジンを活用するジャーニー音声を使用すると、会話型アプリケーション向けに、より魅力的で共感できる音声を作成できます。ジャーニー音声はテキスト ストリーミングを使用して低レイテンシのリアルタイム コミュニケーションを実現し、サポートされている音声の表に記載されている言語をサポートしています。

チャット エクスペリエンス


en-US-Journey-F

バーチャル アシスタント


en-US-Journey-D

カスタマー サービスの chatbot


en-US-Journey-F

インタラクティブな教育用アプリケーション


en-US-Journey-O

販売促進と提案


en-US-Journey-D

ストーリータイム


en-US-Journey-F

カジュアルな音声(プレビュー版

カジュアルな音声は、会話調の不完全な対話を管理して、人間のユーザーによる自然でくつろいだ感じを出すように設計されています。なめらかさに欠ける表現(おー、うー、うーん、むー)をサポートし、より自然なケイデンスと口調を実現できます。


スタジオ音声

スタジオ音声は、ニュースの読み上げやブロードキャスト コンテンツ向けのナレーション音声です。


例 1。グレイト ギャツビーを読む en-US-Studio-O の声。

Neural2 音声

Text-to-Speech API には、Neural2 という音声が用意されています。Neural2 音声は、カスタム音声の作成に使用したのと同じ技術に基づいています。Neural2 を使用すると、独自のカスタム音声をトレーニングしなくても、誰でもカスタム音声技術を利用できます。これは、グローバル エンドポイントと単一リージョン エンドポイントで使用できます。


例 1。Neural2 音声

WaveNet 音声

Text-to-Speech API には、Google アシスタント、Google 検索、Google 翻訳の音声生成に使用されている WaveNet モデルを使用して生成されたプレミアム音声のグループもあります。WaveNet テクノロジーには一連の合成音声が用意されているだけでなく、合成音声を作成する新しい方法が提供されます。

WaveNet では、他のテキスト読み上げシステムよりも自然な音声が合成されます。このテクノロジーでは、より人間らしく、音節、音素、単語の強調や抑揚がある音声が合成されます。

ネイティブ スピーカーによる WaveNet の高い評価を示すグラフ 図 1. WaveNet、他の合成音声、人間の音声の比較を示すグラフ。Y 軸の値は、各音声の平均オピニオン評点(MOS)を表します。テストの被験者は、自然な発話のように聞こえるレベルに応じて、各音声を 1~5 のスケールで評価しました。MOS スコアと WaveNet テクノロジーの詳細については、DeepMind WaveNet のページをご覧ください。

他のほとんどのテキスト読み上げシステムとは異なり、WaveNet モデルでは生の音声波形をゼロから作成します。このモデルでは、大量の音声サンプルを使用してトレーニングされたニューラル ネットワークを使用します。トレーニング中に、このネットワークでは、やりとりしている声調、実際の音声波形など、音声の基になる構造を抽出します。テキスト入力が提供されると、トレーニングされた WaveNet モデルでは、一度に 1 つのサンプル、1 秒間に最大 24,000 のサンプル、個々のサウンド間のシームレスな遷移を使用して、対応する音声波形をゼロから作成できます。

WaveNet で生成された音声クリップと、別のテキスト読み上げプロセスで生成されたクリップとの違いを聞き分けるには、以下の 2 つのクリップを比較してください。


例 1。高品質な WaveNet 以外の音声


例 2。WaveNet の音声

標準音声

Text-to-Speech による音声の作成方法は、合成音声テクノロジーが音声の機械モデルを作成する方法によって異なります。一般的な音声テクノロジーの 1 つであるパラメータ テキスト読み上げでは通常、ボコーダと呼ばれる信号処理アルゴリズムを介して出力を渡すことによって音声データを生成します。Text-to-Speech で利用可能な標準音声の多くは、このテクノロジーのバリエーションを使用しています。