Text-to-Speech のドキュメント

カスタム音声

Cloud Text-to-Speech API にカスタム音声が追加されました。この機能により、独自のスタジオ品質の音声録音を使用してカスタム音声モデルをトレーニングし、独自の音声を作成できます。カスタム音声を使用して、Cloud Text-to-Speech API で音声を合成できます。

Custom Voice を実装するには、セールスチームの担当者にお問い合わせください。

カスタム音声のサンプル

次の例を聴くことにより、カスタム音声のサンプルを確認できます。最初の音声例はオリジナルの音声です。その後、オリジナル音声に基づいて 2 つのカスタム音声の例を聴くことができます。

女性 - オリジナル音声 男性 - オリジナル音声
女性 - カスタム音声の例 1 男性 - カスタム音声の例 1
女性 - カスタム音声の例 2 男性 - カスタム音声の例 2

ユーザー提供のトレーニング音声データ

カスタム音声は、提供された音声データとできるだけ似て聴こえる Text-to-Speech(TTS)モデルを提供します。ユースケースが承認された後、Google は音声の録音のスクリプトを送ります。意図しているカスタム音声を表現する声優を探して一緒に取り組むことをおすすめします。トレーニング データとして使用するには、声優とスタジオ品質の音声を録音する必要があります。トレーニング データが Google 内部の検証と確認のチェックに合格しなかった場合は、特定された問題を修正した後に、データの再録または再提出が必要になります。

モデルのトレーニング

カスタム音声モデルのトレーニングと評価には数週間かかります。ベータ版の機能に関しては、重大なバグの SLA サポートはございません。

評価とユーザー受け入れテスト

Google では、トレーニング済みモデルの初期段階の評価を行います。内部の品質基準に合格すると、カスタムモデルを使用して録音されたオフライン音声サンプルをいくつか送ります。ユーザー受け入れテストのプロセスに従って音声の成果物を評価し、モデルを正式にサインオフします。