このページは Cloud Translation API によって翻訳されました。

モデルのトレーニング

意図しているカスタム音声を表現する声優を探して、共同で取り組むことをおすすめします。トレーニングデータとして使用するには、声優と 10 秒間の音声を録音する必要があります。また、声優の同意宣言も録音する必要があります。Google は、クローニングされたモデルを数分以内でトレーニングし、提供できます。pre-GA の機能に関しては、重大なバグの SLA サポートはありません。

ステップ 1: クローニング用のトレーニングデータを作成する

同意宣言を録音する: 音声のクローニングに関する法律と倫理のガイドラインに準拠するため、必要な同意宣言を適切な言語で、LINEAR16 エンコード、24 kHz のサンプリングレートのモノラル WAV ファイルとして録音します。（私はこの音声の所有者であり、Google がこの音声を使用して合成音声モデルを作成することに同意します）。
最初の音声を録音する: パソコンのマイクを使用して、24 kHz のサンプリングレートで LINEAR16 エンコードされたモノラル WAV ファイルとして 10 秒間の音声を録音します。録音中に背景雑音が入らないようにしてください。
音声ファイルを保存する: 録音した音声ファイルを、指定した Cloud Storage のロケーションに保存します。

ステップ 2: クローニングされたモデルを作成する

クローニングプロジェクトは、Text-to-Speech コンソールから作成できます。

Text-to-Speech コンソールの [合成] ページに移動します。
音声に合成されるテキストを入力し、ターゲット言語コードを選択します（en-US のみが適用されます）。
[カスタム音声] チェックボックスをオンにして、[鍵を生成する] をクリックします。
開いたサブタスクの必須項目をすべて入力します。
合成フォームに音声クローニングキーが表示されます。
- このキーを今後使用できるように保存しておくと、次回以降の「鍵を生成する」プロセスをスキップできます
- 注: Google はお客様の鍵を保持しません。Cloud プロジェクトにアクセスできるユーザーは、このプロジェクトを使用して、クローニングされた音声で合成音声を生成できます。そのため、安全に保管してください。
[詳細設定] セクションをオンにして、[サンプルレート（ヘルツ）] フィールドに「24000」と入力し、[合成] をクリックします。

現在のところ、クローニングされた音声は 24 kHz でのみ合成されます。

音声をすぐにダウンロードまたは再生して、音質を確認できます。

モデルのトレーニング

ステップ 1: クローニング用のトレーニング データを作成する

ステップ 2: クローニングされたモデルを作成する

ステップ 1: クローニング用のトレーニングデータを作成する