意図しているカスタム音声を表現する声優を探して、共同で取り組むことをおすすめします。トレーニング データとして使用するには、声優と 10 秒間の音声を録音する必要があります。また、声優の同意宣言も録音する必要があります。Google は、クローニングされたモデルを数分以内でトレーニングし、提供できます。pre-GA の機能に関しては、重大なバグの SLA サポートはありません。
ステップ 1: クローニング用のトレーニング データを作成する
- 同意宣言を録音する: 音声のクローニングに関する法律と倫理のガイドラインに準拠するため、必要な同意宣言を適切な言語で録音します(私はこの音声の所有者であり、Google がこの音声を使用して合成音声モデルを作成することに同意します)。
- 最初の音声を録音する: パソコンのマイクを使用して 10 秒間の音声を録音します。録音中に背景雑音が入らないようにしてください。
- 音声ファイルを保存する: 録音した音声ファイルを、指定した Cloud Storage のロケーションに保存します。
ステップ 2: クローニングされたモデルを作成する
クローニング プロジェクトは、Text-to-Speech コンソールから作成できます。
Text-to-Speech コンソールの [合成] ページに移動します。
音声に合成されるテキストを入力し、ターゲット言語コードを選択します(
en-US
のみが適用されます)。[カスタム音声] チェックボックスをオンにして、[鍵を生成する] をクリックします。
開いたサブタスクの必須項目をすべて入力します。
合成フォームに音声クローニング キーが表示されます。
このキーを今後使用できるように保存しておくと、次回以降の「鍵を生成する」プロセスをスキップできます
[詳細設定] セクションをオンにして、[サンプルレート(ヘルツ)] フィールドに「24000」と入力し、[合成] をクリックします。
現在のところ、クローニングされた音声は 24 kHz でのみ合成されます。
音声をすぐにダウンロードまたは再生して、音質を確認できます。