モデルのトレーニング
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
意図しているカスタム音声を表現する声優を探して、共同で取り組むことをおすすめします。トレーニング データとして使用するには、声優と 10 秒間の音声を録音する必要があります。また、声優の同意宣言も録音する必要があります。Google は、クローニングされたモデルを数分以内でトレーニングし、提供できます。pre-GA の機能に関しては、重大なバグの SLA サポートはありません。
ステップ 1: クローニング用のトレーニング データを作成する
- 同意宣言を録音する: 音声のクローニングに関する法律と倫理のガイドラインに準拠するため、必要な同意宣言を適切な言語で、LINEAR16 エンコード、24 kHz のサンプリング レートのモノラル WAV ファイルとして録音します。(私はこの音声の所有者であり、Google がこの音声を使用して合成音声モデルを作成することに同意します)。
- 最初の音声を録音する: パソコンのマイクを使用して、24 kHz のサンプリング レートで LINEAR16 エンコードされたモノラル WAV ファイルとして 10 秒間の音声を録音します。録音中に背景雑音が入らないようにしてください。
- 音声ファイルを保存する: 録音した音声ファイルを、指定した Cloud Storage のロケーションに保存します。
ステップ 2: クローニングされたモデルを作成する
クローニング プロジェクトは、Text-to-Speech コンソールから作成できます。
Text-to-Speech コンソールの [合成] ページに移動します。
音声に合成されるテキストを入力し、ターゲット言語コードを選択します(en-US
のみが適用されます)。
[カスタム音声] チェックボックスをオンにして、[鍵を生成する] をクリックします。
開いたサブタスクの必須項目をすべて入力します。
合成フォームに音声クローニング キーが表示されます。
[詳細設定] セクションをオンにして、[サンプルレート(ヘルツ)] フィールドに「24000」と入力し、[合成] をクリックします。
現在のところ、クローニングされた音声は 24 kHz でのみ合成されます。
音声をすぐにダウンロードまたは再生して、音質を確認できます。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-03-13 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["わかりにくい","hardToUnderstand","thumb-down"],["情報またはサンプルコードが不正確","incorrectInformationOrSampleCode","thumb-down"],["必要な情報 / サンプルがない","missingTheInformationSamplesINeed","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-03-13 UTC。"],[],[]]