カスタム音声のトレーニングは刺激的な体験です。結果のモデルが目的のビジョンに沿ったものにするため、以下の作業を行い、音声パートナーまたはディレクターと協力することを検討してください。
スタイルを変化させることで自然な音声に近づくこともありますが、録音中はパフォーマンスの整合性が重要です。疲労などが原因で録音にエネルギー、ペルソナ、発生音量、声に著しい変化がある場合は、可能であれば声優の休憩後に録音をやり直す必要があります。一貫した録音を行うため、出演者とディレクターに一致参照ファイルを定期的に聴かせる必要があります。
スクリプト
ペルソナとビジネスのニーズに合った独自のスクリプトを使用することをおすすめします。スクリプトがない場合は、Gemini で独自のスクリプトを作成するか、Google 提供のスクリプトを使用します。Google では、次のサポート対象言語のスクリプトを用意しています。 de-DE | en-US | en-GB | es-US | es-ES | en-AU | fr-CA | fr-FR | it-IT | ja-JP | pt-BR
独自のスクリプトを作成する場合は、次の形式にします。
- 500 個の録音ファイル。録音ファイルは合計で 20~30 分程度にする必要があります。
- 1 行ごとに別の録音ファイルにします。
データ形式
音声をスクリプトに適切に調整できるように、csv ファイルを用意する必要があります。CSV ファイルの例を次に示します。
- スクリプトから 1 行だけを録音して、WAV ファイルとして保存します。最初のファイルに
0001.wav
、2 番目のファイルに0002.wav
という名前を付けます。 - 列 1: ヘッダーなし。音声ファイルのスクリプト行。
- WAV 音声ファイルの gcloud storage URI。例:
gs://YOUR_BUCKET_NAME/0001.wav
。 - CSV と音声を正確に照合し、文字起こしの各行に対応する音声ファイルがあり、空白行がないようにします。
- ヒント: 音声文字変換で話されている内容のみを含めます。
- 行番号を追加しないでください。たとえば、「5. 虹はどこですか?」の「5. 」は不要です。また、言語化されていないコードは追加しないでください。たとえば、「郵便番号は 08654」は「郵便番号はゼロハチロク...」とします。
- 最終的に読み上げられるものが最初のスクリプトとは違うことは、よくあることです。品質を高めるに、スクリプト自体をコピーして貼り付けるのではなく、最終的に話された言葉に合わせて CSV を調整してください。
- 連続する文字がスペースで区切られている場合は、各文字を個別に発音します。各文字を 1 つずつ発音します。
録音の推奨事項
以下に、理想的な録音を行うための要件を示します。これらの要件を満たさなくてもモデルのトレーニングは可能ですが、モデルの品質は保証されません。最も重要で、見落としがちな要件は次のとおりです。
- 標準の音声ファイル形式(48kHz/24 ビット、WAV)。高いサンプリング レートで音声を録音して、48kHz/24 ビットでダウンサンプリングできます。低いレートで録音した音声をアップサンプリングしないでください。
- 平均音量の目標値は -23 LUFS +- 2(ITU-R BS.1770-3)です。
録音の仕様
- 標準の音声ファイル形式(48kHz/24 ビット、WAV)。高いサンプリング レートで音声を録音して、48kHz/24 ビットでダウンサンプリングできます。低いレートで録音した音声をアップサンプリングしないでください。
- この音声は、ロッシー圧縮なしで録音する必要があります。WAV ヘッダー付きのリニア PCM(LPCM)形式である必要があります。モノラル音声を用意してください。
- 反響時間(RT)または減衰時間(室内の音)が低く、高品質のプロ用のレコーディング スタジオ。
- すべての反響面には、反響時間ができるだけ低いレベルに短縮されるまで、音響処理用の泡状素材が適用される必要があります。
- プロ用大振動板コンデンサー マイク(U87、TLM 193、または同等品)。
- 適切なゲイン ステージングとマイクの配置による、高い信号対雑音比(SNR)。
- 音声ファイルの最初と最後の短い時間(100 ms~500 ms)は、無音にする必要があります。デジタル消音を追加しないでください(つまり、0 のシーケンスを追加してください)。
- 音声は、イコライジング、圧縮などの DSP なしでフラットに録音する必要があります。
- 明らかなバックグラウンド ノイズとチャンネル ノイズがない、きれいな録音であることを確認してください。
- 声の震え、息遣い、どもり、文章の途中での不適切な一時停止は避けてください。
一致参照ファイル
参照録音または「一致ファイル」は、録音プロジェクトの開始時にとられたファイルです。これらのファイルは録音プロジェクト全体で使用されるため、変更しないでください。これらは、ペルソナ、音量、エネルギー、リズム、アーティキュレーション、イントネーション、スペクトルのプロパティに関して、パフォーマンスの品質の証明を表します。一致ファイルは、後続のすべての録音の参照として使用されます。レコーディング セッション全体を通じて使用され、シグナル キャプチャを調整し、パフォーマンスのガイダンスと整合性を提供します。
一致参照ファイルを作成する
一致ファイルは、監督と録音エンジニアの連携による録音プロセスで作成されます。監督は、要求されるパフォーマンスの種類を示し、録音エンジニアは、一致ファイルが適切な録音仕様レベルに達していることを確認します。録音された音声はすべて、一致ファイルの特性に準拠している必要があります。これらのファイルを使用して、録音を通じて次のパラメータの整合性を確保します。
- キャラクターとスタイルの連続性
- パフォーマンスの基調のピッチまたはトーン
- 話す速度
- 音量
次のステップ
データの準備ができたら、カスタム音声モデルを作成できます。