音声アプリケーション用のカスタム音声モデルを作成する

Text-to-Speech UI 内で独自のカスタム音声モデルを作成できます。

前提条件

  1. Text-to-Speech API を有効にします。
  2. トレーニング データの要件に沿って音声を録音します。
  3. Cloud Storage バケットを作成します。
  4. 音声ファイルを、トレーニング データの要件で指定されている形式(0001.wav、0002.wav、0200.wav など)で新しいバケットにアップロードします。

新しいカスタム音声モデルのトレーニング

  1. Text-to-Speech UI で [カスタム音声] タブを開きます。
  2. 画面上部の [作成] をクリックします。
  3. 音声モデルに名前を付けます。
  4. サポートされている言語のプルダウンから言語を指定します。
  5. 前提条件のステップ 4 のバケット構成から適切な CSV ファイルを選択します。
  6. ナレーターの同意書をアップロードします。例: 「私(名前)は、合成カスタム音声の作成に自分の声が使用されることに同意します。」
  7. [作成] をクリックして、モデルの作成を開始します。モデルの作成には最長で 3 日かかります。
  8. トレーニング ジョブのステータスを確認するには、右上のナビゲーション ヘッダーでコンソール通知を確認します。

次のステップ

モデルのトレーニングが完了すると、コンソールに出力音声ファイルのサンプルが表示されます。これらのファイルを使用して、モデルの品質の初期評価を行うことができます。要件を満たしている場合は、モデルのデプロイのサポートについてセールスチームにお問い合わせください。デプロイには 2~3 週間かかるため、迅速に評価して早めに連絡することをおすすめします。