音声アプリケーション用のカスタム音声モデルを作成する

Text-to-Speech UI 内で独自のカスタム音声モデルを作成できます。

前提条件

Text-to-Speech API を有効にします。
トレーニングデータの要件に沿って音声を録音します。
Cloud Storage バケットを作成します。
音声ファイルを、トレーニングデータの要件で指定されている形式（0001.wav、0002.wav、0200.wav など）で新しいバケットにアップロードします。

新しいカスタム音声モデルのトレーニング

Text-to-Speech UI で [カスタム音声] タブを開きます。
画面上部の [作成] をクリックします。
音声モデルに名前を付けます。
サポートされている言語のプルダウンから言語を指定します。
前提条件のステップ 4 のバケット構成から適切な CSV ファイルを選択します。
ナレーターの同意書をアップロードします。例: 「私はこの音声の所有者であり、Google がこの音声を使用して合成音声モデルを作成することに同意します」。
[作成] をクリックして、モデルの作成を開始します。モデルの作成には最長で 3 日かかります。
トレーニングジョブのステータスを確認するには、右上のナビゲーションヘッダーでコンソール通知を確認します。

次のステップ

モデルのトレーニングが完了すると、コンソールに出力音声ファイルのサンプルが表示されます。これらのファイルを使用して、モデルの品質の初期評価を行うことができます。要件を満たしている場合は、モデルのデプロイのサポートについてセールスチームにお問い合わせください。デプロイには 2～3 週間かかるため、迅速に評価して早めに連絡することをおすすめします。