Benutzerdefiniertes Sprachmodell für Ihre Sprachanwendungen erstellen

Sie können in der Text-to-Speech-UI eigene benutzerdefinierte Sprachmodelle erstellen.

Vorbereitung

  1. Aktivieren Sie die Text-to-Speech API.
  2. Nehmen Sie die Audiodaten gemäß den Anforderungen für Trainingsdaten auf.
  3. Cloud Storage-Bucket erstellen
  4. Laden Sie die Audiodateien in dem Format, das in den Anforderungen an Trainingsdaten angegeben ist, in Ihren neuen Bucket hoch: (0001.wav, 0002.wav... 0200.wav usw.).

Neues benutzerdefiniertes Sprachmodell trainieren

  1. Öffnen Sie in der Text-to-Speech-UI den Tab Custom Voice.
  2. Klicken Sie oben auf dem Bildschirm auf Erstellen.
  3. Benennen Sie das Sprachmodell.
  4. Geben Sie die Sprache im Drop-down-Menü der unterstützten Sprachen an.
  5. Wählen Sie in Schritt 4 der Voraussetzungen die richtige CSV-Datei aus der Bucket-Konfiguration aus.
  6. Laden Sie eine Einwilligungserklärung des Sprechers hoch. Beispiel: "Ich, (Name) stimme zu, dass meine Stimme zum Erstellen einer synthetischen benutzerdefinierten Stimme verwendet wird."
  7. Klicken Sie auf Erstellen, um mit der Erstellung des Modells zu beginnen. Die Erstellung des Modells kann bis zu drei Tage dauern.
  8. Sehen Sie sich in der Navigationsleiste oben rechts die Konsolenbenachrichtigungen an, um den Status des Trainingsjobs zu sehen.

Nächste Schritte

Wenn das Modelltraining abgeschlossen ist, sind Beispielausgabe-Audiodateien in der Konsole verfügbar. Sie können diese Dateien verwenden, um eine erste Bewertung der Qualität des Modells durchzuführen. Wenn es Ihren Anforderungen entspricht, wenden Sie sich an Ihr Vertriebsteam, um Unterstützung bei der Modellbereitstellung zu erhalten. Die Bereitstellung dauert zwei bis drei Wochen. Daher empfehlen wir eine schnelle Bewertung und frühzeitige Kommunikation.