Diese Seite wurde von der Cloud Translation API übersetzt.

Benutzerdefiniertes Sprachmodell für Ihre Sprachanwendungen erstellen

Sie können eigene benutzerdefinierte Sprachmodelle in der Text-to-Speech-Benutzeroberfläche erstellen.

Vorbereitung

Aktivieren Sie die Text-to-Speech API.
Nehmen Sie das Audio gemäß den Anforderungen an Trainingsdaten auf.
Cloud Storage-Bucket erstellen
Laden Sie die Audiodateien in dem Format, das in den Anforderungen an Trainingsdaten angegeben ist, in Ihren neuen Bucket hoch: (0001.wav, 0002.wav... 0200.wav usw.).

Neues benutzerdefiniertes Sprachmodell trainieren

Öffnen Sie in der Text-to-Speech-Benutzeroberfläche den Tab Benutzerdefinierte Stimme.
Klicken Sie oben auf dem Bildschirm auf Erstellen.
Geben Sie einen Namen für das Sprachmodell ein.
Wählen Sie die Sprache aus dem Drop-down-Menü Unterstützte Sprachen aus.
Wählen Sie in Schritt 4 der Voraussetzungen die richtige CSV-Datei aus der Bucket-Konfiguration aus.
Laden Sie eine Einwilligungserklärung des Synchronsprechers hoch. Beispiel: „Ich bin der Inhaber dieser Stimme und stimme zu, dass Google diese Stimme verwendet, um ein synthetisches Sprachmodell zu erstellen.“
Klicken Sie auf Erstellen, um mit der Modellerstellung zu beginnen. Die Erstellung des Modells kann bis zu drei Tage dauern.
Den Status des Trainingsjobs finden Sie in der Navigationsleiste oben rechts in den Console-Benachrichtigungen.

Nächste Schritte

Nach Abschluss des Modelltrainings sind Audiodateien mit Beispielausgaben in der Console verfügbar. Mit diesen Dateien können Sie eine erste Bewertung der Qualität des Modells vornehmen. Wenn das Modell Ihren Anforderungen entspricht, wenden Sie sich an Ihr Vertriebsteam, um Unterstützung bei der Modellbereitstellung zu erhalten. Die Implementierung dauert zwei bis drei Wochen. Wir empfehlen daher, die Ergebnisse schnell auszuwerten und frühzeitig zu kommunizieren.