Sie können eigene benutzerdefinierte Sprachmodelle in der Benutzeroberfläche der Text-to-Speech-Funktion erstellen.
Vorbereitung
- Aktivieren Sie die Text-to-Speech API.
- Nehmen Sie das Audio gemäß den Anforderungen an Trainingsdaten auf.
- Cloud Storage-Bucket erstellen
- Laden Sie die Audiodateien in dem Format, das in den Anforderungen an Trainingsdaten angegeben ist, in Ihren neuen Bucket hoch: (0001.wav, 0002.wav... 0200.wav usw.).
Neues benutzerdefiniertes Sprachmodell trainieren
- Öffnen Sie in der Text-to-Speech-Benutzeroberfläche den Tab Benutzerdefinierte Stimme.
- Klicken Sie oben auf dem Bildschirm auf Erstellen.
- Benennen Sie das Sprachmodell.
- Wählen Sie die Sprache aus dem Drop-down-Menü Unterstützte Sprachen aus.
- Wählen Sie in Schritt 4 der Voraussetzungen die richtige CSV-Datei aus der Bucket-Konfiguration aus.
- Laden Sie eine Einwilligungserklärung des Synchronsprechers hoch. Beispiel: „Ich bin der Inhaber dieser Stimme und stimme zu, dass Google diese Stimme verwendet, um ein synthetisches Sprachmodell zu erstellen.“
- Klicken Sie auf Erstellen, um mit der Modellerstellung zu beginnen. Die Erstellung des Modells kann bis zu drei Tage dauern.
- Den Status des Trainingsjobs sehen Sie in der Navigationsleiste oben rechts in den Console-Benachrichtigungen.
Nächste Schritte
Nach Abschluss des Modelltrainings sind Audiodateien mit Beispielausgaben in der Console verfügbar. Mit diesen Dateien können Sie eine erste Bewertung der Qualität des Modells vornehmen. Wenn das Modell Ihren Anforderungen entspricht, wenden Sie sich an Ihr Vertriebsteam, um Unterstützung bei der Modellbereitstellung zu erhalten. Die Implementierung dauert zwei bis drei Wochen. Wir empfehlen daher, die Ergebnisse schnell auszuwerten und frühzeitig zu kommunizieren.