Text-to-Speech-Dokumentation

Custom Voice

Die Cloud Text-to-Speech API bietet jetzt benutzerdefinierten Stimmen an. Dieses Feature bietet die Möglichkeit, ein benutzerdefiniertes Sprachmodell mit Ihren eigenen Aufzeichnungen in Studioqualität zu trainieren, um Ihre spezielle Sprache und Stimme abzubilden. Sie können mit Ihrer eigenen Sprache und Stimme Audio mithilfe der Cloud Text-to-Speech API synthetisieren.

Wenden Sie sich für die Implementierung von Custom Voice an ein Mitglied des Vertriebsteams.

Beispiele für Custom Voices

Beispiele für benutzerdefinierte Stimmen erhalten Sie in den folgenden Beispielen. Das erste Audiobeispiel ist die Originalstimme. Anschließend können Sie sich je nach Original zwei Beispiele für benutzerdefinierte Stimmen anhören.

Weiblichn – Originalstimmen Männlich – Originalstimmen
Weiblich – Custom Voice-Beispiel 1 Männlich – Custom Voice-Beispiel 1
Weiblich – Custom Voice-Beispiel 2 Männlich – Custom Voice-Beispiel 2

Vom Nutzer bereitgestellte Audiodaten

Custom Voice erstellt ein Text-to-Speech-Modell (TTS), das Ihren bereitgestellten Audiodaten so ähnlich wie möglich klingt. Sie erhalten von Google ein Skript für die Aufnahmen, nachdem Ihr Anwendungsfall genehmigt wurde. Wir empfehlen, dafür einen Sprecher einzusetzen, der der gewünschten Stimme am besten entspricht. Um die Daten als Trainingsdaten verwenden zu können, sollten Sie das entsprechende Audio in Studioqualität aufnehmen. Wenn Ihre Trainingsdaten die interne Bestätigungs- und Validierungsprüfung von Google nicht bestehen, müssen Sie sie möglicherweise noch einmal aufnehmen oder noch einmal einreichen, nachdem Sie die erkannten Probleme behoben haben.

Modelltraining

Es dauert einige Wochen, bis Google Ihr benutzerdefiniertes Sprachmodell trainiert und bewertet hat. Für kritische Fehler in Beta-Features gibt es keine SLA-Unterstützung.

Bewertungs- und Nutzerakzeptanztests

Google führt eine erste Bewertungsrunde für das trainierte Modell durch. Wenn es die internen Qualitätskriterien erfüllt, senden wir Ihnen einige Offline-Audio-Beispiele zu, die mit Ihrem benutzerdefinierten Modell aufgenommen wurden. Anschließend folgen Sie Tests zur Nutzerakzeptanz, um die Audioergebnisse zu bewerten und das Modell offiziell zu genehmigen.