Diese Seite wurde von der Cloud Translation API übersetzt.
Switch to English

Custom Voice (Beta)

Die Cloud Text-to-Speech API enthält jetzt Custom Voice (Beta). Dieses Feature bietet die Möglichkeit, ein benutzerdefiniertes Sprachmodell mit Ihren eigenen Aufzeichnungen in Studioqualität zu trainieren, um Ihre spezielle Sprache und Stimme abzubilden. Sie können mit Ihrer eigenen Sprache und Stimme Audio mithilfe der Cloud Text-to-Speech API synthetisieren. Derzeit wird nur amerikanisches Englisch (en-US) unterstützt.

Für die Nutzung des Custom Voice-Features füllen Sie bitte dieses Formular aus.

Vom Nutzer bereitgestellte Audiodaten

Custom Voice erstellt ein Text-to-Speech-Modell (TTS), das Ihren bereitgestellten Audiodaten so ähnlich wie möglich klingt. Sie erhalten von Google ein Skript für die Aufnahmen, nachdem Ihr Anwendungsfall genehmigt wurde. Wir empfehlen, dafür einen Sprecher einzusetzen, der der gewünschten Stimme am besten entspricht. Um die Daten als Trainingsdaten verwenden zu können, sollten Sie das entsprechende Audio in Studioqualität aufnehmen. Wenn Ihre Trainingsdaten die interne Bestätigungs- und Validierungsprüfung von Google nicht bestehen, müssen Sie sie möglicherweise noch einmal aufnehmen oder noch einmal einreichen, nachdem Sie die erkannten Probleme behoben haben.

Modelltraining

Es dauert einige Wochen, bis Google Ihr benutzerdefiniertes Sprachmodell trainiert und bewertet hat. Für kritische Fehler in Beta-Features gibt es keine SLA-Unterstützung.

Bewertungs- und Nutzerakzeptanztests

Google führt eine erste Bewertungsrunde für das trainierte Modell durch. Wenn es die internen Qualitätskriterien erfüllt, senden wir Ihnen einige Offline-Audio-Beispiele zu, die mit Ihrem benutzerdefinierten Modell aufgenommen wurden. Anschließend folgen Sie Tests zur Nutzerakzeptanz, um die Audioergebnisse zu bewerten und das Modell offiziell zu genehmigen.