Grundlagen zu Custom Voice

Übersicht

Die Cloud Text-to-Speech API bietet jetzt Custom Voice an. Dieses Feature bietet die Möglichkeit, ein benutzerdefiniertes Sprachmodell mit Ihren eigenen Aufzeichnungen in Studioqualität zu trainieren, um Ihre spezielle Sprache und Stimme abzubilden. Sie können mit Ihrer eigenen Sprache und Stimme Audio mithilfe der Cloud Text-to-Speech API synthetisieren.

Vom Nutzer bereitgestellte Audiodaten

Custom Voice erstellt ein Text-to-Speech-Modell (TTS), das Ihren bereitgestellten Audiodaten so ähnlich wie möglich klingt. Sie erhalten von Google ein Skript für die Aufnahmen, nachdem Ihr Anwendungsfall genehmigt wurde. Wir empfehlen, dafür einen Sprecher einzusetzen, der der gewünschten Stimme am besten entspricht. Um die Daten als Trainingsdaten verwenden zu können, sollten Sie das entsprechende Audio in Studioqualität aufnehmen. Weitere Informationen finden Sie auf der Seite mit den Anforderungen für Trainingsdaten. Wenn Ihre Trainingsdaten die internen Qualitätsprüfungen von Google nicht bestehen, müssen Sie sie möglicherweise neu aufnehmen oder noch einmal einreichen, nachdem Sie die erkannten Probleme behoben haben.

Modelltraining

Es dauert einige Wochen, bis Google Ihr benutzerdefiniertes Sprachmodell trainiert hat.

Deployment

Nach dem Training stellt Google das benutzerdefinierte Sprachmodell in Projekten Ihrer Wahl bereit.

Nächste Schritte

  • Implementieren Sie das Feature Custom Voice mithilfe unserer Kurzanleitung.