Sprachausgabe
Mit einer API auf Grundlage der KI-Technologien von Google verwandeln Sie Text in natürlich klingende Sprache.
Kostenlos testen-
Kundeninteraktionen mit intelligenten, lebensechten Antworten verbessern
-
Mit stimmlicher Benutzeroberfläche in Ihren Geräten und Anwendungen Nutzer ansprechen
-
Kommunikation je nach Nutzervorlieben für Stimme und Sprache personalisieren
Vorteile
High-Fidelity-Sprache
Nutzen Sie die bahnbrechenden Technologien von Google, um Sprache mit menschenähnlicher Intonation zu generieren. Basierend auf dem Sprachsynthesewissen von DeepMind liefert die API Stimmen, die fast wie Menschen klingen.
Größte Stimmauswahl
Wählen Sie aus über 220 Stimmen in mehr als 40 Sprachen und Varianten. Wählen Sie die Stimme aus, die perfekt zu Ihrem Nutzer und Ihrer Anwendung passt.
Einzigartige Stimme
Erstellen Sie eine einzigartige Stimme, um Ihr Unternehmen bei allen Kunden-Touchpoints zu repräsentieren, anstatt eine allgemeine Stimme einzusetzen, die auch von anderen Organisationen genutzt wird.
Demo
Sprachausgabe in Aktion
Geben Sie Ihren Text ein, wählen Sie eine Sprache aus und klicken Sie auf „Speak It“, um ihn anzuhören.
Wichtige Features
Wichtige Features
Custom Voice (Beta)
Trainieren Sie ein benutzerdefiniertes Sprachsynthesemodell mit eigenen Audioaufzeichnungen, um eine einzigartige, natürlichere Stimme für Ihre Organisation zu erstellen. Sie können ein Voice-Profil definieren und auswählen, das zu Ihrer Organisation passt, und es bei Bedarf stimmlich anpassen, ohne neue Formulierungen aufnehmen zu müssen. Weitere Informationen
WaveNet-Stimmen
Profitieren Sie von mehr als 90 WaveNet-Stimmen, die auf der bahnbrechenden Forschung von DeepMind basieren, und generieren Sie Sprache, bei der kaum noch ein Unterschied zur menschlichen Sprache festzustellen ist.
Stimmoptimierung
Passen Sie die Tonlage Ihrer ausgewählten Stimme um bis zu 20 Halbtöne über oder unter der Standardausgabe an. Stellen Sie die Sprechgeschwindigkeit auf ein bis zu viermal schnelleres oder langsameres Tempo als normal ein.
Unterstützung von Text und SSML
Passen Sie Ihre Sprache mithilfe von SSML-Tags an, mit denen Sie Pausen, Zahlen, Formatierung von Datum und Uhrzeit sowie andere Befehle zur Aussprache hinzufügen können.
Das ist neu
Das ist neu
Melden Sie sich für die Google Cloud-Newsletter an. So werden Sie regelmäßig über Produktänderungen, Veranstaltungen, Sonderangebote und weitere Neuigkeiten informiert.
Dokumentation
Dokumentation
Sprachausgabe – Grundlagen
Ein Leitfaden mit den grundlegenden Konzepten zur Verwendung der Text-to-Speech API.
Kurzanleitung: Befehlszeile verwenden
Richten Sie Ihr Google Cloud-Projekt und die Autorisierung ein. Erstellen Sie dann eine Anfrage an die Text-to-Speech API, mit der Sie Audioinhalte aus Text generieren.
Unterstützte Stimmen und Sprachen
Informationen darüber, welche Sprachen von der Sprachausgabe unterstützt werden, und Hörbeispiele zu den jeweils verfügbaren Stimmen.
Custom Voice (Beta)
Hier erfahren Sie, wie Sie mit Custom Voice und Ihren eigenen Aufnahmen in Studioqualität eine einzigartige, natürlich klingende Stimme erstellen.
WaveNet und andere synthetische Stimmen
Hier erfahren Sie mehr über die in der Sprachausgabe verfügbaren synthetischen Stimmen, einschließlich der Premiumstimmen von WaveNet.
Adressen mit SSML sprechen
In dieser Anleitung wird gezeigt, wie Speech Synthesis Markup Language (SSML) zur Sprachausgabe einer Textdatei mit Adressen verwendet wird.
Anwendungsfälle
Anwendungsfälle
Dank dynamisch generierter Sprache statt statischer, vorab erstellter Audioaufnahmen können Sie Nutzern mit den im Kundenservice eingesetzten Stimmen eine angenehmere Erfahrung bieten. Begeistern Sie mit qualitativ hochwertigen, synthetischen Stimmen, die Anrufern ein vertrautes und persönliches Gefühl geben.
Sie können Ihre Geräte mit menschenähnlicher Stimme sprechen lassen und Ihren Nutzern so eine natürliche Kommunikation bieten. Zusammen mit der Speech-to-Text API liefern Sie eine End-to-End-Nutzerinteraktion und verbessern die Nutzererfahrung mit einfachen und angenehmen Interaktionen.
Implementieren Sie ganz einfach die Sprachausgabe-Funktion in EPGs, um die Nutzerfreundlichkeit zu verbessern und die Anforderungen für die Barrierefreiheit Ihrer Dienste und Anwendungen zu erfüllen. Demo ansehen.
Alle Features
Alle Features
Custom Voice (Beta) | Trainieren Sie ein benutzerdefiniertes Sprachsynthesemodell mit eigenen Audioaufzeichnungen, um eine einzigartige, natürlichere Stimme für Ihre Organisation zu erstellen. Sie können ein Voice-Profil definieren und auswählen, das zu Ihrer Organisation passt, und es bei Bedarf stimmlich anpassen, ohne neue Formulierungen aufnehmen zu müssen. Weitere Informationen. |
Stimm- und Sprachauswahl | Wählen Sie aus mehr als 220 Stimmen in über 40 Sprachen und Varianten. Weitere folgen demnächst. |
WaveNet-Stimmen | Profitieren Sie von mehr als 90 WaveNet-Stimmen, die auf der bahnbrechenden Forschung von DeepMind basieren, und generieren Sie Sprache, bei der kaum noch ein Unterschied zur menschlichen Sprache festzustellen ist. |
Unterstützung von Text und SSML | Passen Sie Ihre Sprache mithilfe von SSML-Tags an, mit denen Sie Pausen, Zahlen, Formatierung von Datum und Uhrzeit sowie andere Befehle zur Aussprache hinzufügen können. |
Einstellung der Tonlage | Passen Sie die Tonlage Ihrer ausgewählten Stimme um bis zu 20 Halbtöne über oder unter der Standardausgabe an. |
Einstellung der Sprechgeschwindigkeit | Stellen Sie die Sprechgeschwindigkeit auf ein bis zu viermal schnelleres oder langsameres Tempo als normal ein. |
Lautstärkeregelung | Erhöhen Sie die Lautstärke der Ausgabe um bis zu 16 dB oder verringern Sie die Lautstärke um bis zu -96 dB. |
Integrierte REST und gRPC APIs | Einfache Einbindung in alle Anwendungen oder Geräte, die eine REST- oder gRPC-Anfrage senden können. Dazu zählen Smartphones, PCs, Tablets und IoT-Geräte wie Autos, Fernseher oder Lautsprecher. |
Flexibilität im Audioformat | Wählen Sie aus einer Reihe von Audioformaten aus, einschließlich MP3, Linear16 und Ogg Opus. |
Audioprofile | Optimieren Sie Audioprofile für das Gerät, über das die Audiodatei ausgegeben werden soll, z. B. Kopfhörer oder Telefonleitungen. |
Preise
Preise
Preise für Text-to-Speech werden nach der kostenlosen Stufe pro 1 Million Zeichen an verarbeitetem Text berechnet.
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die unter Google Cloud SKUs für Ihre Währung angegebenen Preise.