Text-to-Speech
Mit einer API auf Grundlage der besten KI-Technologien von Google wandeln Sie Text in natürlich klingende Sprache um.
Neukunden erhalten ein Startguthaben von 300 $ für Text-to-Speech.
-
Kundeninteraktionen mit intelligenten, lebensechten Antworten verbessern
-
Mit stimmlicher Benutzeroberfläche in Ihren Geräten und Anwendungen Nutzerinnen und Nutzer ansprechen
-
Kommunikation je nach Nutzervorlieben für Stimme und Sprache personalisieren
Vorteile
High-Fidelity-Sprache
Nutzen Sie die bahnbrechenden Technologien von Google, um Sprache mit menschenähnlicher Intonation zu generieren. Basierend auf dem Sprachsynthesewissen von DeepMind liefert die API Stimmen, die fast wie Menschen klingen.
Riesige Stimmauswahl
Sie haben die Wahl zwischen mehr als 380 Stimmen in über 50 Sprachen und Varianten, einschließlich Mandarin, Hindi, Spanisch, Arabisch und Russisch. Wählen Sie die Stimme aus, die perfekt zu Ihren Nutzern und Ihrer Anwendung passt.
Einzigartige Stimme
Setzen Sie auf eine einzigartige Stimme als Wiedererkennungseffekt für Ihr Unternehmen an allen Kunden-Touchpoints, anstatt eine gängige Stimme zu verwenden, die auch von anderen Organisationen genutzt wird.
Demo
Text-to-Speech in Aktion
Geben Sie Ihren Text ein, wählen Sie eine Sprache aus und klicken Sie auf „Speak It“, um ihn anzuhören.
Wichtige Features
Wichtige Features
Neural2-Stimmen
Erreichen Sie auch internationale Nutzer dank vorgefertigter Stimmen, die auf der neuesten Forschung hinter Custom Voice basieren.
Studio-Stimmen (Vorabversion)
Beeindrucken Sie Ihre Zuhörer mit professionell produzierten Inhalten, die in Studioqualität aufgenommen wurden.
Custom Voice
Trainieren Sie ein benutzerdefiniertes Sprachmodell mit eigenen Audioaufzeichnungen, um für die Kommunikation in Ihrem Unternehmen eine einzigartige, natürlicher klingende Stimme zu nutzen. Sie können ein passendes Sprachprofil definieren und auswählen oder auch die Stimme bei Bedarf einfach anpassen, ohne neue Aufnahmen zu erstellen.
Stimmoptimierung
Passen Sie die Tonlage Ihrer ausgewählten Stimme um bis zu 20 Halbtöne über oder unter der Standardausgabe an. Stellen Sie die Sprechgeschwindigkeit auf bis zu viermal höheres oder niedrigeres Tempo als normal ein.
Unterstützung von Text und SSML
Passen Sie die Sprachausgabe mithilfe von SSML-Tags an, um Pausen, Zahlen, Formatierungen von Datum und Uhrzeit sowie andere Anweisungen für die Aussprache hinzuzufügen.
Das ist neu
Das ist neu
Melden Sie sich für die Google Cloud-Newsletter an. So werden Sie regelmäßig über Neuigkeiten zu Produkten, Veranstaltungen, Angebote und weitere aktuelle Themen informiert.
Dokumentation
Dokumentation
Text-to-Speech – Grundlagen
Ein Leitfaden mit den grundlegenden Konzepten zur Verwendung der Text-to-Speech API.
Kurzanleitung: Befehlszeile verwenden
In dieser Kurzanleitung richten Sie Ihr Google Cloud-Projekt und die Autorisierung ein. Dann erstellen Sie eine Anfrage über die Text-to-Speech API, mit der Sie Audioinhalte aus Text generieren.
Unterstützte Stimmen und Sprachen
Stöbern Sie nach Anleitungen und Ressourcen für dieses Produkt.
Custom Voice (Beta)
Hier erfahren Sie, wie Sie mit Custom Voice und Ihren eigenen Aufnahmen in Studioqualität eine einzigartige, natürlich klingende Stimme erstellen.
WaveNet und andere synthetische Stimmen
Hier erfahren Sie mehr über die in Text-to-Speech verfügbaren synthetischen Stimmen, einschließlich der Premiumstimmen von WaveNet.
Adressen mit SSML sprechen
In diesem Tutorial wird gezeigt, wie Speech Synthesis Markup Language (SSML) zur Sprachausgabe einer Textdatei mit Adressen verwendet wird.
Anwendungsfälle
Anwendungsfälle
Mithilfe von Sprach-Bots in Dialogflow können Sie die Sprachfunktionen im Kundenservice natürlicher gestalten, indem Sie Sprache dynamisch generieren, anstatt statische, vorab erstellte Audioaufnahmen abzuspielen. Begeistern Sie mit qualitativ hochwertigen, synthetischen Stimmen, die Anrufern ein vertrautes und persönliches Gefühl geben.
Sorgen Sie für eine natürlich klingende Kommunikation mit Ihren Nutzern, indem Sie Ihren Geräten mit einem Text-Reader eine menschliche Stimmen verleihen. Mit Speech-to-Text und Natural Language stellen Sie eine umfassende sprachgesteuerte Benutzeroberfläche bereit und bieten Ihren Nutzern einfache und natürliche Interaktionen.
Lassen Sie die EPGs ganz einfach Text vorlesen, um Ihren Kunden ein besseres Erlebnis zu bieten und die Anforderungen an die Barrierefreiheit Ihrer Dienste und Anwendungen zu erfüllen. Testen Sie die EPG-Demoversion.
Implementieren Sie die Sprachausgabe-Funktion in EPGs, um die Nutzerfreundlichkeit zu verbessern und die Anforderungen an die Barrierefreiheit Ihrer Dienste und Anwendungen zu erfüllen.
Alle Features
Alle Features
Custom Voice (Beta) | Trainieren Sie ein benutzerdefiniertes Sprachsynthesemodell mit eigenen Aufzeichnungen, um Ihrem Unternehmen eine einzigartige, natürlich klingende Stimme zu verleihen. Sie können ein passendes Sprachprofil definieren und auswählen oder auch die Stimme bei Bedarf einfach anpassen, ohne neue Aufnahmen zu erstellen. Weitere Informationen |
Stimm- und Sprachauswahl | Wählen Sie aus mehr als 220 Stimmen in über 40 Sprachen und Varianten. Weitere folgen demnächst. |
WaveNet-Stimmen | Profitieren Sie von mehr als 90 WaveNet-Stimmen, die auf der bahnbrechenden Forschung von DeepMind basieren, und generieren Sie Sprache, bei der kaum noch ein Unterschied zum Menschen festzustellen ist. |
Unterstützung von Text und SSML | Passen Sie die Sprachausgabe mithilfe von SSML-Tags an, um Pausen, Zahlen, Formatierungen von Datum und Uhrzeit sowie andere Anweisungen für die Aussprache hinzuzufügen. |
Einstellung der Tonlage | Passen Sie die Tonlage Ihrer ausgewählten Stimme um bis zu 20 Halbtöne über oder unter der Standardausgabe an. |
Einstellung der Sprechgeschwindigkeit | Stellen Sie die Sprechgeschwindigkeit auf bis zu viermal höheres oder niedrigeres Tempo als normal ein. |
Lautstärkeregelung | Erhöhen Sie die Lautstärke der Ausgabe um bis zu 16 dB oder verringern Sie die Lautstärke um bis zu -96 dB. |
Integrierte REST und gRPC APIs | Einfache Einbindung in alle Anwendungen oder Geräte, die eine REST- oder gRPC-Anfrage senden können. Dazu zählen Smartphones, PCs, Tablets und IoT-Geräte wie Autos, Fernseher oder Lautsprecher. |
Flexibilität im Audioformat | Konvertieren Sie Text in MP3, Linear16, OGG Opus und eine Reihe anderer Audioformate. |
Audioprofile | Optimieren Sie Audioprofile für das Gerät, über das die Audiodatei ausgegeben werden soll, z. B. Kopfhörer oder Telefonleitungen. |
Preise
Preise
Die Kosten für Text-to-Speech basieren darauf, wie viele Zeichen pro Monat zur Sprachsynthese an den Dienst gesendet werden. Die ersten eine Million Zeichen für WaveNet-Stimmen sind jeden Monat kostenlos. Für Standardstimmen (nicht WaveNet) sind die ersten vier Millionen Zeichen pro Monat kostenlos. Wenn das Kontingent der kostenlosen Stufe aufgebraucht ist, wird Text-to-Speech pro eine Million verarbeiteter Zeichen abgerechnet.
Wenn Sie nicht in US-Dollar bezahlen, gelten die Preise, die unter Google Cloud SKUs für Ihre Währung angegeben sind.