Cloud Text-to-Speech

Durch maschinelles Lernen unterstützte Umwandlung von Text in Sprache

Kostenlos testen Dokumentation lesen

Hochwertige Sprachsynthese

Google Cloud Text-to-Speech konvertiert Text in natürlich klingende Sprache mit mehr als 180 Stimmen in über 30 Sprachen und Sprachvarianten. Unter Anwendung der bahnbrechenden Forschung im Bereich der Sprachsynthese (WaveNet) und der leistungsstarken neuronalen Netzwerke von Google werden erstklassige Audiodaten produziert. Diese nutzerfreundliche API ermöglicht naturgetreue Interaktionen mit Ihren Nutzern, die den Kundendienst, die Interaktion mit Geräten und andere Anwendungsbereiche transformieren.

Hochwertige Sprachsynthese

Texte gleich nach der Eingabe anhören

Geben Sie Ihren Text ein, wählen Sie eine Sprache aus und klicken Sie auf "Speak It", um ihn anzuhören.

Maschinelles Lernen von Google

Nutzen Sie die fortschrittlichen Algorithmen des neuronalen Deep-Learning-Netzes, um aus Text Sprachausgaben in einer Vielzahl von Stimmen und Sprachen zu synthetisieren. Unsere neuronalen Netze basieren auf dem Sprachsynthese-Know-how von Google.

Google – Maschinelles Lernen

Auswahl aus über 180 Stimmen

Google Cloud Text-to-Speech bietet eine Auswahl von mehr als 180 Stimmen in über 30 Sprachen und Sprachvarianten. Entwickler können so die Stimme auswählen, die am besten zu ihrer Anwendung passt.

Auswahl aus über 180 Stimmen

Einschließlich exklusiver Zugriff auf WaveNet-Technologie

DeepMind hat bahnbrechende Forschungsarbeit zu Modellen für maschinelles Lernen geleistet und erzeugt so Sprache, die menschliche Stimmen nachahmt und natürlicher klingt. Durch diese Forschung wird die Lücke zum menschlichen Sprechen um mehr als 70 % reduziert. Cloud Text-to-Speech bietet exklusiven Zugriff auf mehr als 90 WaveNet-Stimmen. Und es kommen immer mehr hinzu.

WaveNet-Stimmen von DeepMind

Einfache Einbindung in vorhandene Anwendungen und Geräte

Cloud Text-to-Speech unterstützt alle Anwendungen und Geräte, die eine REST- oder gRPC-Anfrage senden können, darunter Smartphones, PCs, Tablets und IoT-Geräte wie Autos, Fernseher oder Lautsprecher.

Einfache Einbindung in vorhandene Anwendungen und Geräte

Unterstützt viele gängige Anwendungsfälle

Google Cloud Text-to-Speech ist eine einfach zu verwendende API, die für viele Anwendungsfälle eine flexible Lösung zur Erstellung natürlich klingender Sprache bietet. Gängige Anwendungsfälle sind beispielsweise die Automatisierung von Callcentern, interaktive Antworten von IoT-Geräten oder die Umwandlung von Text in Audio, um Inhalte im Audioformat anzubieten.

Unterstützt viele gängige Anwendungsfälle
Symbol: Sprachausgabe

Features von Cloud Text-to-Speech

Mehrsprachig
Unterstützung von mehr als 100 Stimmen in über 20 Sprachen und Sprachvarianten. Weitere werden bald folgen.
WaveNet-Stimmen
Exklusiver Zugriff auf unvergleichlich natürlich klingende WaveNet-Stimmen von DeepMind in verschiedenen Sprachen.
Unterstützung von Text und SSML
Passen Sie Ihre Sprache mithilfe von SSML-Tags an, mit denen Sie Pausen, Zahlen, Formatierung von Datum und Uhrzeit sowie andere Befehle zur Aussprache hinzufügen können.
Einstellung der Sprechgeschwindigkeit
Stellen Sie die Sprechgeschwindigkeit auf ein bis zu viermal schnelleres oder langsameres Tempo als normal ein.
Einstellung der Tonlage
Passen Sie die Tonlage Ihrer ausgewählten Stimme um bis zu 20 Halbtöne über oder unter der Standardausgabe an.
Lautstärkeregelung
Erhöhen Sie die Lautstärke der Ausgabe um bis zu 16 dB oder verringern Sie die Lautstärke um bis zu -96 dB.
Flexibilität im Audioformat
Wählen Sie aus einer Reihe von Audioformaten aus, einschließlich MP3, Linear16 und Ogg Opus.
Audioprofile
Optimieren Sie Audioprofile für das Gerät, über das die Audiodatei ausgegeben werden soll, z. B. Kopfhörer oder Telefonleitungen.

Preise für Cloud Text-to-Speech

Hochwertige Sprachsynthese

Preise für Cloud Text-to-Speech werden nach der kostenlosen Stufe pro 1 Million Zeichen an verarbeitetem Text berechnet. Weitere Informationen finden Sie in unserer Preisübersicht.

Option Kostenloses Monatskontingent Kostenpflichtige Nutzung
Standardstimmen (alle außer WaveNet) 0 bis 4 Millionen Zeichen 4,00 $/1 Million Zeichen
WaveNet-Stimmen 0 bis 1 Million Zeichen 16,00 $/1 Millionen Zeichen
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die unter Cloud Platform SKUs für Ihre Währung angegebenen Preise.
Sprachausgabe-Logo
Einige auf dieser Seite erwähnte Produkte oder Features befinden sich in der Betaphase. Weitere Informationen zu unseren Markteinführungsphasen finden Sie hier.
Cloud AI-Produkte entsprechen den hier aufgeführten SLA-Richtlinien. Sie bieten eventuell von anderen Google Cloud-Diensten abweichende Latenz- oder Verfügbarkeitsgarantien.