Cloud Text-to-Speech

Durch maschinelles Lernen unterstützte Umwandlung von Text in Sprache

Kostenlos testen

Zuverlässige Sprachsynthese

Mit Google Cloud Text-to-Speech können Entwickler natürlich klingende Sprache mit 30 Stimmen synthetisieren, die in mehreren Sprachen und Sprachvarianten verfügbar sind. Es werden die bahnbrechende Forschung von DeepMind in WaveNet und die leistungsstarken neuralen Netzwerke von Google angewendet, um höchst zuverlässige Audiodateien zu erhalten. Mit dieser benutzerfreundlichen API können Sie lebensechte Interaktionen mit Ihren Nutzern in vielen Anwendungen und Geräten erstellen.

Zuverlässige Sprachsynthese

Konvertieren Sie Ihren Text jetzt in Sprache

Geben Sie Ihren Text ein, wählen Sie eine Sprache aus und klicken Sie auf "Speak It", um es zu hören.

Powered by maschinelles Lernen von Google

Wenden Sie fortgeschrittene Algorithmen des neuronalen Deep-Learning-Netzes an, um Text in eine Vielzahl von Stimmen und Sprachen zu synthetisieren. Unsere neuronalen Netzwerke basieren auf dem Sprachsynthese-Know-how von Google.

Maschinelles Lernen von Google

Enthält exklusiven Zugriff auf WaveNet-Stimmen von DeepMind

DeepMind hat bahnbrechende Forschungen bei Modellen für maschinelles Lernen durchgeführt, um Sprache zu erzeugen, die menschliche Stimmen nachahmt und natürlicher klingt. Durch diese Forschung wird die Lücke zur menschlichen Leistung um mehr als 50 % reduziert. Cloud Text-to-Speech bietet exklusiven Zugriff auf mehrere WaveNet-Stimmen an und im Laufe der Zeit werden immer mehr dazu kommen.

WaveNet-Stimmen von DeepMind

Wählen Sie aus über 30 Stimmen aus

Google Cloud Text-to-Speech bietet eine Auswahl von mehr als 30 Stimmen in 14 Sprachen und Varianten. Entwickler können so die Stimme auswählen, die für ihre Anwendung am besten geeignet ist.

Wählen Sie aus über 30 Stimmen aus

Einfache Integration in vorhandene Anwendungen und Geräte

Cloud Text-to-Speech unterstützt jede Anwendung und jedes Gerät, das eine REST- oder gRPC-Anfrage senden kann, darunter Smartphones, PCs, Tablets und IdD-Geräte wie Autos, Fernseher oder Lautsprecher.

Einfache Integration in vorhandene Anwendungen und Geräte

Unterstützt viele gängige Anwendungsfälle

Google Cloud Text-to-Speech ist eine einfach zu verwendende API, die eine flexible Lösung zur Erstellung natürlicher Erlebnisse für viele Anwendungsfälle bietet. Gängige Anwendungsfälle sind beispielsweise die Automatisierung von Callcentern, interaktive Antworten von IdD-Geräten oder die Umwandlung von Text in Audio, welches dann im Audioformat konsumiert werden kann.

Unterstützt viele gängige Anwendungsfälle

Funktionen von Cloud Text-to-Speech

Mehrsprachig
Unterstützt mehr als 30 Stimmen in 14 Sprachen und Varianten. Weitere werden bald folgen.
WaveNet-Stimmen
Exklusiver mehrsprachiger Zugriff auf WaveNet-Stimmen von DeepMind, die die natürlichste Sprache bieten.
Unterstützt Text und SSML
Passen Sie Ihre Sprache mithilfe von SSML-Tags an, mit denen Sie Pausen, Zahlen, Formatierung von Datum und Uhrzeit sowie andere Befehle zur Aussprache hinzufügen können.
Sprechfrequenzabstimmung
Passen Sie Ihre Sprechgeschwindigkeit an, um viermal schneller oder langsamer als die normale Geschwindigkeit zu sein.
Tonhöheneinstellung
Passen Sie die Tonhöhe Ihrer ausgewählten Stimme an, um bis zu 20 Halbtöne über oder unter der Standardausgabe zu liegen.
Lautstärkeregelung
Erhöhen Sie die Lautstärke der Ausgabe um bis zu 16 dB oder verringern Sie die Lautstärke auf bis zu -96 dB.
Flexibilität im Audioformat
Wählen Sie aus einer Reihe von Audioformaten, einschließlich MP3, Linear16 und Ogg Opus, aus.
AudioprofileBETA
Optimieren Sie für die Art des Lautsprechers, von dem die Audiodatei abgespielt werden soll, z. B. Kopfhörer oder Telefonleitungen.

PREISE für CLOUD Text-to-Speech

Zuverlässige Sprachsynthese

Preise für Cloud Text-to-Speech werden pro 1 Million Zeichen an verarbeitetem Text berechnet. Die ersten 1 Million Zeichen sind kostenlos. Weitere Informationen finden Sie in unserer Preisübersicht.

Funktion Kostenloses Monatskontingent Bezahlte Nutzung
Standardstimmen (Nicht-WaveNet) 0 bis 4 Millionen Zeichen 4,00 $/1 Million Zeichen
WaveNet-Stimmen 0 bis 1 Million Zeichen 16,00 $/1 Million Zeichen
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die in Cloud Platform SKUs in Ihrer Währung angegeben sind.
Ein auf dieser Seite erwähntes Produkt oder eine Funktion befindet sich in der Betaphase. Weitere Informationen zu unseren Markteinführungsphasen finden Sie hier.

Feedback geben zu...

Cloud Text-to-Speech API