Sprachausgabe

Mit einer API auf Grundlage der KI-Technologien von Google verwandeln Sie Text in natürlich klingende Sprache.

Kostenlos testen
  • action/check_circle_24px Erstellt mit Sketch

    Kundeninteraktionen mit intelligenten, lebensechten Antworten verbessern

  • action/check_circle_24px Erstellt mit Sketch

    Mit stimmlicher Benutzeroberfläche in Ihren Geräten und Anwendungen Nutzer ansprechen

  • action/check_circle_24px Erstellt mit Sketch

    Kommunikation je nach Nutzervorlieben für Stimme und Sprache personalisieren

High-Fidelity-Sprache

Nutzen Sie die bahnbrechenden Technologien von Google, um Sprache mit menschenähnlicher Intonation zu generieren. Basierend auf dem Sprachsynthesewissen von DeepMind liefert die API Stimmen, die fast wie Menschen klingen.

Größte Stimmauswahl

Wählen Sie aus über 220 Stimmen in mehr als 40 Sprachen und Varianten. Wählen Sie die Stimme aus, die perfekt zu Ihrem Nutzer und Ihrer Anwendung passt.

Beschleunigte Innovation

Zusammen mit den führenden Technologien von Google in den Bereichen Übersetzung und Spracherkennung sind auch Anwendungsfälle wie mehrsprachige Audioinhalte und Sprach-Bots kein Hindernis.

Sprachausgabe in Aktion

Geben Sie Ihren Text ein, wählen Sie eine Sprache aus und klicken Sie auf "Speak It" (Sprechen), um ihn anzuhören.

Wichtige Features

WaveNet-Stimmen

Profitieren Sie von mehr als 90 WaveNet-Stimmen, die auf der bahnbrechenden Forschung von DeepMind basieren, und generieren Sie Sprache, bei der kaum noch ein Unterschied zur menschlichen Sprache festzustellen ist.

Stimmoptimierung

Passen Sie die Tonlage Ihrer ausgewählten Stimme um bis zu 20 Halbtöne über oder unter der Standardausgabe an. Stellen Sie die Sprechgeschwindigkeit auf ein bis zu viermal schnelleres oder langsameres Tempo als normal ein.

Unterstützung von Text und SSML

Passen Sie Ihre Sprache mithilfe von SSML-Tags an, mit denen Sie Pausen, Zahlen, Formatierung von Datum und Uhrzeit sowie andere Befehle zur Aussprache hinzufügen können.

Alle Features ansehen

Das ist neu

Melden Sie sich für die Google Cloud-Newsletter an. So werden Sie regelmäßig über Produktupdates, Veranstaltungen, Sonderangebote und weitere Neuigkeiten informiert.

Dokumentation

Google Cloud Grundlagen
Sprachausgabe – Grundlagen

Ein Leitfaden mit den grundlegenden Konzepten zur Verwendung der Text-to-Speech API.

Kurzanleitung
Kurzanleitung: Befehlszeile verwenden

Richten Sie Ihr Google Cloud-Projekt und die Autorisierung ein. Erstellen Sie dann eine Anfrage an die Text-to-Speech API, mit der Sie Audioinhalte aus Text generieren.

Google Cloud Grundlagen
Unterstützte Stimmen und Sprachen

Erfahren Sie, welche Sprachen von der Sprachausgabe unterstützt werden, und hören Sie sich Beispiele zu den jeweils verfügbaren Stimmen an.

Anleitung
WaveNet und andere synthetische Stimmen

Hier erfahren Sie mehr über die in der Sprachausgabe verfügbaren synthetischen Stimmen, einschließlich der Premiumstimmen von WaveNet.

Anleitung
Adressen mit SSML sprechen

In dieser Anleitung wird gezeigt, wie Speech Synthesis Markup Language (SSML) zur Sprachausgabe einer Textdatei mit Adressen verwendet wird.

Anwendungsfälle

Anwendungsfall
Sprach-Bots im Callcenter

Dank dynamisch generierter Sprache statt statischer, vorab erstellter Audioaufnahmen können Sie Nutzern mit den im Kundenservice eingesetzten Stimmen eine angenehmere Erfahrung bieten. Begeistern Sie mit qualitativ hochwertigen, synthetischen Stimmen, die Anrufern ein vertrautes und persönliches Gefühl geben.

Sprach-Bots in Callcentern – Referenzarchitektur
Anwendungsfall
Stimmgenerierung in Geräten

Sie können Ihre Geräte mit menschenähnlicher Stimme sprechen lassen und Ihren Nutzern so eine natürliche Kommunikation bieten. Zusammen mit der Speech-to-Text API liefern Sie eine End-to-End-Nutzerinteraktion und verbessern das Nutzererlebnis mit einfachen und angenehmen Interaktionen.

Stimmgenerierung in Geräten – Referenzarchitektur

Alle Features

Stimm- und Sprachauswahl Wählen Sie aus mehr als 220 Stimmen in über 40 Sprachen und Varianten. Weitere folgen demnächst.
WaveNet-Stimmen Profitieren Sie von mehr als 90 WaveNet-Stimmen, die auf der bahnbrechenden Forschung von DeepMind basieren, und generieren Sie Sprache, bei der kaum noch ein Unterschied zur menschlichen Sprache festzustellen ist.
Unterstützung von Text und SSML Passen Sie Ihre Sprache mithilfe von SSML-Tags an, mit denen Sie Pausen, Zahlen, Formatierung von Datum und Uhrzeit sowie andere Befehle zur Aussprache hinzufügen können.
Einstellung der Tonlage Passen Sie die Tonlage Ihrer ausgewählten Stimme um bis zu 20 Halbtöne über oder unter der Standardausgabe an.
Einstellung der Sprechgeschwindigkeit Stellen Sie die Sprechgeschwindigkeit auf ein bis zu viermal schnelleres oder langsameres Tempo als normal ein.
Lautstärkeregelung Erhöhen Sie die Lautstärke der Ausgabe um bis zu 16 dB oder verringern Sie die Lautstärke um bis zu -96 dB.
Integrierte REST und gRPC APIs Einfache Einbindung in alle Anwendungen oder Geräte, die eine REST- oder gRPC-Anfrage senden können. Dazu zählen Smartphones, PCs, Tablets und IoT-Geräte wie Autos, Fernseher oder Lautsprecher.
Flexibilität im Audioformat Wählen Sie aus einer Reihe von Audioformaten aus, einschließlich MP3, Linear16 und Ogg Opus.
Audioprofile Optimieren Sie Audioprofile für das Gerät, über das die Audiodatei ausgegeben werden soll, z. B. Kopfhörer oder Telefonleitungen.

Preise

Preise für Text-to-Speech werden nach der kostenlosen Stufe pro 1 Million Zeichen an verarbeitetem Text berechnet.

Wenn Sie nicht in US-Dollar bezahlen, gelten die Preise, die unter Google Cloud SKUs für Ihre Währung angegeben sind.