Sprachausgabe

Mit einer API auf Grundlage der KI-Technologien von Google verwandeln Sie Text in natürlich klingende Sprache.

Kostenlos testen
  • action/check_circle_24px Erstellt mit Sketch

    Kundeninteraktionen mit intelligenten, lebensechten Antworten verbessern

  • action/check_circle_24px Erstellt mit Sketch

    Mit stimmlicher Benutzeroberfläche in Ihren Geräten und Anwendungen Nutzer ansprechen

  • action/check_circle_24px Erstellt mit Sketch

    Kommunikation je nach Nutzervorlieben für Stimme und Sprache personalisieren

Vorteile

High-Fidelity-Sprache

Nutzen Sie die bahnbrechenden Technologien von Google, um Sprache mit menschenähnlicher Intonation zu generieren. Basierend auf dem Sprachsynthesewissen von DeepMind liefert die API Stimmen, die fast wie Menschen klingen.

Größte Stimmauswahl

Wählen Sie aus über 220 Stimmen in mehr als 40 Sprachen und Varianten. Wählen Sie die Stimme aus, die perfekt zu Ihrem Nutzer und Ihrer Anwendung passt.

Einzigartige Stimme

Erstellen Sie eine einzigartige Stimme, um Ihr Unternehmen bei allen Kunden-Touchpoints zu repräsentieren, anstatt eine allgemeine Stimme einzusetzen, die auch von anderen Organisationen genutzt wird.

Demo

Sprachausgabe in Aktion

Geben Sie Ihren Text ein, wählen Sie eine Sprache aus und klicken Sie auf "Speak It", um ihn anzuhören.

Wichtige Features

Wichtige Features

Custom Voice (Beta)

Trainieren Sie ein benutzerdefiniertes Sprachsynthesemodell mit eigenen Audioaufzeichnungen, um eine einzigartige, natürlichere Stimme für Ihre Organisation zu erstellen. Sie können ein Voice-Profil definieren und auswählen, das zu Ihrer Organisation passt, und es bei Bedarf stimmlich anpassen, ohne neue Formulierungen aufnehmen zu müssen. Weitere Informationen

WaveNet-Stimmen

Profitieren Sie von mehr als 90 WaveNet-Stimmen, die auf der bahnbrechenden Forschung von DeepMind basieren, und generieren Sie Sprache, bei der kaum noch ein Unterschied zur menschlichen Sprache festzustellen ist.

Stimmoptimierung

Passen Sie die Tonlage Ihrer ausgewählten Stimme um bis zu 20 Halbtöne über oder unter der Standardausgabe an. Stellen Sie die Sprechgeschwindigkeit auf ein bis zu viermal schnelleres oder langsameres Tempo als normal ein.

Unterstützung von Text und SSML

Passen Sie Ihre Sprache mithilfe von SSML-Tags an, mit denen Sie Pausen, Zahlen, Formatierung von Datum und Uhrzeit sowie andere Befehle zur Aussprache hinzufügen können.

Alle Features ansehen

Das ist neu

Das ist neu

Melden Sie sich für die Google Cloud-Newsletter an. So werden Sie regelmäßig über Neuigkeiten zu Produkten, Veranstaltungen, Sonderangebote und weitere aktuelle Themen informiert.

Dokumentation

Dokumentation

Grundlagen zu Google Cloud
Sprachausgabe – Grundlagen

Ein Leitfaden mit den grundlegenden Konzepten zur Verwendung der Text-to-Speech API.

Kurzanleitung
Kurzanleitung: Befehlszeile verwenden

Richten Sie Ihr Google Cloud-Projekt und die Autorisierung ein. Erstellen Sie dann eine Anfrage an die Text-to-Speech API, mit der Sie Audioinhalte aus Text generieren.

Grundlagen zu Google Cloud
Unterstützte Stimmen und Sprachen

Informationen darüber, welche Sprachen von der Sprachausgabe unterstützt werden, und Hörbeispiele zu den jeweils verfügbaren Stimmen.

Grundlagen zu Google Cloud
Custom Voice (Beta)

Hier erfahren Sie, wie Sie mit Custom Voice und Ihren eigenen Aufnahmen in Studioqualität eine einzigartige, natürlich klingende Stimme erstellen.

Anleitung
WaveNet und andere synthetische Stimmen

Hier erfahren Sie mehr über die in der Sprachausgabe verfügbaren synthetischen Stimmen, einschließlich der Premiumstimmen von WaveNet.

Anleitung
Adressen mit SSML sprechen

In dieser Anleitung wird gezeigt, wie Speech Synthesis Markup Language (SSML) zur Sprachausgabe einer Textdatei mit Adressen verwendet wird.

Anwendungsfälle

Anwendungsfälle

Anwendungsfall
Sprach-Bots im Callcenter

Dank dynamisch generierter Sprache statt statischer, vorab erstellter Audioaufnahmen können Sie Nutzern mit den im Kundenservice eingesetzten Stimmen eine angenehmere Erfahrung bieten. Begeistern Sie mit qualitativ hochwertigen, synthetischen Stimmen, die Anrufern ein vertrautes und persönliches Gefühl geben.

Sprach-Bots in Callcentern – Referenzarchitektur
Anwendungsfall
Stimmgenerierung in Geräten

Sie können Ihre Geräte mit menschenähnlicher Stimme sprechen lassen und Ihren Nutzern so eine natürliche Kommunikation bieten. Zusammen mit der Speech-to-Text API liefern Sie eine End-to-End-Nutzerinteraktion und verbessern die Nutzererfahrung mit einfachen und angenehmen Interaktionen.

Stimmgenerierung in Geräten – Referenzarchitektur
Anwendungsfall
Barrierefreie EPGs (Electronic Program Guides)

Implementieren Sie ganz einfach die Sprachausgabe-Funktion in EPGs, um die Nutzererfahrung zu verbessern und die Anforderungen für die Barrierefreiheit Ihrer Dienste und Anwendungen zu erfüllen. Demo ansehen.

Alle Features

Alle Features

Custom Voice (Beta) Trainieren Sie ein benutzerdefiniertes Sprachsynthesemodell mit eigenen Audioaufzeichnungen, um eine einzigartige, natürlichere Stimme für Ihre Organisation zu erstellen. Sie können ein Voice-Profil definieren und auswählen, das zu Ihrer Organisation passt, und es bei Bedarf stimmlich anpassen, ohne neue Formulierungen aufnehmen zu müssen. Weitere Informationen.
Stimm- und Sprachauswahl Wählen Sie aus mehr als 220 Stimmen in über 40 Sprachen und Varianten. Weitere folgen demnächst.
WaveNet-Stimmen Profitieren Sie von mehr als 90 WaveNet-Stimmen, die auf der bahnbrechenden Forschung von DeepMind basieren, und generieren Sie Sprache, bei der kaum noch ein Unterschied zur menschlichen Sprache festzustellen ist.
Unterstützung von Text und SSML Passen Sie Ihre Sprache mithilfe von SSML-Tags an, mit denen Sie Pausen, Zahlen, Formatierung von Datum und Uhrzeit sowie andere Befehle zur Aussprache hinzufügen können.
Einstellung der Tonlage Passen Sie die Tonlage Ihrer ausgewählten Stimme um bis zu 20 Halbtöne über oder unter der Standardausgabe an.
Einstellung der Sprechgeschwindigkeit Stellen Sie die Sprechgeschwindigkeit auf ein bis zu viermal schnelleres oder langsameres Tempo als normal ein.
Lautstärkeregelung Erhöhen Sie die Lautstärke der Ausgabe um bis zu 16 dB oder verringern Sie die Lautstärke um bis zu -96 dB.
Integrierte REST und gRPC APIs Einfache Einbindung in alle Anwendungen oder Geräte, die eine REST- oder gRPC-Anfrage senden können. Dazu zählen Smartphones, PCs, Tablets und IoT-Geräte wie Autos, Fernseher oder Lautsprecher.
Flexibilität im Audioformat Wählen Sie aus einer Reihe von Audioformaten aus, einschließlich MP3, Linear16 und Ogg Opus.
Audioprofile Optimieren Sie Audioprofile für das Gerät, über das die Audiodatei ausgegeben werden soll, z. B. Kopfhörer oder Telefonleitungen.

Preise

Preise

Preise für Text-to-Speech werden nach der kostenlosen Stufe pro 1 Million Zeichen an verarbeitetem Text berechnet.

Wenn Sie nicht in US-Dollar bezahlen, gelten die Preise, die unter Google Cloud SKUs für Ihre Währung angegeben sind.