Auf der Next '21 erhalten Sie einen exklusiven Einblick in die neuesten Text-to-Speech-Features. Kostenlos registrieren

Weiter zu

Text-to-Speech

Mit einer API auf Grundlage der KI-Technologien von Google verwandeln Sie Text in natürlich klingende Sprache.
  • action/check_circle_24px Erstellt mit Sketch.

    Kundeninteraktionen mit intelligenten, lebensechten Antworten verbessern

  • action/check_circle_24px Erstellt mit Sketch.

    Mit stimmlicher Benutzeroberfläche in Ihren Geräten und Anwendungen Nutzer ansprechen

  • action/check_circle_24px Erstellt mit Sketch.

    Kommunikation je nach Nutzervorlieben für Stimme und Sprache personalisieren

Vorteile

High-Fidelity-Sprache

Nutzen Sie die bahnbrechenden Technologien von Google, um Sprache mit menschenähnlicher Intonation zu generieren. Basierend auf dem Sprachsynthesewissen von DeepMind liefert die API Stimmen, die fast wie Menschen klingen.

Größte Stimmauswahl

Sie haben die Wahl zwischen mehr als 220 Stimmen in über 40 Sprachen und Varianten, einschließlich Mandarin, Hindi, Spanisch, Arabisch und Russisch. Wählen Sie die Stimme aus, die perfekt zu Ihrem Nutzer und Ihrer Anwendung passt.

Einzigartige Stimme

Erstellen Sie eine einzigartige Stimme, um Ihr Unternehmen bei allen Kunden-Touchpoints zu repräsentieren, anstatt eine allgemeine Stimme einzusetzen, die auch von anderen Organisationen genutzt wird.

Demo

Text-to-Speech in Aktion

Geben Sie Ihren Text ein, wählen Sie eine Sprache aus und klicken Sie auf „Speak It“, um ihn anzuhören.

Wichtige Features

Wichtige Features

Custom Voice (Beta)

Trainieren Sie ein benutzerdefiniertes Sprachmodell mit eigenen Audioaufzeichnungen, um eine einzigartige, natürlichere Stimme für Ihre Organisation zu erstellen. Sie können ein Sprachprofil definieren und auswählen, das zu Ihrer Organisation passt, und es bei Bedarf stimmlich anpassen, ohne neue Formulierungen aufnehmen zu müssen.

WaveNet-Stimmen

Profitieren Sie von mehr als 90 WaveNet-Stimmen, die auf der bahnbrechenden Forschung von DeepMind basieren, und generieren Sie Sprache, bei der kaum noch ein Unterschied zur menschlichen Sprache festzustellen ist.

Stimmoptimierung

Passen Sie die Tonlage Ihrer ausgewählten Stimme um bis zu 20 Halbtöne über oder unter der Standardausgabe an. Stellen Sie die Sprechgeschwindigkeit auf ein bis zu viermal schnelleres oder langsameres Tempo als normal ein.

Unterstützung von Text und SSML

Passen Sie Ihre Sprache mithilfe von SSML-Tags an, mit denen Sie Pausen, Zahlen, Formatierung von Datum und Uhrzeit sowie andere Befehle zur Aussprache hinzufügen können.

Alle Features ansehen

Das ist neu

Das ist neu

Melden Sie sich für die Google Cloud-Newsletter an. So werden Sie regelmäßig über Neuigkeiten zu Produkten, Veranstaltungen, Sonderangebote und weitere aktuelle Themen informiert.

Dokumentation

Dokumentation

Grundlagen zu Google Cloud
Text-to-Speech – Grundlagen

Ein Leitfaden mit den grundlegenden Konzepten zur Verwendung der Text-to-Speech API.

Kurzanleitung
Kurzanleitung: Befehlszeile verwenden

In dieser Kurzanleitung richten Sie Ihr Google Cloud-Projekt und die Autorisierung ein. Dann erstellen Sie eine Anfrage über die Text-to-Speech API, mit der Sie Audioinhalte aus Text generieren.

Grundlagen zu Google Cloud
Unterstützte Stimmen und Sprachen

Sehen Sie sich Anleitungen und Ressourcen für dieses Produkt an.

Grundlagen zu Google Cloud
Custom Voice (Beta)

Hier erfahren Sie, wie Sie mit Custom Voice und Ihren eigenen Aufnahmen in Studioqualität eine einzigartige, natürlich klingende Stimme erstellen.

Tutorial
WaveNet und andere synthetische Stimmen

Hier erfahren Sie mehr über die in Text-to-Speech verfügbaren synthetischen Stimmen, einschließlich der Premiumstimmen von WaveNet.

Tutorial
Adressen mit SSML sprechen

In diesem Tutorial wird gezeigt, wie Speech Synthesis Markup Language (SSML) zur Sprachausgabe einer Textdatei mit Adressen verwendet wird.

Anwendungsfälle

Anwendungsfälle

Anwendungsfall
Sprach-Bots im Callcenter

Mithilfe von Sprach-Bots in Dialogflow, die Sprache dynamisch generieren, anstatt statische, vorab erstellte Audioaufnahmen abzuspielen, können Sie Nutzern mit den im Kundenservice eingesetzten Stimmen eine angenehmere Erfahrung bieten. Begeistern Sie mit qualitativ hochwertigen, synthetischen Stimmen, die Anrufern ein vertrautes und persönliches Gefühl geben.

Sprach-Bots in Callcentern – Referenzarchitektur
Anwendungsfall
Stimmgenerierung in Geräten

Sie können Ihre Geräte mit menschenähnlicher Stimme als Textleser sprechen lassen und Ihren Nutzern so eine natürliche Kommunikation bieten. Zusammen mit Speech-to-Text und Natural Language liefern Sie eine durchgängige stimmliche Benutzeroberfläche und bieten Ihren Nutzern einfache und angenehme Interaktionen.

Stimmgenerierung in Geräten – Referenzarchitektur
Anwendungsfall
Barrierefreie EPGs (Electronic Program Guides)

Lassen Sie die EPGs ganz einfach Text vorlesen, um Ihren Kunden eine bessere Nutzererfahrung zu bieten und die Anforderungen an die Barrierefreiheit Ihrer Dienste und Anwendungen zu erfüllen. Testen Sie die EPG-Demoversion.

Implementieren Sie die Sprachausgabe-Funktion in EPGs, um die Nutzerfreundlichkeit zu verbessern und die Anforderungen an die Barrierefreiheit Ihrer Dienste und Anwendungen zu erfüllen. 

Abbildung: Referenzarchitektur, die zeigt, wie mit der TTS API barrierefreie EPGs erstellt werden können

Alle Features

Alle Features

Custom Voice (Beta) Trainieren Sie ein benutzerdefiniertes Sprachsynthesemodell mit eigenen Audioaufzeichnungen, um eine einzigartige, natürlichere Stimme für Ihre Organisation zu erstellen. Sie können ein Sprachprofil definieren und auswählen, das zu Ihrer Organisation passt, und es bei Bedarf stimmlich anpassen, ohne neue Formulierungen aufnehmen zu müssen. Weitere Informationen
Stimm- und Sprachauswahl Wählen Sie aus mehr als 220 Stimmen in über 40 Sprachen und Varianten. Weitere folgen demnächst.
WaveNet-Stimmen Profitieren Sie von mehr als 90 WaveNet-Stimmen, die auf der bahnbrechenden Forschung von DeepMind basieren, und generieren Sie Sprache, bei der kaum noch ein Unterschied zur menschlichen Sprache festzustellen ist.
Unterstützung von Text und SSML Passen Sie Ihre Sprache mithilfe von SSML-Tags an, mit denen Sie Pausen, Zahlen, Formatierung von Datum und Uhrzeit sowie andere Befehle zur Aussprache hinzufügen können.
Einstellung der Tonlage Passen Sie die Tonlage Ihrer ausgewählten Stimme um bis zu 20 Halbtöne über oder unter der Standardausgabe an.
Einstellung der Sprechgeschwindigkeit Stellen Sie die Sprechgeschwindigkeit auf ein bis zu viermal schnelleres oder langsameres Tempo als normal ein.
Lautstärkeregelung Erhöhen Sie die Lautstärke der Ausgabe um bis zu 16 dB oder verringern Sie die Lautstärke um bis zu -96 dB.
Integrierte REST und gRPC APIs Einfache Einbindung in alle Anwendungen oder Geräte, die eine REST- oder gRPC-Anfrage senden können. Dazu zählen Smartphones, PCs, Tablets und IoT-Geräte wie Autos, Fernseher oder Lautsprecher.
Flexibilität im Audioformat Konvertieren Sie Text in MP3, Linear16, OGG Opus und eine Reihe anderer Audioformate.
Audioprofile Optimieren Sie Audioprofile für das Gerät, über das die Audiodatei ausgegeben werden soll, z. B. Kopfhörer oder Telefonleitungen.

Preise

Preise

Die Kosten für Text-to-Speech basieren darauf, wie viele Zeichen pro Monat zur Sprachsynthese an den Dienst gesendet werden. Die ersten eine Million Zeichen für WaveNet-Stimmen sind jeden Monat kostenlos. Für Standardstimmen (nicht WaveNet) sind die ersten vier Millionen Zeichen pro Monat kostenlos. Wenn das Kontingent der kostenlosen Stufe aufgebraucht ist, wird Text-to-Speech pro eine Million verarbeiteter Zeichen abgerechnet.

Wenn Sie nicht in US-Dollar bezahlen, gelten die Preise, die unter Google Cloud SKUs für Ihre Währung angegeben sind.