Testen Sie Gemini 2.5, unser neuestes Modell mit niedriger Latenz und verbesserter Leistung.

Text-to-Speech

Text-to-Speech-KI

Mit einer API auf Grundlage der besten KI-Technologien von Google wandeln Sie Text in natürlich klingende Sprache um.

Neukunden erhalten ein Guthaben von bis zu 300 $, um Text-to-Speech und andere Google Cloud-Produkte auszuprobieren.

Kundeninteraktionen mit intelligenten, lebensechten Antworten verbessern
Mit stimmlicher Benutzeroberfläche in Ihren Geräten und Anwendungen Nutzer ansprechen
Kommunikation je nach Nutzervorlieben für Stimme und Sprache personalisieren

Mit der Text-to-Speech API synthetische Sprache erstellen

Lab zum selbstbestimmten Lernen starten

Vorteile

High-Fidelity-Sprache

Nutzen Sie die bahnbrechenden Technologien von Google, um Sprache mit menschenähnlicher Intonation zu generieren. Basierend auf dem Sprachsynthesewissen von DeepMind liefert die API Stimmen, die fast wie Menschen klingen.

Riesige Stimmauswahl

Sie haben die Wahl zwischen mehr als 380 Stimmen in über 50 Sprachen und Varianten, einschließlich Mandarin, Hindi, Spanisch, Arabisch und Russisch. Wählen Sie die Stimme aus, die perfekt zu Ihren Nutzern und Ihrer Anwendung passt.

Einzigartige Stimme

Setzen Sie an allen Kunden-Touchpoints auf eine einzigartige Stimme als Wiedererkennungseffekt für Ihr Unternehmen, anstatt eine gängige Stimme zu verwenden, die auch von anderen Organisationen genutzt wird.

Demo

Text-to-Speech in Aktion

Geben Sie Ihren Text ein, wählen Sie eine Sprache aus und klicken Sie auf „Speak It“, um ihn anzuhören.

Wichtige Features

Chirp 3: HD-Stimmen

Nutzen Sie die neuesten spontanen Konversationsstimmen auf der Grundlage von AudioLM, um einen attraktiven Kundenservice anzubieten. Diese Stimmen bieten Audio in hoher Qualität, Streaming mit geringer Latenz und natürlich klingende Sprache, einschließlich Unflüssigkeiten und genauer Intonation.

Stimmen in Studioqualität

Beeindrucken Sie Ihre Zuhörer mit professionell produzierten Inhalten, die in Studioqualität aufgenommen wurden.

Jetzt können Sie auch Dialoge mit mehreren Sprechern erstellen und so besonders interaktive Szenarien gestalten.

Neural2-Stimmen

Erreichen Sie auch internationale Nutzer dank vorgefertigter Stimmen, die auf der neuesten Forschung hinter Custom Voice basieren.

Instant-Custom Voice

Erstellen Sie personalisierte Sprachmodelle mit Audioeingaben von nur 10 Sekunden Länge. Zum Vorabzugriff

Unterstützung von Text und SSML

Passen Sie die Sprachausgabe mithilfe von SSML-Tags an, um Pausen, Zahlen, Formatierungen von Datum und Uhrzeit sowie andere Anweisungen für die Aussprache hinzuzufügen.

Das ist neu

Melden Sie sich für die Google Cloud-Newsletter an – so erhalten Sie regelmäßig Produktupdates, Veranstaltungsinformationen, Sonderangebote und mehr.

Vektorgrafik mit Menschen, die „Hallo“ in verschiedenen Sprachen sagen

Blog post

Google Cloud Text-to-Speech API now supports custom voicesBlog lesen

Person hält ein Smartphone und zeigt ein mit Text-to-Speech erstelltes Hörbuch

Video

How to convert PDFs to audiobooks with machine learningVideo ansehen

Skizze zur Demonstration einer KI-gesteuerten Unterhaltung mit Contact Center AI

Blog post

Conversational AI drives better customer experiencesBlog lesen

Frau hält Mobiltelefon vor sich und spricht hinein

Video

Solving for accessible phone callsVideo ansehen

Bildunterschrift „Cloud Text-to-Speech-Sprachen und -Stimmen” über 32 Flaggen verschiedener Länder

Blog post

Neue Stimmen und Sprachen in Text-to-SpeechBlog lesen

Dokumentation

Google Cloud Basics

Text-to-Speech – Grundlagen

Ein Leitfaden mit den grundlegenden Konzepten zur Verwendung der Text-to-Speech API.

Quickstart

Kurzanleitung: Befehlszeile verwenden

In dieser Kurzanleitung richten Sie Ihr Google Cloud-Projekt und die Autorisierung ein. Dann erstellen Sie eine Anfrage über die Text-to-Speech API, mit der Sie Audioinhalte aus Text generieren.

Google Cloud Basics

Unterstützte Stimmen und Sprachen

Sehen Sie sich Anleitungen und Ressourcen für dieses Produkt an.

Google Cloud Basics

Übersicht über Instant-Custom Voice

Hier erfahren Sie, wie Sie mit einer 10-sekündigen Audioaufnahme eine benutzerdefinierte Stimme erstellen können.

Tutorial

WaveNet und andere synthetische Stimmen

Hier erfahren Sie mehr über die in Text-to-Speech verfügbaren synthetischen Stimmen, einschließlich der Premiumstimmen von WaveNet.

Tutorial

Adressen mit SSML sprechen

In diesem Tutorial wird gezeigt, wie Speech Synthesis Markup Language (SSML) zur Sprachausgabe einer Textdatei mit Adressen verwendet wird.

Suchen Sie nach etwas anderem?

Versionshinweise

Informationen zu den neuesten Versionen von Text-to-Speech

Anwendungsfälle

Anwendungsfall

Sprach-Bots im Callcenter

Mithilfe von Sprach-Bots in Dialogflow können Sie die Sprachfunktionen im Kundenservice natürlicher gestalten, indem Sie Sprache dynamisch generieren, anstatt statische, vorab erstellte Audioaufnahmen abzuspielen. Begeistern Sie mit qualitativ hochwertigen, synthetischen Stimmen, die Anrufern ein vertrautes und persönliches Gefühl geben.

Anwendungsfall

Stimmgenerierung in Geräten

Sorgen Sie für eine natürlich klingende Kommunikation mit Ihren Nutzern, indem Sie Ihren Geräten mit einem Text-Reader eine menschliche Stimmen verleihen. Mit Speech-to-Text und Natural Language stellen Sie eine umfassende sprachgesteuerte Benutzeroberfläche bereit und bieten Ihren Nutzern einfache und natürliche Interaktionen.

Anwendungsfall

Barrierefreie EPGs (Electronic Program Guides)

Lassen Sie die EPGs ganz einfach Text vorlesen, um Ihren Kunden ein besseres User Experience zu bieten und die Anforderungen an die Barrierefreiheit Ihrer Dienste und Anwendungen zu erfüllen. Testen Sie die EPG-Demoversion.

Implementieren Sie die Sprachausgabe-Funktion in EPGs, um die Nutzerfreundlichkeit zu verbessern und die Anforderungen an die Barrierefreiheit Ihrer Dienste und Anwendungen zu erfüllen.

Lösung erstellen

Welches Problem möchten Sie lösen?

What you'll get:

Detaillierte Anleitung

Referenzarchitektur

Vorkonfigurierte Lösungen

Dieser Dienst wurde mit Vertex AI erstellt. Nutzer müssen mindestens 18 Jahre alt sein, um ihn verwenden zu können. Geben Sie keine vertraulichen oder personenbezogenen Daten ein.

Alle Features

Instant-Custom Voice	Erstellen Sie anhand eigener Audioaufnahmen personalisierte Sprachmodelle, mit denen Sie eine natürlich klingende Stimme eigens für Ihr Unternehmen entwickeln können. Mit dem Tool lassen sich schnell personalisierte Stimmen generieren, die dann mit der Cloud TTS API zur Audiosynthese verwendet werden können. Dabei werden sowohl Streaming als auch lange Texte unterstützt. Weitere Informationen
Lange Audiosynthese	Mit der langen Audiosynthese werden bis zu 1 Million Byte an Eingaben asynchron synthetisiert.
Stimm- und Sprachauswahl	Wählen Sie aus mehr als 220 Stimmen in über 40 Sprachen und Varianten. Weitere folgen demnächst.
WaveNet-Stimmen	Profitieren Sie von mehr als 90 WaveNet-Stimmen, die auf der bahnbrechenden Forschung von DeepMind basieren, und generieren Sie Sprache, bei der kaum noch ein Unterschied zum Menschen festzustellen ist.
Unterstützung von Text und SSML	Passen Sie die Sprachausgabe mithilfe von SSML-Tags an, um Pausen, Zahlen, Formatierungen von Datum und Uhrzeit sowie andere Anweisungen für die Aussprache hinzuzufügen.
Einstellung der Tonlage	Passen Sie die Tonlage Ihrer ausgewählten Stimme um bis zu 20 Halbtöne über oder unter der Standardausgabe an.
Einstellung der Sprechgeschwindigkeit	Stellen Sie die Sprechgeschwindigkeit auf bis zu viermal höheres oder niedrigeres Tempo als normal ein.
Lautstärkeregelung	Erhöhen Sie die Lautstärke der Ausgabe um bis zu 16 dB oder verringern Sie die Lautstärke um bis zu -96 dB.
Integrierte REST und gRPC APIs	Einfache Einbindung in alle Anwendungen oder Geräte, die eine REST- oder gRPC-Anfrage senden können. Dazu zählen Smartphones, PCs, Tablets und IoT-Geräte wie Autos, Fernseher oder Lautsprecher.
Flexibilität im Audioformat	Konvertieren Sie Text in MP3, Linear16, OGG Opus und eine Reihe anderer Audioformate.
Audioprofile	Optimieren Sie Audioprofile für das Gerät, über das die Audiodatei ausgegeben werden soll, z. B. Kopfhörer oder Telefonleitungen.

Preise

Die Kosten für Text-to-Speech basieren darauf, wie viele Zeichen pro Monat zur Sprachsynthese an den Dienst gesendet werden. Die ersten eine Million Zeichen für WaveNet-Stimmen sind jeden Monat kostenlos. Für Standardstimmen (nicht WaveNet) sind die ersten vier Millionen Zeichen pro Monat kostenlos. Wenn das Kontingent der kostenlosen Stufe aufgebraucht ist, wird Text-to-Speech pro eine Million verarbeiteter Zeichen abgerechnet.

Wenn Sie nicht in US-Dollar bezahlen, gelten die Preise, die unter Google Cloud SKUs für Ihre Währung angegeben sind.

Gleich loslegen

Neukunden erhalten ein Guthaben von 300 $, um Text-to-Speech und weitere Google Cloud-Produkte auszuprobieren.

Benötigen Sie Hilfe beim Einstieg?
Vertrieb kontaktieren
Mit einem zertifizierten Partner arbeiten
Partner finden
Mehr ansehen
Alle Produkte ansehen

Text-to-Speech-KI

High-Fidelity-Sprache

Riesige Stimmauswahl

Einzigartige Stimme

Text-to-Speech in Aktion

Wichtige Features

Chirp 3: HD-Stimmen

Stimmen in Studioqualität

Neural2-Stimmen

Instant-Custom Voice

Unterstützung von Text und SSML

Das ist neu

Dokumentation

Text-to-Speech – Grundlagen

Kurzanleitung: Befehlszeile verwenden

Unterstützte Stimmen und Sprachen

Übersicht über Instant-Custom Voice

WaveNet und andere synthetische Stimmen

Adressen mit SSML sprechen

Suchen Sie nach etwas anderem?

Weitere Dokumente ansehen

Anwendungsfälle

Sprach-Bots im Callcenter

Stimmgenerierung in Geräten

Barrierefreie EPGs (Electronic Program Guides)

Alle Features

Preise

Gleich loslegen

Benötigen Sie Hilfe beim Einstieg?

Mit einem zertifizierten Partner arbeiten

Mehr ansehen