Testen Sie Gemini 3, unser bestes Modell für Schlussfolgerungen, Programmierung und multimodales Verstehen in der Gemini Enterprise Agent Platform.

Text-to-Speech

Text-to-Speech-KI

Mit einer API auf Grundlage der besten KI-Technologien von Google wandeln Sie Text in natürlich klingende Sprache um.

Neukundinnen und Neukunden erhalten ein Guthaben von bis zu 300 $, um Text-to-Speech und andere Google Cloud-Produkte auszuprobieren.

Intelligente, lebensechte Antworten mit natürlich klingenden KI-Stimmen geben
Sprachschnittstellen für Apps mit integrierter Sprachausgabe erstellen
Kommunikation und Audio je nach Nutzervorlieben für Stimme und Sprache personalisieren

Mit der Text-to-Speech API synthetische Sprache erstellen

Lab zum selbstbestimmten Lernen starten

Vorteile

High-Fidelity-Sprache

Nutzen Sie die bahnbrechenden Technologien von Google, um Sprache mit menschenähnlicher Intonation zu generieren. Basierend auf der Sprachsynthese von DeepMind liefert die API Stimmen, die fast wie Menschen klingen.

Große Auswahl an Stimmen

Sie haben die Wahl zwischen mehr als 380 Stimmen in über 75 Sprachen und Varianten, darunter Mandarin, Hindi, Spanisch, Arabisch und Russisch. Wählen Sie die Stimme aus, die perfekt zu Ihren Nutzerinnen und Nutzern und Ihrer Anwendung passt.

Einzigartige Stimme

Setzen Sie an allen Kunden-Touchpoints auf eine einzigartige Stimme als Wiedererkennungseffekt für Ihr Unternehmen, anstatt eine gängige Stimme zu verwenden, die auch von anderen Organisationen genutzt wird.

Demo

Text-to-Speech in Aktion

Geben Sie einen Text ein, wählen Sie eine Sprache aus und klicken Sie auf „Speak It“, um ihn anzuhören.

Wichtige Features

Gemini-TTS

Sie können für kurze Sprach-Snippets bis hin zu langen Gesprächen mit einer oder mehreren Personen alle Inhalte synthetisieren und dabei den Kontext beibehalten. Stil, Akzent, Tempo, Ton und emotionaler Ausdruck lassen sich präzise festlegen – alles über einfache Prompts in natürlicher Sprache in über 75 Sprachen. Weitere Informationen finden Sie im Media Studio oder in unserer Dokumentation.

Chirp 3: HD-Stimmen

Nutzen Sie die neuesten spontanen AudioLM-basierten Konversationsstimmen, um einen attraktiven Kundenservice anzubieten. Diese Stimmen liefern Audio in hoher Qualität, Streaming mit geringer Latenz und natürlich klingende Sprache, einschließlich Unflüssigkeiten, emotionaler Bandbreite und genauer Intonation. Weitere Informationen finden Sie im Media Studio oder in unserer Dokumentation.

Chirp 3: Instant-Custom Voice

Erstellen Sie personalisierte Sprachmodelle mit Audioeingaben von nur zehn Sekunden Länge. Perfekt für Videospiele, Hörbücher, Podcasts und mehr. In über 30 Sprachen verfügbar. Weitere Informationen finden Sie im Media Studio oder in unserer Dokumentation.

Unterstützung von Prompts, Text und SSML

Sie können, je nach unterstütztem Modell, Zahlen- und Zeitformat, Bereitstellung, Aussprache und Emotionen anhand von einfachem Klartext-Scripting, SSML-Tags oder sogar leistungsstarken Prompts in natürlicher Sprache steuern. Weitere Informationen finden Sie im Media Studio oder in unserer Dokumentation.

Das ist neu

Melden Sie sich für die Google Cloud-Newsletter an – so erhalten Sie regelmäßig Produktupdates, Veranstaltungsinformationen, Sonderangebote und mehr.

Vektorgrafik mit Menschen, die „Hallo“ in verschiedenen Sprachen sagen

Blog post

Google Cloud Text-to-Speech API now supports custom voicesBlog lesen

Person hält ein Smartphone und zeigt ein mit Text-to-Speech erstelltes Hörbuch

Video

PDF-Dateien mithilfe von maschinellem Lernen in Hörbücher umwandelnVideo ansehen

Skizze zur Demonstration einer KI-gestützten Unterhaltung mit Contact Center AI

Blog post

Conversational AI drives better customer experiencesBlog lesen

Frau hält Mobiltelefon vor sich und spricht hinein

Video

Barrierefreie Telefonate dank Sprach-zu-Text- und Text-zu-Sprache-FunktionenVideo ansehen

Bildunterschrift „Cloud Text-to-Speech-Sprachen und -Stimmen” über 32 Flaggen verschiedener Länder

Blog post

Neue Stimmen und Sprachen für Text-to-SpeechBlog lesen

Dokumentation

Quickstart

Gemini-TTS

Hier erfahren Sie, wie Sie mit Gemini-TTS die Sprachsynthese präzise steuern können, indem Sie mit Prompts in natürlicher Sprache Stil, Ton, Tempo und emotionalen Ausdruck festlegen.

Quickstart

Chirp 3: HD-Stimmen – Übersicht

Hier erfahren Sie, wie Sie mit Chirp 3: HD-Stimmen realistische, emotional ansprechende Sprache synthetisieren und das Audio mit erweiterten Einstellungen und Best Practices für das Scripting optimieren können.

Quickstart

Chirp 3: Instant-Custom Voice

Mit nur zehn Sekunden langen Audioaufnahmen können Sie einzigartige, unternehmensspezifische Sprachmodelle erstellen. So lassen sich schnell personalisierte Stimmen generieren.

Tutorial

Adressen mit SSML aussprechen lassen

Hier erfahren Sie, wie Sie mit Speech Synthesis Markup Language (SSML) aus einer Textdatei mit Adressen eine Sprachausgabe erhalten.

Google Cloud Basics

Grundlagen von Text-to-Speech

Ein Leitfaden mit den grundlegenden Konzepten zur Verwendung der Text-to-Speech API.

Google Cloud Basics

Unterstützte Stimmen und Sprachen

Sehen Sie sich Anleitungen und Ressourcen für dieses Produkt an.

Suchen Sie nach etwas anderem?

Versionshinweise

Informationen zu den neuesten Versionen von Text-to-Speech

Anwendungsfälle

Anwendungsfall

Sprachbots im Callcenter

Mithilfe von Sprachbots in Customer Experience Agent Studio können Sie die Sprachfunktionen im Kundenservice natürlicher gestalten, indem Sie Sprache dynamisch generieren, anstatt statische, vorab erstellte Audioaufnahmen abzuspielen. Begeistern Sie mit qualitativ hochwertigen, synthetischen Stimmen, die Anrufenden ein vertrautes und persönliches Gefühl geben.

Flow der Google Cloud Speech-to-Text API

Anwendungsfall

Stimmgenerierung für Geräte

Sorgen Sie für eine natürlich klingende Kommunikation mit Nutzerinnen und Nutzern, indem Sie Geräten mit einem Text-Reader eine menschliche Stimme verleihen. Mit Speech-to-Text und Natural Language stellen Sie eine umfassende sprachgesteuerte Benutzeroberfläche bereit und bieten so einfache und natürliche Interaktionen.

Spracheingabe auf Geräten und bei IoT-Workflows

Anwendungsfall

Barrierefreie EPGs (Electronic Program Guides)

Lassen Sie die EPGs ganz einfach Text vorlesen, um eine bessere User Experience zu bieten und die Anforderungen an die Barrierefreiheit Ihrer Dienste und Anwendungen zu erfüllen. EPG-Demoversion testen

Implementieren Sie Text-zu-Sprache in EPGs, um die Nutzerfreundlichkeit zu verbessern und die Anforderungen an die Barrierefreiheit Ihrer Dienste und Anwendungen zu erfüllen.

Alle Features

Streaming-Audiosynthese	Mit Streaming-Audiosynthese können Sie KI-Agenten Sprache verleihen für Unterhaltungen in Echtzeit mit extrem niedriger Latenz.
Synthese von Audioinhalten im Langformat	Mit der Synthese von Audioinhalten im Langformat können Sie bis zu 1 Million Byte asynchron synthetisieren.
Stimm- und Sprachauswahl	Sie können aus mehr als 380 Stimmen in über 75 Sprachen und Varianten wählen. Weitere folgen demnächst.
Unterstützung von Text und SSML	Sie können die Sprachausgabe mithilfe von SSML-Tags anpassen, um Pausen, Zahlen, Datums- und Uhrzeitformate sowie andere Anweisungen für die Aussprache hinzuzufügen.
Einstellung der Tonlage	Sie können die Tonlage Ihrer ausgewählten Stimme bezogen auf die Standardausgabe um bis zu 20 Halbtöne erhöhen oder senken.
Einstellung der Sprechgeschwindigkeit	Sie können die Sprechgeschwindigkeit auf bis zu viermal höheres oder niedrigeres Tempo als normal einstellen.
Lautstärkeregelung	Sie können die Ausgabelautstärke um bis zu 16 dB erhöhen oder um bis zu -96 dB verringern.
Integrierte REST API und gRPC API	Die Einbindung in alle Anwendungen oder Geräte, die REST- oder gRPC-Anfragen senden können, zum Beispiel Smartphones, PCs, Tablets und IoT-Geräte wie Autos, Fernseher oder Lautsprecher ist ganz einfach.
Flexibles Audioformat	Sie können Text in MP3, Linear16, OGG Opus und andere Audioformate konvertieren.
Audioprofile	Sie können Audioprofile für die Art von Lautsprecher optimieren, mit der die Audiodatei wiedergegeben werden soll, wie Kopfhörer oder Telefonleitungen.

Preise

Die Kosten für Text-to-Speech basieren darauf, wie viele Zeichen pro Monat zur Sprachsynthese an den Dienst gesendet werden. Die ersten eine Million Zeichen für WaveNet-Stimmen sind jeden Monat kostenlos. Für Standardstimmen (nicht WaveNet) sind die ersten vier Millionen Zeichen pro Monat kostenlos. Wenn das Kontingent der kostenlosen Stufe aufgebraucht ist, wird Text-to-Speech pro eine Million verarbeiteter Zeichen abgerechnet.

Wenn Sie nicht in US-Dollar bezahlen, gelten die Preise, die unter Google Cloud SKUs für Ihre Währung angegeben sind.

Gleich loslegen

Neukundinnen und Neukunden erhalten ein Startguthaben von 300 $, um Text-to-Speech und andere Google Cloud-Produkte selbst auszuprobieren.

Benötigen Sie Hilfe beim Einstieg?
Vertrieb kontaktieren
Mit einem zertifizierten Partnerunternehmen arbeiten
Partner finden
Mehr entdecken
Alle Produkte ansehen

Text-to-Speech-KI

High-Fidelity-Sprache

Große Auswahl an Stimmen

Einzigartige Stimme

Text-to-Speech in Aktion

Wichtige Features

Gemini-TTS

Chirp 3: HD-Stimmen

Chirp 3: Instant-Custom Voice

Unterstützung von Prompts, Text und SSML

Das ist neu

Dokumentation

Gemini-TTS

Chirp 3: HD-Stimmen – Übersicht

Chirp 3: Instant-Custom Voice

Adressen mit SSML aussprechen lassen

Grundlagen von Text-to-Speech

Unterstützte Stimmen und Sprachen

Suchen Sie nach etwas anderem?

Weitere Dokumente ansehen

Anwendungsfälle

Sprachbots im Callcenter

Stimmgenerierung für Geräte

Barrierefreie EPGs (Electronic Program Guides)

Alle Features

Preise

Gleich loslegen

Benötigen Sie Hilfe beim Einstieg?

Mit einem zertifizierten Partnerunternehmen arbeiten

Mehr entdecken