Testen Sie Gemini 3, unser bestes Modell für Schlussfolgerungen, Programmierung und multimodales Verstehen in der Gemini Enterprise Agent Platform.

Text-to-Speech

Text-to-Speech-KI

Mit einer API auf Grundlage der besten KI-Technologien von Google wandeln Sie Text in natürlich klingende Sprache um.

Neukunden erhalten ein Guthaben von bis zu 300 $, um Text-to-Speech und andere Google Cloud-Produkte auszuprobieren.

Intelligente, lebensechte Antworten mit natürlich klingenden KI-Stimmen geben
Sprachschnittstellen für Apps mit integrierter Sprachausgabe erstellen
Kommunikation und Audio je nach Nutzervorlieben für Stimme und Sprache personalisieren

Mit der Text-to-Speech API synthetische Sprache erstellen

Lab zum selbstbestimmten Lernen starten

Vorteile

High-Fidelity-Sprache

Nutzen Sie die bahnbrechenden Technologien von Google, um Sprache mit menschenähnlicher Intonation zu generieren. Basierend auf der Sprachsynthese von DeepMind liefert die API Stimmen, die fast wie Menschen klingen.

Große Auswahl an Stimmen

Sie haben die Wahl zwischen mehr als 380 Stimmen in über 75 Sprachen und Varianten, darunter Mandarin, Hindi, Spanisch, Arabisch und Russisch. Wählen Sie die Stimme aus, die perfekt zu Ihren Nutzenden und Ihrer Anwendung passt.

Einzigartige Stimme

Setzen Sie an allen Kunden-Touchpoints auf eine einzigartige Stimme als Wiedererkennungseffekt für Ihr Unternehmen, anstatt eine gängige Stimme zu verwenden, die auch von anderen Organisationen genutzt wird.

Demo

Text-to-Speech in Aktion

Geben Sie einen Text ein, wählen Sie eine Sprache aus und klicken Sie auf „Speak It“, um ihn anzuhören.

Wichtige Features

Gemini-TTS

Sie können für kurze Sprach-Snippets bis hin zu langen Gesprächen mit einer oder mehreren Personen alle Inhalte synthetisieren und dabei den Kontext beibehalten. Stil, Akzent, Tempo, Ton und emotionaler Ausdruck lassen sich präzise festlegen – alles über einfache Prompts in natürlicher Sprache in über 75 Sprachen. Weitere Informationen finden Sie im Media Studio oder in unserer Dokumentation.

Chirp 3: HD-Stimmen

Nutzen Sie die neuesten spontanen AudioLM-basierten Konversationsstimmen, um einen attraktiven Kundenservice anzubieten. Diese Stimmen bieten Audio in hoher Qualität, Streaming mit geringer Latenz und natürlich klingende Sprache, einschließlich Unflüssigkeiten, emotionaler Bandbreite und genauer Intonation. Weitere Informationen finden Sie im Media Studio oder in unserer Dokumentation.

Chirp 3: Instant-Custom Voice

Erstellen Sie personalisierte Sprachmodelle mit Audioeingaben von nur zehn Sekunden Länge. Perfekt für Videospiele, Hörbücher, Podcasts und mehr. In über 30 Sprachen verfügbar. Weitere Informationen finden Sie im Media Studio oder in unserer Dokumentation.

Unterstützung von Prompts, Text und SSML

Sie können, je nach unterstütztem Modell, Zahlen- und Zeitformat, Bereitstellung, Aussprache und Emotionen anhand von einfachem Klartext-Scripting, SSML-Tags oder sogar leistungsstarken Prompts in natürlicher Sprache steuern. Weitere Informationen finden Sie im Media Studio oder in unserer Dokumentation.

Das ist neu

Melden Sie sich für die Google Cloud-Newsletter an – so erhalten Sie regelmäßig Produktupdates, Veranstaltungsinformationen, Angebote und mehr.

Vektorgrafik mit Menschen, die „Hallo“ in verschiedenen Sprachen sagen

Blog post

Google Cloud Text-to-Speech API now supports custom voicesBlog lesen

Person hält ein Smartphone und zeigt ein mit Text-to-Speech erstelltes Hörbuch

Video

How to convert PDFs to audiobooks with machine learningVideo ansehen

Skizze zur Demonstration einer KI-gestützten Unterhaltung mit Contact Center AI

Blog post

Conversational AI drives better customer experiencesBlog lesen

Frau hält Mobiltelefon vor sich und spricht hinein

Video

Solving for accessible phone calls with Speech-to-Text and Text-to-SpeechVideo ansehen

Bildunterschrift „Cloud Text-to-Speech-Sprachen und -Stimmen” über 32 Flaggen verschiedener Länder

Blog post

Neue Stimmen und Sprachen für Text-to-SpeechBlog lesen

Dokumentation

Quickstart