Gemini-TTS ist die neueste Entwicklung unserer Text-to-Speech-Technologie. Sie geht über die reine Natürlichkeit hinaus und ermöglicht eine detaillierte Steuerung der generierten Audioausgabe mithilfe von textbasierten Prompts. Mit Gemini-TTS können Sie Sprache aus kurzen Snippets bis hin zu langen Erzählungen synthetisieren. Dabei lassen sich Stil, Akzent, Tempo, Ton und sogar emotionaler Ausdruck präzise festlegen – alles über Prompts in natürlicher Sprache.
Gemini-TTS-Funktionen werden von Folgendem unterstützt:
gemini-2.5-flash-preview-tts
: Gemini 2.5 Flash (Vorabversion) eignet sich gut für kostengünstige Alltagsanwendungen.gemini-2.5-pro-preview-tts
: Gemini 2.5 Pro (Vorschau) eignet sich gut für die kontrollierbare Sprachgenerierung (TTS) und für die hochwertige Bearbeitung komplexer Prompts.
Modell | Optimiert für | Eingabemodalität | Ausgabemodalität | Einzelner Sprecher |
---|---|---|---|---|
Gemini 2.5 Flash Preview TTS | Kostengünstige Audio-Generierung mit geringer Latenz und Steuerungsmöglichkeiten für Text-to-Speech mit einem oder mehreren Sprechern für alltägliche Anwendungen | Text | Audio | ✔️ |
Gemini 2.5 Pro Preview TTS | Hohe Kontrolle für strukturierte Workflows wie Podcast-Generierung, Hörbücher, Kundensupport und mehr | Text | Audio | ✔️ |
Zusätzliche Einstellungen und Funktionen:
Natürliche Unterhaltung: Sprachinteraktionen von bemerkenswerter Qualität, angemessener Ausdruck und Prosodie (Rhythmusmuster) werden mit sehr geringer Latenz bereitgestellt, sodass Sie sich flüssig unterhalten können.
Stilkontrolle: Mit Prompts in natürlicher Sprache können Sie die Art der Kommunikation im Gespräch anpassen, indem Sie bestimmte Akzente vorgeben und eine Reihe von Tönen und Ausdrücken erzeugen, einschließlich eines Flüstertons.
Dynamische Leistung: Diese Modelle können Text zum Leben erwecken und so für ausdrucksstarke Lesungen von Gedichten, Nachrichten und fesselndes Storytelling sorgen. Sie können auch mit bestimmten Emotionen sprechen und auf Wunsch Akzente setzen.
Erweiterte Steuerung von Tempo und Aussprache: Durch die Steuerung der Wiedergabegeschwindigkeit wird die Genauigkeit der Aussprache, auch bei bestimmten Wörtern, verbessert.
Beispiele
model: "gemini-2.5-pro-preview-tts" prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way." text: "hahah I did NOT expect that. Can you believe it!." speaker: "Callirhoe"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following in a curious way" text: "OK, so... tell me about this [uhm] AI thing.", speaker: "Orus"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following" text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions." speaker: "Kore"
Weitere Informationen zur programmatischen Verwendung dieser Stimmen finden Sie im Abschnitt Gemini-TTS verwenden.
Sprachoptionen
Gemini-TTS bietet eine Vielzahl von Sprachoptionen, die unseren bestehenden HD-Stimmen von Chirp 3 ähneln, aber jeweils eigene Merkmale haben:
Name | Geschlecht | Demo |
---|---|---|
Achernar | Weiblich | |
Achird | Männlich | |
Algenib | Männlich | |
Algieba | Männlich | |
Alnilam | Männlich | |
Aoede | Weiblich | |
Autonoe | Weiblich | |
Callirrhoe | Weiblich | |
Charon | Männlich | |
Despina | Weiblich | |
Enceladus | Männlich | |
Erinome | Weiblich | |
Fenrir | Männlich | |
Gacrux | Weiblich | |
Iapetus | Männlich | |
Kore | Weiblich | |
Laomedeia | Weiblich | |
Leda | Weiblich | |
Orus | Männlich | |
Pulcherrima | Weiblich | |
Puck | Männlich | |
Rasalgethi | Männlich | |
Sadachbia | Männlich | |
Sadaltager | Männlich | |
Schedar | Männlich | |
Sulafat | Weiblich | |
Umbriel | Männlich | |
Vindemiatrix | Weiblich | |
Zephyr | Weiblich | |
Zubenelgenubi | Männlich |
Verfügbare Sprachen
Gemini-TTS bietet eine Vielzahl von Sprachoptionen, die unseren bestehenden HD-Stimmen von Chirp 3 ähneln, aber jeweils eigene Merkmale haben:
Sprache | BCP-47-Code |
---|---|
Englisch (USA) | en-US |
Regionale Verfügbarkeit
Gemini-TTS-Modelle sind in den folgenden Google Cloud Regionen verfügbar:
Google Cloud Zone | Einführungsreife |
---|---|
global |
Öffentliche Vorschau |
Unterstützte Ausgabeformate
Das Standardantwortformat ist LINEAR16
. Weitere unterstützte Formate sind:
API-Methode | Format |
---|---|
batch |
ALAW, MULAW, MP3, OGG_OPUS und PCM |
Gemini-TTS verwenden
Hier erfahren Sie, wie Sie Gemini-TTS-Modelle verwenden, um Sprache von einer einzelnen Person zu synthetisieren.
Synchrone Sprachsyntheseanfrage stellen
Python
# google-cloud-texttospeech minimum version 2.29.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize(prompt: str, text: str, model_name: str, output_filepath: str = "output.mp3"):
"""Synthesizes speech from the input text and saves it to an MP3 file.
Args:
prompt: Stylisting instructions on how to synthesize the content in
the text field.
text: The text to synthesize.
model_name: Gemini model to use. Currently, the available models are
gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
output_filepath: The path to save the generated audio file.
Defaults to "output.mp3".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
# Select the voice you want to use.
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="Charon", # Example voice, adjust as needed
model_name=model_name
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type.
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# Currently, the available models are gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following in a curious way",
"text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
"languageCode": "en-us",
"name": "Kore",
"model_name": "gemini-2.5-flash-preview-tts"
},
"audioConfig": {
"audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit