Gemini-TTS

Gemini-TTS ist die neueste Entwicklung unserer Text-to-Speech-Technologie. Sie geht über die reine Natürlichkeit hinaus und ermöglicht eine detaillierte Steuerung der generierten Audioausgabe mithilfe von textbasierten Prompts. Mit Gemini-TTS können Sie Sprache aus kurzen Snippets bis hin zu langen Erzählungen synthetisieren. Dabei lassen sich Stil, Akzent, Tempo, Ton und sogar emotionaler Ausdruck präzise festlegen – alles über Prompts in natürlicher Sprache.

Gemini-TTS-Funktionen werden von Folgendem unterstützt:

  • gemini-2.5-flash-preview-tts: Gemini 2.5 Flash (Vorabversion) eignet sich gut für kostengünstige Alltagsanwendungen.

  • gemini-2.5-pro-preview-tts: Gemini 2.5 Pro (Vorschau) eignet sich gut für die kontrollierbare Sprachgenerierung (TTS) und für die hochwertige Bearbeitung komplexer Prompts.

Modell Optimiert für Eingabemodalität Ausgabemodalität Einzelner Sprecher
Gemini 2.5 Flash Preview TTS Kostengünstige Audio-Generierung mit geringer Latenz und Steuerungsmöglichkeiten für Text-to-Speech mit einem oder mehreren Sprechern für alltägliche Anwendungen Text Audio ✔️
Gemini 2.5 Pro Preview TTS Hohe Kontrolle für strukturierte Workflows wie Podcast-Generierung, Hörbücher, Kundensupport und mehr Text Audio ✔️

Zusätzliche Einstellungen und Funktionen:

  1. Natürliche Unterhaltung: Sprachinteraktionen von bemerkenswerter Qualität, angemessener Ausdruck und Prosodie (Rhythmusmuster) werden mit sehr geringer Latenz bereitgestellt, sodass Sie sich flüssig unterhalten können.

  2. Stilkontrolle: Mit Prompts in natürlicher Sprache können Sie die Art der Kommunikation im Gespräch anpassen, indem Sie bestimmte Akzente vorgeben und eine Reihe von Tönen und Ausdrücken erzeugen, einschließlich eines Flüstertons.

  3. Dynamische Leistung: Diese Modelle können Text zum Leben erwecken und so für ausdrucksstarke Lesungen von Gedichten, Nachrichten und fesselndes Storytelling sorgen. Sie können auch mit bestimmten Emotionen sprechen und auf Wunsch Akzente setzen.

  4. Erweiterte Steuerung von Tempo und Aussprache: Durch die Steuerung der Wiedergabegeschwindigkeit wird die Genauigkeit der Aussprache, auch bei bestimmten Wörtern, verbessert.

Beispiele

model: "gemini-2.5-pro-preview-tts"
prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirhoe"

model: "gemini-2.5-flash-preview-tts"
prompt: "Say the following in a curious way"
text: "OK, so... tell me about this [uhm] AI thing.",
speaker: "Orus"

model: "gemini-2.5-flash-preview-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions."
speaker: "Kore"

Weitere Informationen zur programmatischen Verwendung dieser Stimmen finden Sie im Abschnitt Gemini-TTS verwenden.

Sprachoptionen

Gemini-TTS bietet eine Vielzahl von Sprachoptionen, die unseren bestehenden HD-Stimmen von Chirp 3 ähneln, aber jeweils eigene Merkmale haben:

Name Geschlecht Demo
Achernar Weiblich
Achird Männlich
Algenib Männlich
Algieba Männlich
Alnilam Männlich
Aoede Weiblich
Autonoe Weiblich
Callirrhoe Weiblich
Charon Männlich
Despina Weiblich
Enceladus Männlich
Erinome Weiblich
Fenrir Männlich
Gacrux Weiblich
Iapetus Männlich
Kore Weiblich
Laomedeia Weiblich
Leda Weiblich
Orus Männlich
Pulcherrima Weiblich
Puck Männlich
Rasalgethi Männlich
Sadachbia Männlich
Sadaltager Männlich
Schedar Männlich
Sulafat Weiblich
Umbriel Männlich
Vindemiatrix Weiblich
Zephyr Weiblich
Zubenelgenubi Männlich

Verfügbare Sprachen

Gemini-TTS bietet eine Vielzahl von Sprachoptionen, die unseren bestehenden HD-Stimmen von Chirp 3 ähneln, aber jeweils eigene Merkmale haben:

Sprache BCP-47-Code
Englisch (USA) en-US

Regionale Verfügbarkeit

Gemini-TTS-Modelle sind in den folgenden Google Cloud Regionen verfügbar:

Google Cloud Zone Einführungsreife
global Öffentliche Vorschau

Unterstützte Ausgabeformate

Das Standardantwortformat ist LINEAR16. Weitere unterstützte Formate sind:

API-Methode Format
batch ALAW, MULAW, MP3, OGG_OPUS und PCM

Gemini-TTS verwenden

Hier erfahren Sie, wie Sie Gemini-TTS-Modelle verwenden, um Sprache von einer einzelnen Person zu synthetisieren.

Synchrone Sprachsyntheseanfrage stellen

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, model_name: str, output_filepath: str = "output.mp3"):
   """Synthesizes speech from the input text and saves it to an MP3 file.

   Args:
       prompt: Stylisting instructions on how to synthesize the content in
         the text field.
       text: The text to synthesize.
       model_name: Gemini model to use. Currently, the available models are
         gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
       output_filepath: The path to save the generated audio file.
         Defaults to "output.mp3".
   """
   client = texttospeech.TextToSpeechClient()

   synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

   # Select the voice you want to use.
   voice = texttospeech.VoiceSelectionParams(
       language_code="en-US",
       name="Charon",  # Example voice, adjust as needed
       model_name=model_name
   )

   audio_config = texttospeech.AudioConfig(
       audio_encoding=texttospeech.AudioEncoding.MP3
   )

   # Perform the text-to-speech request on the text input with the selected
   # voice parameters and audio file type.
   response = client.synthesize_speech(
       input=synthesis_input, voice=voice, audio_config=audio_config
   )

   # The response's audio_content is binary.
   with open(output_filepath, "wb") as out:
       out.write(response.audio_content)
       print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# Currently, the available models are gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
  "prompt": "Say the following in a curious way",
  "text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
  "languageCode": "en-us",
  "name": "Kore",
  "model_name": "gemini-2.5-flash-preview-tts"
},
"audioConfig": {
  "audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit