Gemini-TTS

Gemini-TTS in Vertex AI Studio ausprobieren In Colab ausprobieren Notebook auf GitHub ansehen

Gemini-TTS ist die neueste Entwicklung unserer Text-to-Speech-Technologie. Sie geht über die natürliche Sprachwiedergabe hinaus und ermöglicht eine detaillierte Steuerung der generierten Audioausgabe mithilfe von textbasierten Prompts. Mit Gemini-TTS können Sie Sprache mit einem oder mehreren Sprechern von kurzen Snippets bis hin zu langen Erzählungen synthetisieren. Dabei lassen sich Stil, Akzent, Tempo, Ton und sogar emotionaler Ausdruck präzise festlegen – alles über Prompts in natürlicher Sprache.

Verfügbare Modelle

Gemini-TTS umfasst die folgenden verfügbaren Modelle:

Gemini 2.5 Flash TTS

Modell-ID	`gemini-2.5-flash-tts`
Optimiert für	Kostengünstige Audio-Generierung mit geringer Latenz und mit Steuerungsmöglichkeiten für die Sprachausgabe mit einem oder mehreren Sprechern für alltägliche Anwendungen
Eingabe- und Ausgabemodalitäten	Eingabe: Text Ausgabe: Audio
Unterstützte Sprecheranzahl	Einzelner Sprecher, mehrere Sprecher
Unterstützte Audioausgabeformate^*	`LINEAR16` (Standard), `ALAW`, `MULAW`, `MP3`, `OGG_OPUS`, `PCM`
Unterstützte Regionen	`global`
Stimmoptionen	Stimmoptionen
Verfügbare Sprachen	Verfügbare Sprachen
Beispiel	model: "gemini-2.5-flash-tts" prompt: "Say the following" text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions." speaker: "Kore"

Gemini 2.5 Pro TTS

Modell-ID	`gemini-2.5-pro-tts`
Optimiert für	Umfangreiche Kontrolle strukturierter Workflows wie Podcast-Generierung, Hörbücher, Kundensupport und mehr
Eingabe- und Ausgabemodalitäten	Eingabe: Text Ausgabe: Audio
Unterstützte Sprecheranzahl	Einzelner Sprecher, mehrere Sprecher
Unterstützte Audioausgabeformate^*	`LINEAR16` (Standard), `ALAW`, `MULAW`, `MP3`, `OGG_OPUS`, `PCM`
Unterstützte Regionen	`global`
Stimmoptionen	Stimmoptionen
Verfügbare Sprachen	Verfügbare Sprachen
Beispiel	model: "gemini-2.5-pro-tts" prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way." text: "hahah I did NOT expect that. Can you believe it!." speaker: "Callirrhoe"

^* Nur batch. streaming wird nicht unterstützt.

Weitere Einstellungen

Zusätzliche Einstellungen und Funktionen:

Natürliche Unterhaltung: Sprachinteraktionen von bemerkenswerter Qualität, angemessener Ausdruck und Rhythmusmuster werden mit äußerst geringer Latenz erzielt, sodass Sie sich flüssig unterhalten können.
Stilkontrolle: Mit Prompts in natürlicher Sprache können Sie die Art der Kommunikation im Gespräch anpassen, indem Sie bestimmte Akzente vorgeben sowie eine Reihe von Tönen und Ausdrücken generieren, einschließlich eines Flüstertons.
Dynamische Leistung: Diese Modelle können Text zum Leben erwecken und eignen sich für ausdrucksstarke Lesungen von Gedichten und Nachrichten sowie für fesselndes Storytelling. Sie können auch bestimmte Emotionen ausdrücken und auf Wunsch Akzente setzen.
Erweiterte Steuerung von Tempo und Aussprache: Durch die Steuerung der Wiedergabegeschwindigkeit wird die Genauigkeit der Aussprache, auch bei bestimmten Wörtern, verbessert.

Informationen zur Verwendung dieser Stimmen in Ihrer Anwendung finden Sie unter Gemini-TTS verwenden.

Stimmoptionen

Gemini-TTS bietet eine Vielzahl von Sprachoptionen, die unseren vorhandenen HD-Stimmen von Chirp 3 ähneln, aber jeweils eigene Merkmale haben:

Name	Geschlecht	Demo
Achernar	Weiblich
Achird	Männlich
Algenib	Männlich
Algieba	Männlich
Alnilam	Männlich
Aoede	Weiblich
Autonoe	Weiblich
Callirrhoe	Weiblich
Charon	Männlich
Despina	Weiblich
Enceladus	Männlich
Erinome	Weiblich
Fenrir	Männlich
Gacrux	Weiblich
Iapetus	Männlich
Kore	Weiblich
Laomedeia	Weiblich
Leda	Weiblich
Orus	Männlich
Pulcherrima	Weiblich
Puck	Männlich
Rasalgethi	Männlich
Sadachbia	Männlich
Sadaltager	Männlich
Schedar	Männlich
Sulafat	Weiblich
Umbriel	Männlich
Vindemiatrix	Weiblich
Zephyr	Weiblich
Zubenelgenubi	Männlich

Verfügbare Sprachen

Gemini-TTS unterstützt die folgenden Sprachen:

Sprache	BCP-47-Code	Einführungsreife
Arabisch (Ägypten)	ar-EG	GA
Niederländisch (Niederlande)	nl-NL	GA
Englisch (Indien)	en-IN	GA
Englisch (USA)	en-US	GA
Französisch (Frankreich)	fr-FR	GA
Deutsch (Deutschland)	de-DE	GA
Hindi (Indien)	hi-IN	GA
Indonesisch (Indonesien)	id-ID	GA
Italienisch (Italien)	it-IT	GA
Japanisch (Japan)	ja-JP	GA
Koreanisch (Südkorea)	ko-KR	GA
Marathi (Indien)	mr-IN	GA
Polnisch (Polen)	pl-PL	GA
Portugiesisch (Brasilien)	pt-BR	GA
Rumänisch (Rumänien)	ro-RO	GA
Russisch (Russland)	ru-RU	GA
Spanisch (Spanien)	es-ES	GA
Tamil (Indien)	ta-IN	GA
Telugu (Indien)	te-IN	GA
Thailändisch (Thailand)	th-TH	GA
Türkisch (Türkei)	tr-TR	GA
Ukrainisch (Ukraine)	uk-UA	GA
Vietnamesisch (Vietnam)	vi-VN	GA
Afrikaans (Südafrika)	af-ZA	Vorschau
Albanisch (Albanien)	sq-AL	Vorschau
Amharisch (Äthiopien)	am-ET	Vorschau
Arabisch (Welt)	ar-001	Vorschau
Armenisch (Armenien)	hy-AM	Vorschau
Aserbaidschanisch (Aserbaidschan)	az-AZ	Vorschau
Bengalisch (Bangladesch)	bn-BD	Vorschau
Baskisch (Spanien)	eu-ES	Vorschau
Belarussisch (Belarus)	be-BY	Vorschau
Bulgarisch (Bulgarien)	bg-BG	Vorschau
Burmesisch (Myanmar)	my-MM	Vorschau
Katalanisch (Spanien)	ca-ES	Vorschau
Cebuano (Philippinen)	ceb-PH	Vorschau
Chinesisch, Mandarin (China)	cmn-CN	Vorschau
Chinesisch, Mandarin (Taiwan)	cmn-tw	Vorschau
Kroatisch (Kroatien)	hr-HR	Vorschau
Tschechisch (Tschechische Republik)	cs-CZ	Vorschau
Dänisch (Dänemark)	da-DK	Vorschau
Englisch (Australien)	en-AU	Vorschau
Englisch (Vereinigtes Königreich)	de-DE	Vorschau
Estnisch (Estland)	et-EE	Vorschau
Philippinisch (Philippinen)	fil-PH	Vorschau
Finnisch (Finnland)	fi-FI	Vorschau
Französisch (Kanada)	fr-CA	Vorschau
Galizisch (Spanien)	gl-ES	Vorschau
Georgisch (Georgien)	ka-GE	Vorschau
Griechisch (Griechenland)	el-GR	Vorschau
Gujarati (Indien)	gu-IN	Vorschau
Haitianisches Kreolisch (Haiti)	ht-HT	Vorschau
Hebräisch (Israel)	he-IL	Vorschau
Ungarisch (Ungarn)	hu-HU	Vorschau
Isländisch (Island)	is-IS	Vorschau
Javanisch (Java)	jv-JV	Vorschau
Kannada (Indien)	kn-IN	Vorschau
Konkani (Indien)	kok-IN	Vorschau
Lao (Laos)	lo-LA	Vorschau
Lateinisch (Vatikanstadt)	la-VA	Vorschau
Lettisch (Lettland)	lv-LV	Vorschau
Litauisch (Litauen)	lt-LT	Vorschau
Luxemburgisch (Luxemburg)	lb-LU	Vorschau
Mazedonisch (Nordmazedonien)	mk-MK	Vorschau
Maithili (Indien)	mai-IN	Vorschau
Malagasy (Madagaskar)	mg-MG	Vorschau
Malaiisch (Malaysia)	ms-MY	Vorschau
Malayalam (Indien)	ml-IN	Vorschau
Mongolisch (Mongolei)	mn-MN	Vorschau
Nepalesisch (Nepal)	ne-NP	Vorschau
Norwegisch (Norwegen)	nb-NO	Vorschau
Norwegisch, Nynorsk (Norwegen)	nn-NO	Vorschau
Oriya (Indien)	or-IN	Vorschau
Paschtu (Afghanistan)	ps-AF	Vorschau
Persisch (Iran)	fa-IR	Vorschau
Portugiesisch (Portugal)	pt-PT	Vorschau
Panjabi (Indien)	pa-IN	Vorschau
Serbisch (Serbien)	sr-RS	Vorschau
Sindhi (Indien)	sd-IN	Vorschau
Singhalesisch (Sri Lanka)	si-LK	Vorschau
Slowakisch (Slowakei)	sk-SK	Vorschau
Slowenisch (Slowenien)	sl-SI	Vorschau
Spanisch (Lateinamerika)	es-419	Vorschau
Spanisch (Mexiko)	es-MX	Vorschau
Swahili (Kenia)	sw-KE	Vorschau
Schwedisch (Schweden)	sv-SE	Vorschau
Urdu (Pakistan)	ur-PK	Vorschau

Gemini-TTS verwenden

Hier erfahren Sie, wie Sie mit Gemini-TTS-Modellen Sprache für einen einzelnen Sprecher und für mehrere Sprecher synthetisieren.

Beschreibung	Limit	Typ
Textfeld	Weniger als oder gleich 4.000 Byte.	Eingabe
Prompt-Feld	Weniger als oder gleich 4.000 Byte.	Eingabe
Text- und Prompt-Felder	Weniger als oder gleich 8.000 Byte.	Eingabe
Dauer des Ausgabeaudios	Etwa 655 Sekunden. Wenn der Eingabetext dazu führt, dass das Audio 655 Sekunden überschreitet, wird es gekürzt.	Ausgabe

Hinweis

Bevor Sie Text-to-Speech verwenden können, müssen Sie die API in derGoogle Cloud Console aktivieren. Gehen Sie dazu so vor:

Text-to-Speech für ein Projekt aktivieren
Prüfen, ob die Abrechnung für Text-to-Speech aktiviert ist
Authentifizierung für Ihre Entwicklungsumgebung einrichten

Projekt in Google Cloud einrichten

Melden Sie sich bei der Google Cloud Console an.
Rufen Sie die Seite zur Projektauswahl auf.

Sie können entweder ein vorhandenes Projekt auswählen oder ein neues erstellen. Weitere Informationen zum Erstellen eines Projekts finden Sie in derGoogle Cloud Dokumentation.
Wenn Sie ein neues Projekt erstellen, wird eine Meldung angezeigt, in der Sie aufgefordert werden, ein Rechnungskonto zu verknüpfen. Wenn Sie ein bereits vorhandenes Projekt verwenden, muss die Abrechnung aktiviert sein.

Informationen dazu, wie Sie prüfen, ob die Abrechnung für Ihr Projekt aktiviert ist

Hinweis: Damit Sie die Text-to-Speech API nutzen können, muss die Abrechnung aktiviert sein. Ihnen werden jedoch nur dann Gebühren berechnet, wenn Sie das kostenlose Kontingent überschreiten. Weitere Informationen zu Preisen finden Sie auf der Preisseite.
Nachdem Sie ein Projekt ausgewählt und mit einem Rechnungskonto verknüpft haben, können Sie die Text-to-Speech API aktivieren. Geben Sie oben auf der Seite in die Leiste Produkte und Ressourcen suchen den Text speech ein. Wählen Sie aus der Liste der Ergebnisse die Cloud Text-to-Speech API aus.
Wenn Sie Text-to-Speech testen möchten, ohne es mit Ihrem Projekt zu verknüpfen, wählen Sie die Option Diese API testen aus. Klicken Sie auf Aktivieren, um die Text-to-Speech API für Ihr Projekt zu aktivieren.
Authentifizierung für Ihre Entwicklungsumgebung einrichten Eine Anleitung finden Sie unter Authentifizierung für Text-to-Speech einrichten.

Synchrone Sprachsynthese mit einem Sprecher durchführen

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
    """Synthesizes speech from the input text and saves it to an MP3 file.

    Args:
        prompt: Styling instructions on how to synthesize the content in
          the text field.
        text: The text to synthesize.
        output_filepath: The path to save the generated audio file.
          Defaults to "output.mp3".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    # Select the voice you want to use.
    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        name="Charon",  # Example voice, adjust as needed
        model_name="gemini-2.5-pro-tts"
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3
    )

    # Perform the text-to-speech request on the text input with the selected
    # voice parameters and audio file type.
    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    # The response's audio_content is binary.
    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following in a curious way",
    "text": "OK, so... tell me about this [uhm] AI thing."
  },
  "voice": {
    "languageCode": "en-us",
    "name": "Kore",
    "model_name": "gemini-2.5-flash-tts"
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16"
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Synchrone Sprachsynthese mit mehreren Sprechern mit Texteingabe im Freiformat durchführen

Beschreibung	Einschränkungen und Limits	Typ
Textfeld	Weniger als oder gleich 4.000 Byte	Eingabe
Prompt-Feld	Weniger als oder gleich 4.000 Byte	Eingabe
Text- und Prompt-Felder	Weniger als oder gleich 8.000 Byte	Eingabe
Sprecher-Aliasse	Alphanumerische Zeichen und keine Leerzeichen	Eingabe
Dauer des Ausgabeaudios	Etwa 655 Sekunden. Wenn der Eingabetext dazu führt, dass das Audio 655 Sekunden überschreitet, wird es gekürzt.	Ausgabe

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_freeform(
    prompt: str,
    text: str,
    output_filepath: str = "output_non_turn_based.wav",
):
    """Synthesizes speech from non-turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        text: The text to synthesize, containing speaker aliases to indicate
          different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
        output_filepath: The path to save the generated audio file. Defaults to
          "output_non_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Synchrone Sprachsynthese mit mehreren Sprechern mit strukturierter Texteingabe durchführen

Mit der Funktion „Mehrere Sprecher mit strukturierter Texteingabe“ kann Text auf intelligente Weise menschenähnlich formuliert werden. Diese Art von Eingabe ist beispielsweise für Adressen und Datumsangaben hilfreich. Bei der Eingabe von Freitext wird der Text exakt so gesprochen, wie er geschrieben wurde.

Beschreibung	Einschränkungen und Limits	Typ
MultiSpeakerMarkUp-Feld	Weniger als oder gleich 4.000 Byte	Eingabe
Prompt-Feld	Weniger als oder gleich 4.000 Byte	Eingabe
MultiSpeakerMarkUp- und Prompt-Felder	Weniger als oder gleich 8.000 Byte	Eingabe
Sprecher-Aliasse	Alphanumerische Zeichen und keine Leerzeichen	Eingabe
Dauer des Ausgabeaudios	Etwa 655 Sekunden. Wenn der Eingabetext dazu führt, dass das Audio 655 Sekunden überschreitet, wird es gekürzt.	Ausgabe

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_structured(
    prompt: str,
    turns: list[texttospeech.MultiSpeakerMarkup.Turn],
    output_filepath: str = "output_turn_based.wav",
):
    """Synthesizes speech from turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
          the dialogue turns.
        output_filepath: The path to save the generated audio file. Defaults to
          "output_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(
        multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
        prompt=prompt,
    )

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "multiSpeakerMarkup": {
      "turns": [
        {
          "speaker": "Sam",
          "text": "Hi Bob, how are you?"
        },
        {
          "speaker": "Bob",
          "text": "I am doing well, and you?"
        }
      ]
    }
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Sprachsynthese in Media Studio durchführen

Sie können Media Studio in der Google Google Cloud Console verwenden, um Text-to-Speech-Modelle auszuprobieren. Mithilfe dieser Benutzeroberfläche können Sie schnell synthetisierte Audioinhalte generieren und anhören sowie verschiedene Stilvorgaben und Parameter ausprobieren.

Rufen Sie in der Google Google Cloud Console die Seite Vertex AI Studio > Media Studio auf.

Media Studio
Wählen Sie im Media-Drop-down-Menü Sprache aus.
Geben Sie in das Textfeld den Text ein, der in Sprache synthetisiert werden soll.
Legen Sie im Bereich Einstellungen die folgenden Einstellungen fest:
1. Modell: Wählen Sie das gewünschte TTS-Modell (Text-to-Speech) aus, z. B. Gemini 2.5 Pro TTS. Weitere Informationen zu den verfügbaren Modellen finden Sie unter Text-to-Speech-Modelle.
2. Stilanweisungen: (Optional) Geben Sie einen Textprompt ein, der den ausgewählten Sprechstil, Tonfall und die emotionale Intonation beschreibt. So können Sie die Leistung des Modells über die Standardnarration hinaus steuern. Beispiel: „Sprich in einem ruhigen, professionellen Ton für eine Dokumentation.“
3. Sprache: Wählen Sie die Sprache und Region des eingegebenen Texts aus. Das Modell generiert die Ausgabe in der ausgewählten Sprache und mit dem ausgewählten Akzent. Beispiel: Englisch (USA).
4. Stimme: Wählen Sie eine vordefinierte Stimme für die Narration aus. Die Liste enthält die verfügbaren Stimmen für das ausgewählte Modell und die ausgewählte Sprache, z. B. Achernar (weiblich).
Optional: Maximieren Sie den Abschnitt „Erweiterte Optionen“, um technische Audioeinstellungen festzulegen:
1. Audiocodierung: Wählen Sie die Codierung für die Audioausgabedatei aus. LINEAR16 ist ein verlustfreies, nicht komprimiertes Format, das sich für die Verarbeitung von Audio in hoher Qualität eignet. MULAW ist auch für die Ausgabe von komprimiertem Audio verfügbar.
2. Audioabtastrate: Wählen Sie die Abtastrate in Hertz (Hz) aus. Dadurch wird die Audioqualität festgelegt. Höhere Werte wie 44.100 Hz erzeugen Audio in höherer Qualität (in diesem Fall CD-Qualität).
3. Geschwindigkeit: Sie können die Sprechgeschwindigkeit anpassen, indem Sie den Schieberegler positionieren oder einen Wert eingeben. Werte unter 1 verlangsamen die Sprechgeschwindigkeit, Werte über 1 beschleunigen sie. Der Standardwert ist 1.
4. Lautstärkepegel (dB): Hiermit passen Sie die Lautstärke des ausgegebenen Audiosignals in Dezibel (dB) an. Positive Werte erhöhen die Lautstärke, negative Werte verringern sie. Der Standardwert ist 0.
Klicken Sie rechts neben dem Textfeld auf das Symbol Senden, um die Audioausgabe zu generieren.
Das generierte Audio wird im Mediaplayer angezeigt. Klicken Sie auf die Wiedergabeschaltfläche, um die Ausgabe anzuhören. Sie können die Einstellungen weiter anpassen und bei Bedarf neue Versionen generieren.

Tipps für Prompts

Um ansprechende und natürlich klingende Audioinhalte aus Text zu erstellen, müssen die Nuancen der gesprochenen Sprache verstanden und in Skriptform übersetzt werden. Die folgenden Tipps helfen Ihnen, authentisch klingende Skripte zu erstellen, die den gewählten Ton treffen.

Die drei Säulen der Sprachsteuerung

Damit Sie möglichst vorhersehbare und differenzierte Ergebnisse erhalten, müssen alle der drei folgenden Komponenten mit der gewünschten Ausgabe übereinstimmen.

Stil-Prompt: Die primäre Quelle für den emotionalen Ausdruck und die Art der Wiedergabe. Der Prompt legt den Kontext für das gesamte Sprachsegment fest.

Beispiel: You are an AI assistant speaking in a friendly and helpful tone.
Beispiel: Narrate this in the calm, authoritative tone of a nature documentary narrator.

Textinhalte: Die semantische Bedeutung der Wörter, die Sie synthetisieren. Eine aussagekräftige Formulierung, die emotional mit dem Stil-Prompt übereinstimmt, führt zu erheblich zuverlässigeren Ergebnissen als neutraler Text.

Gut: Ein Prompt für einen ängstlichen Tonfall funktioniert am besten mit Text wie I think someone is in the house.
Weniger effektiv: Ein Prompt für einen ängstlichen Tonfall mit Text wie The meeting is at 4 PM. führt zu mehrdeutigen Ergebnissen.

Markup-Tags: Tags in Klammern wie [sigh] eignen sich vor allem, um eine bestimmte, lokale Aktion oder Stiländerung einzufügen, nicht um den allgemeinen Tonfall festzulegen. Sie werden in Kombination mit dem Stil-Prompt und dem Textinhalt angewendet.

Leitfaden zu Markup-Tags

Unsere Untersuchungen haben gezeigt, dass Markup-Tags in geschweiften Klammern in einem von drei verschiedenen Modi funktionieren. Damit Sie ein Tag effektiv verwenden können, müssen Sie seinen Modus kennen.

Modus 1: Geräusche

Das Markup wird durch eine hörbare, nicht sprachliche Stimmgebung ersetzt (z. B. ein Seufzer, ein Lachen). Das Tag selbst wird nicht gesprochen. Markups eignen sich hervorragend, um ein realistisches, menschliches Zögern bzw menschliche Reaktionen hinzuzufügen.

Tag	Verhalten	Zuverlässigkeit	Anleitung
`[sigh]`	Fügt ein Seufzen ein.	Hoch	Die emotionale Qualität des Seufzers wird durch den Prompt bestimmt.
`[laughing]`	Fügt ein Lachen ein.	Hoch	Die besten Ergebnisse erzielen Sie mit einem spezifischen Prompt. Ein allgemeiner Prompt kann beispielsweise ein nervöses Lachen hervorrufen, während „Reagiere mit einem amüsierten Lachen“ ein Lachen aus Belustigung generiert.
`[uhm]`	Fügt ein Zögern ein.	Hoch	Hilfreich, um einen natürlicheren Stil der Unterhaltung zu generieren.

Modus 2: Stilmodifikatoren

Das Markup wird nicht gesprochen, sondern die Wiedergabe der nachfolgenden Aussage wird angepasst. Umfang und Dauer der Änderung können variieren.

Tag	Verhalten	Zuverlässigkeit	Anleitung
`[sarcasm]`	Verleiht der nachfolgenden Formulierung einen sarkastischen Tonfall.	Hoch	Dieses Tag ist ein leistungsstarker Modifikator. Es zeigt, dass abstrakte Konzepte die Modellausgabe erfolgreich steuern können.
`[robotic]`	Dadurch klingt die nachfolgende Sprache roboterhaft.	Hoch	Der Effekt kann sich über eine komplette Formulierung erstrecken. Ein unterstützender Stil-Prompt (z. B. „Sag das auf roboterhafte Weise“) ist zusätzlich empfehlenswert, um die besten Ergebnisse zu erzielen.
`[shouting]`	Erhöht die Lautstärke der nachfolgenden Sprachausgabe.	Hoch	Am effektivsten ist die Funktion, wenn sie mit einem passenden Stil-Prompt kombiniert wird, z. B. „Schrei diesen nächsten Abschnitt“, und mit Text, der darauf hindeutet, dass geschrien wird.
`[whispering]`	Verringert die Lautstärke der nachfolgenden Sprache.	Hoch	Die besten Ergebnisse werden erzielt, wenn auch der Stil-Prompt explizit formuliert ist, z. B. „Flüstere diesen Teil jetzt so leise wie möglich“.
`[extremely fast]`	Erhöht die Geschwindigkeit der nachfolgenden Sprachausgabe.	Hoch	Ideal für Haftungsausschlüsse oder schnelle Dialoge. Es ist nur eine minimale Unterstützung durch Prompts erforderlich.

Modus 3: Gesprochenes Markup (Adjektive)

Das Markup-Tag selbst wird als Wort gesprochen und beeinflusst gleichzeitig den Tonfall des gesamten Satzes. Dieses Verhalten gilt in der Regel für emotionale Adjektive.

Warnung: Da das Tag selbst gesprochen wird, hat dieser Modus für die meisten Anwendungsfälle wahrscheinlich unerwünschte Nebenwirkungen. Verwenden Sie stattdessen den Stil-Prompt, um einen solchen emotionalen Tonfall festzulegen.

Tag	Verhalten	Zuverlässigkeit	Anleitung
`[scared]`	Das Wort „verängstigt“ wird gesprochen und der Satz erhält einen ängstlichen Ton.	Hoch	Die Wirkung hängt stark von den Textinhalten ab. Der Satz „Ich habe gerade gehört, wie ein Fenster zerbrochen ist“ führt zu einem authentisch verängstigten Ergebnis. Eine neutrale Formulierung führt zu einem eher „schaurigen“, aber weniger authentischen Ergebnis.
`[curious]`	Das Wort „neugierig“ wird gesprochen und der Satz erhält einen neugierigen Tonfall.	Hoch	Verwenden Sie eine fragende Formulierung, um die Intention des Tags zu unterstützen.
`[bored]`	Das Wort „gelangweilt“ wird gesprochen und der Satz wird gelangweilt und monoton wiedergegeben.	Hoch	Die Funktion eignet sich am besten für alltägliche oder sich wiederholende Texte.

Modus 4: Tempo und Pausen

Mit diesen Tags wird Stille in das generierte Audio eingefügt. Damit haben Sie die Möglichkeit, Rhythmus, Timing und Tempo genau zu steuern. Durch Standardsatzzeichen (Kommas, Punkte, Semikolons) werden ebenfalls natürliche Pausen erzeugt. Diese Tags bieten aber eine explizitere Steuerung.

Tag	Verhalten	Zuverlässigkeit	Anleitung
`[short pause]`	Fügt eine kurze Pause ein, ähnlich einem Komma (~250 ms).	Hoch	Damit können Sie Satzteile oder Listenelemente trennen, um für mehr Klarheit zu sorgen.
`[medium pause]`	Fügt eine Standardpause ein, ähnlich wie bei einem Satzende (~500 ms).	Hoch	Eignet sich gut, um einzelne Sätze oder Gedanken voneinander zu trennen.
`[long pause]`	Fügt eine längere Pause für einen dramatischen Effekt ein (ca. 1.000 ms oder länger).	Hoch	Wird für dramatische Timing-Effekte verwendet. Beispiel: „Die Antwort ist… `[long pause]` … nein.“ Vermeiden Sie eine übermäßige Verwendung, da dies unnatürlich klingen kann.

Wichtige Strategien für zuverlässige Ergebnisse

Alle drei Hebel aufeinander abstimmen: Für maximale Vorhersehbarkeit sollten Ihr Stil-Prompt, Ihr Textinhalt und alle Markup-Tags semantisch konsistent und auf dasselbe Ziel ausgerichtet sein.
Emotionalen Text verwenden: Verlassen Sie sich nicht nur auf Prompts und Tags. Fügen Sie dem Modell aussagekräftigen, beschreibenden Text hinzu. Das ist besonders wichtig für subtile Emotionen wie Sarkasmus, Angst oder Aufregung.
Spezifische, detaillierte Prompts schreiben: Je spezifischer Ihr Stil-Prompt ist, desto zuverlässiger ist das Ergebnis. „Reagiere mit einem amüsierten Lachen“ ist besser als nur [laughing]. „Sprich wie ein Radiosprecher aus den 1940er-Jahren“ ist besser als „Sprich altmodisch“.
Neue Tags testen und überprüfen: Das Verhalten eines neuen oder nicht getesteten Tags ist nicht immer vorhersehbar. Ein Tag, das Sie für einen Stilmodifikator halten, wird möglicherweise gesprochen. Testen Sie immer eine neue Tag- oder Prompt-Kombination, um das Verhalten zu prüfen, bevor Sie sie in der Produktion bereitstellen.