Gemini-TTS ist die neueste Entwicklung unserer Text-to-Speech-Technologie. Sie geht über die natürliche Sprachwiedergabe hinaus und ermöglicht eine detaillierte Steuerung der generierten Audioausgabe mithilfe von textbasierten Prompts. Mit Gemini-TTS können Sie Sprache mit einem oder mehreren Sprechern von kurzen Snippets bis hin zu langen Erzählungen synthetisieren. Dabei lassen sich Stil, Akzent, Tempo, Ton und sogar emotionaler Ausdruck präzise festlegen – alles über Prompts in natürlicher Sprache.
Verfügbare Modelle
Gemini-TTS umfasst die folgenden verfügbaren Modelle:
Gemini 2.5 Flash TTS
| Modell-ID | gemini-2.5-flash-tts |
|---|---|
| Optimiert für | Kostengünstige Audio-Generierung mit geringer Latenz und mit Steuerungsmöglichkeiten für die Sprachausgabe mit einem oder mehreren Sprechern für alltägliche Anwendungen |
| Eingabe- und Ausgabemodalitäten |
|
| Unterstützte Sprecheranzahl | Einzelner Sprecher, mehrere Sprecher |
| Unterstützte Audioausgabeformate* | LINEAR16 (Standard), ALAW, MULAW, MP3, OGG_OPUS, PCM |
| Unterstützte Regionen | global |
| Stimmoptionen | Stimmoptionen |
| Verfügbare Sprachen | Verfügbare Sprachen |
| Beispiel |
model: "gemini-2.5-flash-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary.
Check our website or your local store for complete
details and restrictions."
speaker: "Kore"
|
Gemini 2.5 Pro TTS
| Modell-ID | gemini-2.5-pro-tts |
|---|---|
| Optimiert für | Umfangreiche Kontrolle strukturierter Workflows wie Podcast-Generierung, Hörbücher, Kundensupport und mehr |
| Eingabe- und Ausgabemodalitäten |
|
| Unterstützte Sprecheranzahl | Einzelner Sprecher, mehrere Sprecher |
| Unterstützte Audioausgabeformate* | LINEAR16 (Standard), ALAW, MULAW, MP3, OGG_OPUS, PCM |
| Unterstützte Regionen | global |
| Stimmoptionen | Stimmoptionen |
| Verfügbare Sprachen | Verfügbare Sprachen |
| Beispiel |
model: "gemini-2.5-pro-tts"
prompt: "You are having a casual conversation with a friend.
Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirrhoe"
|
* Nur batch. streaming wird nicht unterstützt.
Weitere Einstellungen
Zusätzliche Einstellungen und Funktionen:
Natürliche Unterhaltung: Sprachinteraktionen von bemerkenswerter Qualität, angemessener Ausdruck und Rhythmusmuster werden mit äußerst geringer Latenz erzielt, sodass Sie sich flüssig unterhalten können.
Stilkontrolle: Mit Prompts in natürlicher Sprache können Sie die Art der Kommunikation im Gespräch anpassen, indem Sie bestimmte Akzente vorgeben sowie eine Reihe von Tönen und Ausdrücken generieren, einschließlich eines Flüstertons.
Dynamische Leistung: Diese Modelle können Text zum Leben erwecken und eignen sich für ausdrucksstarke Lesungen von Gedichten und Nachrichten sowie für fesselndes Storytelling. Sie können auch bestimmte Emotionen ausdrücken und auf Wunsch Akzente setzen.
Erweiterte Steuerung von Tempo und Aussprache: Durch die Steuerung der Wiedergabegeschwindigkeit wird die Genauigkeit der Aussprache, auch bei bestimmten Wörtern, verbessert.
Informationen zur Verwendung dieser Stimmen in Ihrer Anwendung finden Sie unter Gemini-TTS verwenden.
Stimmoptionen
Gemini-TTS bietet eine Vielzahl von Sprachoptionen, die unseren vorhandenen HD-Stimmen von Chirp 3 ähneln, aber jeweils eigene Merkmale haben:
| Name | Geschlecht | Demo |
|---|---|---|
| Achernar | Weiblich | |
| Achird | Männlich | |
| Algenib | Männlich | |
| Algieba | Männlich | |
| Alnilam | Männlich | |
| Aoede | Weiblich | |
| Autonoe | Weiblich | |
| Callirrhoe | Weiblich | |
| Charon | Männlich | |
| Despina | Weiblich | |
| Enceladus | Männlich | |
| Erinome | Weiblich | |
| Fenrir | Männlich | |
| Gacrux | Weiblich | |
| Iapetus | Männlich | |
| Kore | Weiblich | |
| Laomedeia | Weiblich | |
| Leda | Weiblich | |
| Orus | Männlich | |
| Pulcherrima | Weiblich | |
| Puck | Männlich | |
| Rasalgethi | Männlich | |
| Sadachbia | Männlich | |
| Sadaltager | Männlich | |
| Schedar | Männlich | |
| Sulafat | Weiblich | |
| Umbriel | Männlich | |
| Vindemiatrix | Weiblich | |
| Zephyr | Weiblich | |
| Zubenelgenubi | Männlich |
Verfügbare Sprachen
Gemini-TTS unterstützt die folgenden Sprachen:
| Sprache | BCP-47-Code | Einführungsreife |
|---|---|---|
| Arabisch (Ägypten) | ar-EG | GA |
| Niederländisch (Niederlande) | nl-NL | GA |
| Englisch (Indien) | en-IN | GA |
| Englisch (USA) | en-US | GA |
| Französisch (Frankreich) | fr-FR | GA |
| Deutsch (Deutschland) | de-DE | GA |
| Hindi (Indien) | hi-IN | GA |
| Indonesisch (Indonesien) | id-ID | GA |
| Italienisch (Italien) | it-IT | GA |
| Japanisch (Japan) | ja-JP | GA |
| Koreanisch (Südkorea) | ko-KR | GA |
| Marathi (Indien) | mr-IN | GA |
| Polnisch (Polen) | pl-PL | GA |
| Portugiesisch (Brasilien) | pt-BR | GA |
| Rumänisch (Rumänien) | ro-RO | GA |
| Russisch (Russland) | ru-RU | GA |
| Spanisch (Spanien) | es-ES | GA |
| Tamil (Indien) | ta-IN | GA |
| Telugu (Indien) | te-IN | GA |
| Thailändisch (Thailand) | th-TH | GA |
| Türkisch (Türkei) | tr-TR | GA |
| Ukrainisch (Ukraine) | uk-UA | GA |
| Vietnamesisch (Vietnam) | vi-VN | GA |
| Afrikaans (Südafrika) | af-ZA | Vorschau |
| Albanisch (Albanien) | sq-AL | Vorschau |
| Amharisch (Äthiopien) | am-ET | Vorschau |
| Arabisch (Welt) | ar-001 | Vorschau |
| Armenisch (Armenien) | hy-AM | Vorschau |
| Aserbaidschanisch (Aserbaidschan) | az-AZ | Vorschau |
| Bengalisch (Bangladesch) | bn-BD | Vorschau |
| Baskisch (Spanien) | eu-ES | Vorschau |
| Belarussisch (Belarus) | be-BY | Vorschau |
| Bulgarisch (Bulgarien) | bg-BG | Vorschau |
| Burmesisch (Myanmar) | my-MM | Vorschau |
| Katalanisch (Spanien) | ca-ES | Vorschau |
| Cebuano (Philippinen) | ceb-PH | Vorschau |
| Chinesisch, Mandarin (China) | cmn-CN | Vorschau |
| Chinesisch, Mandarin (Taiwan) | cmn-tw | Vorschau |
| Kroatisch (Kroatien) | hr-HR | Vorschau |
| Tschechisch (Tschechische Republik) | cs-CZ | Vorschau |
| Dänisch (Dänemark) | da-DK | Vorschau |
| Englisch (Australien) | en-AU | Vorschau |
| Englisch (Vereinigtes Königreich) | de-DE | Vorschau |
| Estnisch (Estland) | et-EE | Vorschau |
| Philippinisch (Philippinen) | fil-PH | Vorschau |
| Finnisch (Finnland) | fi-FI | Vorschau |
| Französisch (Kanada) | fr-CA | Vorschau |
| Galizisch (Spanien) | gl-ES | Vorschau |
| Georgisch (Georgien) | ka-GE | Vorschau |
| Griechisch (Griechenland) | el-GR | Vorschau |
| Gujarati (Indien) | gu-IN | Vorschau |
| Haitianisches Kreolisch (Haiti) | ht-HT | Vorschau |
| Hebräisch (Israel) | he-IL | Vorschau |
| Ungarisch (Ungarn) | hu-HU | Vorschau |
| Isländisch (Island) | is-IS | Vorschau |
| Javanisch (Java) | jv-JV | Vorschau |
| Kannada (Indien) | kn-IN | Vorschau |
| Konkani (Indien) | kok-IN | Vorschau |
| Lao (Laos) | lo-LA | Vorschau |
| Lateinisch (Vatikanstadt) | la-VA | Vorschau |
| Lettisch (Lettland) | lv-LV | Vorschau |
| Litauisch (Litauen) | lt-LT | Vorschau |
| Luxemburgisch (Luxemburg) | lb-LU | Vorschau |
| Mazedonisch (Nordmazedonien) | mk-MK | Vorschau |
| Maithili (Indien) | mai-IN | Vorschau |
| Malagasy (Madagaskar) | mg-MG | Vorschau |
| Malaiisch (Malaysia) | ms-MY | Vorschau |
| Malayalam (Indien) | ml-IN | Vorschau |
| Mongolisch (Mongolei) | mn-MN | Vorschau |
| Nepalesisch (Nepal) | ne-NP | Vorschau |
| Norwegisch (Norwegen) | nb-NO | Vorschau |
| Norwegisch, Nynorsk (Norwegen) | nn-NO | Vorschau |
| Oriya (Indien) | or-IN | Vorschau |
| Paschtu (Afghanistan) | ps-AF | Vorschau |
| Persisch (Iran) | fa-IR | Vorschau |
| Portugiesisch (Portugal) | pt-PT | Vorschau |
| Panjabi (Indien) | pa-IN | Vorschau |
| Serbisch (Serbien) | sr-RS | Vorschau |
| Sindhi (Indien) | sd-IN | Vorschau |
| Singhalesisch (Sri Lanka) | si-LK | Vorschau |
| Slowakisch (Slowakei) | sk-SK | Vorschau |
| Slowenisch (Slowenien) | sl-SI | Vorschau |
| Spanisch (Lateinamerika) | es-419 | Vorschau |
| Spanisch (Mexiko) | es-MX | Vorschau |
| Swahili (Kenia) | sw-KE | Vorschau |
| Schwedisch (Schweden) | sv-SE | Vorschau |
| Urdu (Pakistan) | ur-PK | Vorschau |
Gemini-TTS verwenden
Hier erfahren Sie, wie Sie mit Gemini-TTS-Modellen Sprache für einen einzelnen Sprecher und für mehrere Sprecher synthetisieren.
| Beschreibung | Limit | Typ |
|---|---|---|
| Textfeld | Weniger als oder gleich 4.000 Byte. | Eingabe |
| Prompt-Feld | Weniger als oder gleich 4.000 Byte. | Eingabe |
| Text- und Prompt-Felder | Weniger als oder gleich 8.000 Byte. | Eingabe |
| Dauer des Ausgabeaudios | Etwa 655 Sekunden. Wenn der Eingabetext dazu führt, dass das Audio 655 Sekunden überschreitet, wird es gekürzt. | Ausgabe |
Hinweis
Bevor Sie Text-to-Speech verwenden können, müssen Sie die API in derGoogle Cloud Console aktivieren. Gehen Sie dazu so vor:
- Text-to-Speech für ein Projekt aktivieren
- Prüfen, ob die Abrechnung für Text-to-Speech aktiviert ist
- Authentifizierung für Ihre Entwicklungsumgebung einrichten
Projekt in Google Cloud einrichten
Rufen Sie die Seite zur Projektauswahl auf.
Sie können entweder ein vorhandenes Projekt auswählen oder ein neues erstellen. Weitere Informationen zum Erstellen eines Projekts finden Sie in derGoogle Cloud Dokumentation.
Wenn Sie ein neues Projekt erstellen, wird eine Meldung angezeigt, in der Sie aufgefordert werden, ein Rechnungskonto zu verknüpfen. Wenn Sie ein bereits vorhandenes Projekt verwenden, muss die Abrechnung aktiviert sein.
Informationen dazu, wie Sie prüfen, ob die Abrechnung für Ihr Projekt aktiviert ist
Nachdem Sie ein Projekt ausgewählt und mit einem Rechnungskonto verknüpft haben, können Sie die Text-to-Speech API aktivieren. Geben Sie oben auf der Seite in die Leiste Produkte und Ressourcen suchen den Text speech ein. Wählen Sie aus der Liste der Ergebnisse die Cloud Text-to-Speech API aus.
Wenn Sie Text-to-Speech testen möchten, ohne es mit Ihrem Projekt zu verknüpfen, wählen Sie die Option Diese API testen aus. Klicken Sie auf Aktivieren, um die Text-to-Speech API für Ihr Projekt zu aktivieren.
Authentifizierung für Ihre Entwicklungsumgebung einrichten Eine Anleitung finden Sie unter Authentifizierung für Text-to-Speech einrichten.
Synchrone Sprachsynthese mit einem Sprecher durchführen
Python
# google-cloud-texttospeech minimum version 2.29.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
"""Synthesizes speech from the input text and saves it to an MP3 file.
Args:
prompt: Styling instructions on how to synthesize the content in
the text field.
text: The text to synthesize.
output_filepath: The path to save the generated audio file.
Defaults to "output.mp3".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
# Select the voice you want to use.
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="Charon", # Example voice, adjust as needed
model_name="gemini-2.5-pro-tts"
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type.
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following in a curious way",
"text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
"languageCode": "en-us",
"name": "Kore",
"model_name": "gemini-2.5-flash-tts"
},
"audioConfig": {
"audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Synchrone Sprachsynthese mit mehreren Sprechern mit Texteingabe im Freiformat durchführen
| Beschreibung | Einschränkungen und Limits | Typ |
|---|---|---|
| Textfeld | Weniger als oder gleich 4.000 Byte | Eingabe |
| Prompt-Feld | Weniger als oder gleich 4.000 Byte | Eingabe |
| Text- und Prompt-Felder | Weniger als oder gleich 8.000 Byte | Eingabe |
| Sprecher-Aliasse | Alphanumerische Zeichen und keine Leerzeichen | Eingabe |
| Dauer des Ausgabeaudios | Etwa 655 Sekunden. Wenn der Eingabetext dazu führt, dass das Audio 655 Sekunden überschreitet, wird es gekürzt. | Ausgabe |
Python
# google-cloud-texttospeech minimum version 2.31.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize_multispeaker_freeform(
prompt: str,
text: str,
output_filepath: str = "output_non_turn_based.wav",
):
"""Synthesizes speech from non-turn-based input and saves it to a WAV file.
Args:
prompt: Styling instructions on how to synthesize the content in the
text field.
text: The text to synthesize, containing speaker aliases to indicate
different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
output_filepath: The path to save the generated audio file. Defaults to
"output_non_turn_based.wav".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker1",
speaker_id="Kore",
),
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker2",
speaker_id="Charon",
),
]
)
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
model_name="gemini-2.5-pro-tts",
multi_speaker_voice_config=multi_speaker_voice_config,
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following as a conversation between friends.",
"text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
},
"voice": {
"languageCode": "en-us",
"modelName": "gemini-2.5-flash-tts",
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [
{
"speakerAlias": "Sam",
"speakerId": "Kore"
},
{
"speakerAlias": "Bob",
"speakerId": "Charon"
}
]
}
},
"audioConfig": {
"audioEncoding": "LINEAR16",
"sampleRateHertz": 24000
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Synchrone Sprachsynthese mit mehreren Sprechern mit strukturierter Texteingabe durchführen
Mit der Funktion „Mehrere Sprecher mit strukturierter Texteingabe“ kann Text auf intelligente Weise menschenähnlich formuliert werden. Diese Art von Eingabe ist beispielsweise für Adressen und Datumsangaben hilfreich. Bei der Eingabe von Freitext wird der Text exakt so gesprochen, wie er geschrieben wurde.
| Beschreibung | Einschränkungen und Limits | Typ |
|---|---|---|
| MultiSpeakerMarkUp-Feld | Weniger als oder gleich 4.000 Byte | Eingabe |
| Prompt-Feld | Weniger als oder gleich 4.000 Byte | Eingabe |
| MultiSpeakerMarkUp- und Prompt-Felder | Weniger als oder gleich 8.000 Byte | Eingabe |
| Sprecher-Aliasse | Alphanumerische Zeichen und keine Leerzeichen | Eingabe |
| Dauer des Ausgabeaudios | Etwa 655 Sekunden. Wenn der Eingabetext dazu führt, dass das Audio 655 Sekunden überschreitet, wird es gekürzt. | Ausgabe |
Python
# google-cloud-texttospeech minimum version 2.31.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize_multispeaker_structured(
prompt: str,
turns: list[texttospeech.MultiSpeakerMarkup.Turn],
output_filepath: str = "output_turn_based.wav",
):
"""Synthesizes speech from turn-based input and saves it to a WAV file.
Args:
prompt: Styling instructions on how to synthesize the content in the
text field.
turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
the dialogue turns.
output_filepath: The path to save the generated audio file. Defaults to
"output_turn_based.wav".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(
multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
prompt=prompt,
)
multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker1",
speaker_id="Kore",
),
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker2",
speaker_id="Charon",
),
]
)
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
model_name="gemini-2.5-pro-tts",
multi_speaker_voice_config=multi_speaker_voice_config,
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following as a conversation between friends.",
"multiSpeakerMarkup": {
"turns": [
{
"speaker": "Sam",
"text": "Hi Bob, how are you?"
},
{
"speaker": "Bob",
"text": "I am doing well, and you?"
}
]
}
},
"voice": {
"languageCode": "en-us",
"modelName": "gemini-2.5-flash-tts",
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [
{
"speakerAlias": "Sam",
"speakerId": "Kore"
},
{
"speakerAlias": "Bob",
"speakerId": "Charon"
}
]
}
},
"audioConfig": {
"audioEncoding": "LINEAR16",
"sampleRateHertz": 24000
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Sprachsynthese in Media Studio durchführen
Sie können Media Studio in der Google Google Cloud Console verwenden, um Text-to-Speech-Modelle auszuprobieren. Mithilfe dieser Benutzeroberfläche können Sie schnell synthetisierte Audioinhalte generieren und anhören sowie verschiedene Stilvorgaben und Parameter ausprobieren.
Rufen Sie in der Google Google Cloud Console die Seite Vertex AI Studio > Media Studio auf.
Wählen Sie im Media-Drop-down-Menü Sprache aus.
Geben Sie in das Textfeld den Text ein, der in Sprache synthetisiert werden soll.
Legen Sie im Bereich Einstellungen die folgenden Einstellungen fest:
- Modell: Wählen Sie das gewünschte TTS-Modell (Text-to-Speech) aus, z. B.
Gemini 2.5 Pro TTS. Weitere Informationen zu den verfügbaren Modellen finden Sie unter Text-to-Speech-Modelle. - Stilanweisungen: (Optional) Geben Sie einen Textprompt ein, der den ausgewählten Sprechstil, Tonfall und die emotionale Intonation beschreibt. So können Sie die Leistung des Modells über die Standardnarration hinaus steuern. Beispiel: „Sprich in einem ruhigen, professionellen Ton für eine Dokumentation.“
- Sprache: Wählen Sie die Sprache und Region des eingegebenen Texts aus. Das Modell generiert die Ausgabe in der ausgewählten Sprache und mit dem ausgewählten Akzent. Beispiel: Englisch (USA).
- Stimme: Wählen Sie eine vordefinierte Stimme für die Narration aus. Die Liste enthält die verfügbaren Stimmen für das ausgewählte Modell und die ausgewählte Sprache, z. B. Achernar (weiblich).
- Modell: Wählen Sie das gewünschte TTS-Modell (Text-to-Speech) aus, z. B.
Optional: Maximieren Sie den Abschnitt „Erweiterte Optionen“, um technische Audioeinstellungen festzulegen:
- Audiocodierung: Wählen Sie die Codierung für die Audioausgabedatei aus.
LINEAR16ist ein verlustfreies, nicht komprimiertes Format, das sich für die Verarbeitung von Audio in hoher Qualität eignet.MULAWist auch für die Ausgabe von komprimiertem Audio verfügbar. - Audioabtastrate: Wählen Sie die Abtastrate in Hertz (Hz) aus. Dadurch wird die Audioqualität festgelegt. Höhere Werte wie 44.100 Hz erzeugen Audio in höherer Qualität (in diesem Fall CD-Qualität).
- Geschwindigkeit: Sie können die Sprechgeschwindigkeit anpassen, indem Sie den Schieberegler positionieren oder einen Wert eingeben. Werte unter 1 verlangsamen die Sprechgeschwindigkeit, Werte über 1 beschleunigen sie. Der Standardwert ist 1.
- Lautstärkepegel (dB): Hiermit passen Sie die Lautstärke des ausgegebenen Audiosignals in Dezibel (dB) an. Positive Werte erhöhen die Lautstärke, negative Werte verringern sie. Der Standardwert ist 0.
- Audiocodierung: Wählen Sie die Codierung für die Audioausgabedatei aus.
Klicken Sie rechts neben dem Textfeld auf das Symbol Senden, um die Audioausgabe zu generieren.
Das generierte Audio wird im Mediaplayer angezeigt. Klicken Sie auf die Wiedergabeschaltfläche, um die Ausgabe anzuhören. Sie können die Einstellungen weiter anpassen und bei Bedarf neue Versionen generieren.
Tipps für Prompts
Um ansprechende und natürlich klingende Audioinhalte aus Text zu erstellen, müssen die Nuancen der gesprochenen Sprache verstanden und in Skriptform übersetzt werden. Die folgenden Tipps helfen Ihnen, authentisch klingende Skripte zu erstellen, die den gewählten Ton treffen.
Die drei Säulen der Sprachsteuerung
Damit Sie möglichst vorhersehbare und differenzierte Ergebnisse erhalten, müssen alle der drei folgenden Komponenten mit der gewünschten Ausgabe übereinstimmen.
Stil-Prompt: Die primäre Quelle für den emotionalen Ausdruck und die Art der Wiedergabe. Der Prompt legt den Kontext für das gesamte Sprachsegment fest.
Beispiel:
You are an AI assistant speaking in a friendly and helpful tone.Beispiel:
Narrate this in the calm, authoritative tone of a nature documentary narrator.
Textinhalte: Die semantische Bedeutung der Wörter, die Sie synthetisieren. Eine aussagekräftige Formulierung, die emotional mit dem Stil-Prompt übereinstimmt, führt zu erheblich zuverlässigeren Ergebnissen als neutraler Text.
Gut: Ein Prompt für einen ängstlichen Tonfall funktioniert am besten mit Text wie
I think someone is in the house.Weniger effektiv: Ein Prompt für einen ängstlichen Tonfall mit Text wie
The meeting is at 4 PM.führt zu mehrdeutigen Ergebnissen.
Markup-Tags: Tags in Klammern wie [sigh] eignen sich vor allem, um eine bestimmte, lokale Aktion oder Stiländerung einzufügen, nicht um den allgemeinen Tonfall festzulegen. Sie werden in Kombination mit dem Stil-Prompt und dem Textinhalt angewendet.
Leitfaden zu Markup-Tags
Unsere Untersuchungen haben gezeigt, dass Markup-Tags in geschweiften Klammern in einem von drei verschiedenen Modi funktionieren. Damit Sie ein Tag effektiv verwenden können, müssen Sie seinen Modus kennen.
Modus 1: Geräusche
Das Markup wird durch eine hörbare, nicht sprachliche Stimmgebung ersetzt (z. B. ein Seufzer, ein Lachen). Das Tag selbst wird nicht gesprochen. Markups eignen sich hervorragend, um ein realistisches, menschliches Zögern bzw menschliche Reaktionen hinzuzufügen.
| Tag | Verhalten | Zuverlässigkeit | Anleitung |
|---|---|---|---|
[sigh] |
Fügt ein Seufzen ein. | Hoch | Die emotionale Qualität des Seufzers wird durch den Prompt bestimmt. |
[laughing] |
Fügt ein Lachen ein. | Hoch | Die besten Ergebnisse erzielen Sie mit einem spezifischen Prompt. Ein allgemeiner Prompt kann beispielsweise ein nervöses Lachen hervorrufen, während „Reagiere mit einem amüsierten Lachen“ ein Lachen aus Belustigung generiert. |
[uhm] |
Fügt ein Zögern ein. | Hoch | Hilfreich, um einen natürlicheren Stil der Unterhaltung zu generieren. |
Modus 2: Stilmodifikatoren
Das Markup wird nicht gesprochen, sondern die Wiedergabe der nachfolgenden Aussage wird angepasst. Umfang und Dauer der Änderung können variieren.
| Tag | Verhalten | Zuverlässigkeit | Anleitung |
|---|---|---|---|
[sarcasm] |
Verleiht der nachfolgenden Formulierung einen sarkastischen Tonfall. | Hoch | Dieses Tag ist ein leistungsstarker Modifikator. Es zeigt, dass abstrakte Konzepte die Modellausgabe erfolgreich steuern können. |
[robotic] |
Dadurch klingt die nachfolgende Sprache roboterhaft. | Hoch | Der Effekt kann sich über eine komplette Formulierung erstrecken. Ein unterstützender Stil-Prompt (z. B. „Sag das auf roboterhafte Weise“) ist zusätzlich empfehlenswert, um die besten Ergebnisse zu erzielen. |
[shouting] |
Erhöht die Lautstärke der nachfolgenden Sprachausgabe. | Hoch | Am effektivsten ist die Funktion, wenn sie mit einem passenden Stil-Prompt kombiniert wird, z. B. „Schrei diesen nächsten Abschnitt“, und mit Text, der darauf hindeutet, dass geschrien wird. |
[whispering] |
Verringert die Lautstärke der nachfolgenden Sprache. | Hoch | Die besten Ergebnisse werden erzielt, wenn auch der Stil-Prompt explizit formuliert ist, z. B. „Flüstere diesen Teil jetzt so leise wie möglich“. |
[extremely fast] |
Erhöht die Geschwindigkeit der nachfolgenden Sprachausgabe. | Hoch | Ideal für Haftungsausschlüsse oder schnelle Dialoge. Es ist nur eine minimale Unterstützung durch Prompts erforderlich. |
Modus 3: Gesprochenes Markup (Adjektive)
Das Markup-Tag selbst wird als Wort gesprochen und beeinflusst gleichzeitig den Tonfall des gesamten Satzes. Dieses Verhalten gilt in der Regel für emotionale Adjektive.
Warnung: Da das Tag selbst gesprochen wird, hat dieser Modus für die meisten Anwendungsfälle wahrscheinlich unerwünschte Nebenwirkungen. Verwenden Sie stattdessen den Stil-Prompt, um einen solchen emotionalen Tonfall festzulegen.
| Tag | Verhalten | Zuverlässigkeit | Anleitung |
|---|---|---|---|
[scared] |
Das Wort „verängstigt“ wird gesprochen und der Satz erhält einen ängstlichen Ton. | Hoch | Die Wirkung hängt stark von den Textinhalten ab. Der Satz „Ich habe gerade gehört, wie ein Fenster zerbrochen ist“ führt zu einem authentisch verängstigten Ergebnis. Eine neutrale Formulierung führt zu einem eher „schaurigen“, aber weniger authentischen Ergebnis. |
[curious] |
Das Wort „neugierig“ wird gesprochen und der Satz erhält einen neugierigen Tonfall. | Hoch | Verwenden Sie eine fragende Formulierung, um die Intention des Tags zu unterstützen. |
[bored] |
Das Wort „gelangweilt“ wird gesprochen und der Satz wird gelangweilt und monoton wiedergegeben. | Hoch | Die Funktion eignet sich am besten für alltägliche oder sich wiederholende Texte. |
Modus 4: Tempo und Pausen
Mit diesen Tags wird Stille in das generierte Audio eingefügt. Damit haben Sie die Möglichkeit, Rhythmus, Timing und Tempo genau zu steuern. Durch Standardsatzzeichen (Kommas, Punkte, Semikolons) werden ebenfalls natürliche Pausen erzeugt. Diese Tags bieten aber eine explizitere Steuerung.
| Tag | Verhalten | Zuverlässigkeit | Anleitung |
|---|---|---|---|
[short pause] |
Fügt eine kurze Pause ein, ähnlich einem Komma (~250 ms). | Hoch | Damit können Sie Satzteile oder Listenelemente trennen, um für mehr Klarheit zu sorgen. |
[medium pause] |
Fügt eine Standardpause ein, ähnlich wie bei einem Satzende (~500 ms). | Hoch | Eignet sich gut, um einzelne Sätze oder Gedanken voneinander zu trennen. |
[long pause] |
Fügt eine längere Pause für einen dramatischen Effekt ein (ca. 1.000 ms oder länger). | Hoch | Wird für dramatische Timing-Effekte verwendet. Beispiel: „Die Antwort ist… [long pause] … nein.“ Vermeiden Sie eine übermäßige Verwendung, da dies unnatürlich klingen kann. |
Wichtige Strategien für zuverlässige Ergebnisse
Alle drei Hebel aufeinander abstimmen: Für maximale Vorhersehbarkeit sollten Ihr Stil-Prompt, Ihr Textinhalt und alle Markup-Tags semantisch konsistent und auf dasselbe Ziel ausgerichtet sein.
Emotionalen Text verwenden: Verlassen Sie sich nicht nur auf Prompts und Tags. Fügen Sie dem Modell aussagekräftigen, beschreibenden Text hinzu. Das ist besonders wichtig für subtile Emotionen wie Sarkasmus, Angst oder Aufregung.
Spezifische, detaillierte Prompts schreiben: Je spezifischer Ihr Stil-Prompt ist, desto zuverlässiger ist das Ergebnis. „Reagiere mit einem amüsierten Lachen“ ist besser als nur
[laughing]. „Sprich wie ein Radiosprecher aus den 1940er-Jahren“ ist besser als „Sprich altmodisch“.Neue Tags testen und überprüfen: Das Verhalten eines neuen oder nicht getesteten Tags ist nicht immer vorhersehbar. Ein Tag, das Sie für einen Stilmodifikator halten, wird möglicherweise gesprochen. Testen Sie immer eine neue Tag- oder Prompt-Kombination, um das Verhalten zu prüfen, bevor Sie sie in der Produktion bereitstellen.