Colab-Notebook ausprobieren
|
Notebook auf GitHub ansehen
|
Gemini-TTS ist die neueste Entwicklung unserer Text-to-Speech-Technologie. Sie geht über die natürliche Sprachwiedergabe hinaus und ermöglicht eine detaillierte Steuerung der generierten Audioausgabe mithilfe von textbasierten Prompts. Mit Gemini-TTS können Sie Sprache von einer oder mehreren Personen aus kurzen Snippets bis hin zu langen Erzählungen synthetisieren. Dabei lassen sich Stil, Akzent, Tempo, Tonfall und sogar der emotionale Ausdruck präzise festlegen – über Prompts in natürlicher Sprache.
Weitere Informationen zu diesem Modell finden Sie in der Console auf der Gemini-TTS-Modellkarte in Model Garden (über den Tab Media Studio).
Gemini-TTS in Vertex AI (Vertex AI Studio) testen
Gemini-TTS-Funktionen werden von folgenden Versionen unterstützt:
gemini-2.5-flash-tts: Gemini 2.5 Flash TTS eignet sich gut für kostengünstige TTS-Anwendungen für den Alltag.gemini-2.5-pro-tts: Gemini 2.5 Pro TTS eignet sich gut für die kontrollierbare Sprachgenerierung (TTS) und für die hochwertige Bearbeitung komplexer Prompts.
| Modell | Optimiert für | Eingabemodalität | Ausgabemodalität | Einzelner Sprecher | Mehrere Sprecher |
|---|---|---|---|---|---|
| Gemini 2.5 Flash TTS | Kostengünstige Audio-Generierung mit geringer Latenz und mit Steuerungsmöglichkeiten für die Sprachausgabe mit einem oder mehreren Sprechern für alltägliche Anwendungen | Text | Audio | ✔️ | ✔️ |
| Gemini 2.5 Pro TTS | Umfangreiche Kontrolle strukturierter Workflows wie Podcast-Generierung, Hörbücher, Kundensupport und mehr | Text | Audio | ✔️ | ✔️ |
Zusätzliche Einstellungen und Funktionen:
Natürliche Unterhaltung: Sprachinteraktionen von bemerkenswerter Qualität, angemessener Ausdruck und Prosodie (Rhythmusmuster) werden mit äußerst geringer Latenz bereitgestellt, sodass Sie sich flüssig unterhalten können.
Stilkontrolle: Mit Prompts in natürlicher Sprache können Sie die Art der Kommunikation im Gespräch anpassen, indem Sie bestimmte Akzente vorgeben sowie eine Reihe von Tönen und Ausdrücken generieren, einschließlich eines Flüstertons.
Dynamische Leistung: Diese Modelle können Text zum Leben erwecken und so für ausdrucksstarke Lesungen von Gedichten und Nachrichten sowie für fesselndes Storytelling sorgen. Sie können auch mit bestimmten Emotionen sprechen und auf Wunsch Akzente setzen.
Erweiterte Steuerung von Tempo und Aussprache: Durch die Steuerung der Wiedergabegeschwindigkeit wird die Genauigkeit der Aussprache, auch bei bestimmten Wörtern, verbessert.
Beispiele
model: "gemini-2.5-pro-tts" prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way." text: "hahah I did NOT expect that. Can you believe it!." speaker: "Callirhoe"
model: "gemini-2.5-flash-tts" prompt: "Say the following in a curious way" text: "OK, so... tell me about this [uhm] AI thing.", speaker: "Orus"
model: "gemini-2.5-flash-tts" prompt: "Say the following" text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions." speaker: "Kore"
Informationen zur programmatischen Verwendung dieser Stimmen finden Sie im Abschnitt Gemini-TTS verwenden.
Stimmoptionen
Gemini-TTS bietet eine Vielzahl von Sprachoptionen, die unseren vorhandenen HD-Stimmen von Chirp 3 ähneln, aber jeweils eigene Merkmale haben:
| Name | Geschlecht | Demo |
|---|---|---|
| Achernar | Weiblich | |
| Achird | Männlich | |
| Algenib | Männlich | |
| Algieba | Männlich | |
| Alnilam | Männlich | |
| Aoede | Weiblich | |
| Autonoe | Weiblich | |
| Callirrhoe | Weiblich | |
| Charon | Männlich | |
| Despina | Weiblich | |
| Enceladus | Männlich | |
| Erinome | Weiblich | |
| Fenrir | Männlich | |
| Gacrux | Weiblich | |
| Iapetus | Männlich | |
| Kore | Weiblich | |
| Laomedeia | Weiblich | |
| Leda | Weiblich | |
| Orus | Männlich | |
| Pulcherrima | Weiblich | |
| Puck | Männlich | |
| Rasalgethi | Männlich | |
| Sadachbia | Männlich | |
| Sadaltager | Männlich | |
| Schedar | Männlich | |
| Sulafat | Weiblich | |
| Umbriel | Männlich | |
| Vindemiatrix | Weiblich | |
| Zephyr | Weiblich | |
| Zubenelgenubi | Männlich |
Verfügbare Sprachen
Gemini-TTS unterstützt die folgenden Sprachen:
| Sprache | BCP-47-Code | Einführungsreife |
|---|---|---|
| Arabisch (Ägypten) | ar-EG | GA |
| Niederländisch (Niederlande) | nl-NL | GA |
| Englisch (Indien) | en-IN | GA |
| Englisch (USA) | en-US | GA |
| Französisch (Frankreich) | fr-FR | GA |
| Deutsch (Deutschland) | de-DE | GA |
| Hindi (Indien) | hi-IN | GA |
| Indonesisch (Indonesien) | id-ID | GA |
| Italienisch (Italien) | it-IT | GA |
| Japanisch (Japan) | ja-JP | GA |
| Koreanisch (Südkorea) | ko-KR | GA |
| Marathi (Indien) | mr-IN | GA |
| Polnisch (Polen) | pl-PL | GA |
| Portugiesisch (Brasilien) | pt-BR | GA |
| Rumänisch (Rumänien) | ro-RO | GA |
| Russisch (Russland) | ru-RU | GA |
| Spanisch (Spanien) | es-ES | GA |
| Tamil (Indien) | ta-IN | GA |
| Telugu (Indien) | te-IN | GA |
| Thailändisch (Thailand) | th-TH | GA |
| Türkisch (Türkei) | tr-TR | GA |
| Ukrainisch (Ukraine) | uk-UA | GA |
| Vietnamesisch (Vietnam) | vi-VN | GA |
| Afrikaans (Südafrika) | af-ZA | Vorschau |
| Albanisch (Albanien) | sq_AL | Vorschau |
| Amharisch (Äthiopien) | am-ET | Vorschau |
| Arabisch (Welt) | ar-001 | Vorschau |
| Armenisch (Armenien) | hy-AM | Vorschau |
| Aserbaidschanisch (Aserbaidschan) | az-AZ | Vorschau |
| Bengalisch (Bangladesch) | bn-bd | Vorschau |
| Baskisch (Spanien) | eu-ES | Vorschau |
| Belarussisch (Belarus) | be-BY | Vorschau |
| Bulgarisch (Bulgarien) | bg-BG | Vorschau |
| Burmesisch (Myanmar) | My-MM | Vorschau |
| Katalanisch (Spanien) | ca-ES | Vorschau |
| Cebuano (Philippinen) | ceb-PH | Vorschau |
| Chinesisch, Mandarin (China) | cmn-CN | Vorschau |
| Chinesisch (Mandarin) – Taiwan | cmn-TW | Vorschau |
| Kroatisch (Kroatien) | hr-HR | Vorschau |
| Tschechisch (Tschechische Republik) | cs-CZ | Vorschau |
| Dänisch (Dänemark) | da-DK | Vorschau |
| Englisch (Australien) | en-AU | Vorschau |
| Englisch (Vereinigtes Königreich) | de-DE | Vorschau |
| Estnisch (Estland) | et-EE | Vorschau |
| Philippinisch (Philippinen) | fil-PH | Vorschau |
| Finnisch (Finnland) | fi-FI | Vorschau |
| Französisch (Kanada) | fr-CA | Vorschau |
| Galizisch (Spanien) | gl-ES | Vorschau |
| Georgisch (Georgien) | ka-GE | Vorschau |
| Griechisch (Griechenland) | el-GR | Vorschau |
| Gujarati (Indien) | gu-IN | Vorschau |
| Haitianisches Kreolisch (Haiti) | ht-HT | Vorschau |
| Hebräisch (Israel) | he-IL | Vorschau |
| Ungarisch (Ungarn) | hu-HU | Vorschau |
| Isländisch (Island) | is-IS | Vorschau |
| Javanisch (Java) | jv-JV | Vorschau |
| Kannada (Indien) | kn-IN | Vorschau |
| Konkani (Indien) | kok-in | Vorschau |
| Lao (Laos) | lo-LA | Vorschau |
| Lateinisch (Vatikanstadt) | la-VA | Vorschau |
| Lettisch (Lettland) | lv-LV | Vorschau |
| Litauisch (Litauen) | lt-IT | Vorschau |
| Luxemburgisch (Luxemburg) | lb-LU | Vorschau |
| Mazedonisch (Nordmazedonien) | mk_MK | Vorschau |
| Maithili (Indien) | mai-IN | Vorschau |
| Malagasy (Madagaskar) | mg-MG | Vorschau |
| Malaiisch (Malaysia) | ms-MY | Vorschau |
| Malayalam (Indien) | ml-IN | Vorschau |
| Mongolisch (Mongolei) | mn-MN | Vorschau |
| Nepalesisch (Nepal) | ne-NP | Vorschau |
| Norwegisch (Norwegen) | nb-NO | Vorschau |
| Norwegisch, Nynorsk (Norwegen) | nn-NO | Vorschau |
| Oriya (Indien) | or-IN | Vorschau |
| Paschtu (Afghanistan) | ps-AF | Vorschau |
| Persisch (Iran) | fa-IR | Vorschau |
| Portugiesisch (Portugal) | pt-PT | Vorschau |
| Panjabi (Indien) | pa-IN | Vorschau |
| Serbisch (Serbien) | sr-RS | Vorschau |
| Sindhi (Indien) | sd-IN | Vorschau |
| Singhalesisch (Sri Lanka) | si-LK | Vorschau |
| Slowakisch (Slowakei) | sk-SK | Vorschau |
| Slowenisch (Slowenien) | sl-SI | Vorschau |
| Spanisch (Lateinamerika) | es-419 | Vorschau |
| Spanisch (Mexiko) | es-MX | Vorschau |
| Swahili (Kenia) | sw-KE | Vorschau |
| Schwedisch (Schweden) | sv-SE | Vorschau |
| Urdu (Pakistan) | ur-PK | Vorschau |
Regionale Verfügbarkeit
Gemini-TTS-Modelle sind in den folgenden Regionen von Google Cloud verfügbar:
| Zone vonGoogle Cloud | Einführungsreife |
|---|---|
global |
GA |
Unterstützte Ausgabeformate
Das Standardantwortformat ist LINEAR16. Weitere unterstützte Formate sind:
| API-Methode | Format |
|---|---|
batch |
ALAW, MULAW, MP3, OGG_OPUS und PCM |
streaming |
Nicht unterstützt |
Gemini-TTS verwenden
Hier erfahren Sie, wie Sie mit Gemini-TTS-Modellen Sprache von einem einzelnen Sprecher und von mehreren Sprechern synthetisieren.
Hinweis
Bevor Sie Text-to-Speech verwenden können, müssen Sie die API in derGoogle Cloud Console aktivieren. Gehen Sie dazu so vor:
- Aktivieren Sie Text-to-Speech für ein Projekt.
- Prüfen Sie, ob die Abrechnung für Text-to-Speech aktiviert ist.
- Richten Sie die Authentifizierung für Ihre Entwicklungsumgebung ein.
Google Cloud -Projekt einrichten
Rufen Sie die Seite zur Projektauswahl auf.
Sie können entweder ein vorhandenes Projekt auswählen oder ein neues Projekt erstellen. Weitere Informationen zum Erstellen eines Projekts finden Sie in der Google Cloud -Dokumentation.
Wenn Sie ein neues Projekt erstellen, wird eine Meldung angezeigt, in der Sie aufgefordert werden, ein Rechnungskonto zu verknüpfen. Wenn Sie ein bereits vorhandenes Projekt verwenden, muss die Abrechnung aktiviert sein.
Informationen dazu, wie Sie prüfen, ob die Abrechnung für Ihr Projekt aktiviert ist
Nachdem Sie ein Projekt ausgewählt und mit einem Rechnungskonto verknüpft haben, können Sie die Text-to-Speech API aktivieren. Geben Sie oben auf der Seite in die Leiste Produkte und Ressourcen suchen den Text speech ein. Wählen Sie aus der Liste der Ergebnisse die Cloud Text-to-Speech API aus.
Wenn Sie Text-to-Speech testen möchten, ohne es mit Ihrem Projekt zu verknüpfen, wählen Sie die Option Diese API testen aus. Klicken Sie auf Aktivieren, um die Text-to-Speech API für Ihr Projekt zu aktivieren.
Richten Sie die Authentifizierung für Ihre Entwicklungsumgebung ein. Eine Anleitung dazu finden Sie unter Authentifizierung für Text-to-Speech einrichten.
Synchrone Sprachsynthese mit einer Stimme durchführen
Python
# google-cloud-texttospeech minimum version 2.29.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
"""Synthesizes speech from the input text and saves it to an MP3 file.
Args:
prompt: Styling instructions on how to synthesize the content in
the text field.
text: The text to synthesize.
output_filepath: The path to save the generated audio file.
Defaults to "output.mp3".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
# Select the voice you want to use.
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="Charon", # Example voice, adjust as needed
model_name="gemini-2.5-pro-tts"
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type.
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following in a curious way",
"text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
"languageCode": "en-us",
"name": "Kore",
"model_name": "gemini-2.5-flash-tts"
},
"audioConfig": {
"audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Synchrone Sprachsynthese mit mehreren Sprechern mit Freiformtext-Eingabe durchführen
Python
# google-cloud-texttospeech minimum version 2.31.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize_multispeaker_freeform(
prompt: str,
text: str,
output_filepath: str = "output_non_turn_based.wav",
):
"""Synthesizes speech from non-turn-based input and saves it to a WAV file.
Args:
prompt: Styling instructions on how to synthesize the content in the
text field.
text: The text to synthesize, containing speaker aliases to indicate
different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
output_filepath: The path to save the generated audio file. Defaults to
"output_non_turn_based.wav".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker1",
speaker_id="Kore",
),
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker2",
speaker_id="Charon",
),
]
)
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
model_name="gemini-2.5-pro-tts",
multi_speaker_voice_config=multi_speaker_voice_config,
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following as a conversation between friends.",
"text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
},
"voice": {
"languageCode": "en-us",
"modelName": "gemini-2.5-flash-tts",
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [
{
"speakerAlias": "Sam",
"speakerId": "Kore"
},
{
"speakerAlias": "Bob",
"speakerId": "Charon"
}
]
}
},
"audioConfig": {
"audioEncoding": "LINEAR16",
"sampleRateHertz": 24000
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Synchrone Sprachsynthese mit mehreren Sprechern mit strukturierter Texteingabe durchführen
Mit der Funktion „Mehrere Sprecher mit strukturierter Texteingabe“ kann Text auf intelligente Weise menschenähnlich formuliert werden. Diese Art von Eingabe ist beispielsweise für Adressen und Datumsangaben hilfreich. Bei der Eingabe von Freitext wird der Text exakt so gesprochen, wie er geschrieben wurde.
Python
# google-cloud-texttospeech minimum version 2.31.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize_multispeaker_structured(
prompt: str,
turns: list[texttospeech.MultiSpeakerMarkup.Turn],
output_filepath: str = "output_turn_based.wav",
):
"""Synthesizes speech from turn-based input and saves it to a WAV file.
Args:
prompt: Styling instructions on how to synthesize the content in the
text field.
turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
the dialogue turns.
output_filepath: The path to save the generated audio file. Defaults to
"output_turn_based.wav".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(
multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
prompt=prompt,
)
multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker1",
speaker_id="Kore",
),
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker2",
speaker_id="Charon",
),
]
)
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
model_name="gemini-2.5-pro-tts",
multi_speaker_voice_config=multi_speaker_voice_config,
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following as a conversation between friends.",
"multiSpeakerMarkup": {
"turns": [
{
"speaker": "Sam",
"text": "Hi Bob, how are you?"
},
{
"speaker": "Bob",
"text": "I am doing well, and you?"
}
]
}
},
"voice": {
"languageCode": "en-us",
"modelName": "gemini-2.5-flash-tts",
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [
{
"speakerAlias": "Sam",
"speakerId": "Kore"
},
{
"speakerAlias": "Bob",
"speakerId": "Charon"
}
]
}
},
"audioConfig": {
"audioEncoding": "LINEAR16",
"sampleRateHertz": 24000
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Sprachsynthese in Media Studio durchführen
Sie können Media Studio in der Google Google Cloud Console verwenden, um mit Text-zu-Sprache-Modellen zu experimentieren. Damit erhalten Sie eine Benutzeroberfläche, mit der Sie schnell synthetisierte Audioinhalte generieren und anhören sowie mit verschiedenen Stilvorgaben und Parametern experimentieren können.
Rufen Sie in der Google Google Cloud Console die Seite Vertex AI Studio > Media Studio auf.
Wählen Sie im Media-Drop-down-Menü Sprache aus.
Geben Sie in das Textfeld den Text ein, der in Sprache synthetisiert werden soll.
Legen Sie im Bereich Einstellungen die folgenden Einstellungen fest:
- Modell: Wählen Sie das gewünschte TTS-Modell (Text-to-Speech) aus, z. B.
Gemini 2.5 Pro TTS. Weitere Informationen zu den verfügbaren Modellen finden Sie unter Text-to-Speech-Modelle. - Stilanweisungen: (Optional) Geben Sie einen Textprompt ein, der den ausgewählten Sprechstil, Tonfall und die emotionale Wiedergabe beschreibt. So können Sie die Leistung des Modells über die Standard-Narrative hinaus steuern. Beispiel: „Sprich in einem ruhigen, professionellen Ton für eine Dokumentation.“
- Sprache: Wählen Sie die Sprache und Region des eingegebenen Texts aus. Das Modell generiert eine Rede in der ausgewählten Sprache und mit dem ausgewählten Akzent. Beispiel: Englisch (USA).
- Stimme: Wählen Sie eine vordefinierte Stimme für das Narrativ aus. Die Liste enthält die verfügbaren Stimmen für das ausgewählte Modell und die ausgewählte Sprache, z. B. Achernar (weiblich).
- Modell: Wählen Sie das gewünschte TTS-Modell (Text-to-Speech) aus, z. B.
Optional: Maximieren Sie den Abschnitt „Erweiterte Optionen“, um technische Audioeinstellungen festzulegen:
- Audiocodierung: Wählen Sie die Codierung für die Audioausgabedatei aus.
LINEAR16ist ein verlustfreies, nicht komprimiertes Format, das sich für die Verarbeitung von Audio in hoher Qualität eignet.MULAWist auch für die Ausgabe von komprimiertem Audio verfügbar. - Audioabtastrate Wählen Sie die Abtastrate in Hertz (Hz) aus. Dadurch wird die Audioqualität bestimmt. Höhere Werte wie 44.100 Hz stehen für Audio mit höherer Wiedergabetreue, die CD-Qualität entspricht.
- Geschwindigkeit: Sie können die Sprechgeschwindigkeit anpassen, indem Sie den Schieberegler entsprechend positionieren oder einen Wert eingeben. Werte unter 1 verlangsamen die Sprechgeschwindigkeit, Werte über 1 beschleunigen sie. Der Standardwert ist 1.
- Lautstärkepegel (dB): Hiermit passen Sie die Lautstärke des ausgegebenen Audiosignals in Dezibel (dB) an. Positive Werte erhöhen die Lautstärke, negative Werte verringern sie. Der Standardwert ist 0.
- Audiocodierung: Wählen Sie die Codierung für die Audioausgabedatei aus.
Klicken Sie rechts neben dem Textfeld auf das Symbol Senden, um die Audioausgabe zu generieren.
Das generierte Audio wird im Mediaplayer angezeigt. Klicken Sie auf die Wiedergabeschaltfläche, um die Ausgabe anzuhören. Sie können die Einstellungen weiter anpassen und bei Bedarf neue Versionen generieren.
Tipps für Prompts
Um ansprechende, natürlich klingende Audioinhalte aus Text zu generieren, müssen die Feinheiten der gesprochenen Sprache erfasst und in Skriptform übersetzt werden. Die folgenden Tipps helfen Ihnen, authentisch klingende Skripte zu erstellen, die den gewählten Tonfall treffen.
Die drei Hebel der Sprachsteuerung
Damit Sie möglichst vorhersehbare und differenzierte Ergebnisse erhalten, müssen alle der drei folgenden Komponenten mit der gewünschten Ausgabe übereinstimmen.
Stil-Prompt: Die primäre Quelle für den emotionalen Tonfall und die Art der Wiedergabe. Der Prompt legt den Kontext für das gesamte Sprachsegment fest.
Beispiel:
You are an AI assistant speaking in a friendly and helpful tone.Beispiel:
Narrate this in the calm, authoritative tone of a nature documentary narrator.
Textinhalte: Die semantische Bedeutung der Wörter, die Sie synthetisieren. Eine aussagekräftige Formulierung, die emotional mit dem Stil-Prompt übereinstimmt, führt zu erheblich zuverlässigeren Ergebnissen als neutraler Text.
Gut: Ein Prompt für einen ängstlichen Tonfall funktioniert am besten mit Text wie
I think someone is in the house.Weniger effektiv: Ein Prompt für einen ängstlichen Tonfall mit Text wie
The meeting is at 4 PM.führt zu mehrdeutigen Ergebnissen.
Markup-Tags: Tags in Klammern wie [sigh] eignen sich vor allem, um eine bestimmte, lokalisierte Aktion oder Stiländerung einzufügen, nicht um den allgemeinen Tonfall festzulegen. Sie werden in Kombination mit dem Stil-Prompt und dem Textinhalt angewendet.
Leitfaden zu Markup-Tags
Unsere Untersuchungen haben gezeigt, dass Markup-Tags in geschweiften Klammern in einem von drei verschiedenen Modi funktionieren. Damit Sie ein Tag effektiv verwenden können, müssen Sie seinen Modus kennen.
Modus 1: Geräusche
Das Markup wird durch eine hörbare, nicht sprachliche Stimmgebung ersetzt (z. B. ein Seufzer, ein Lachen). Das Tag selbst wird nicht gesprochen. Markups eignen sich hervorragend, um ein realistisches, menschliches Zögern und um menschliche Reaktionen hinzuzufügen.
| Tag | Verhalten | Zuverlässigkeit | Anleitung |
|---|---|---|---|
[sigh] |
Fügt ein Seufzen ein. | Hoch | Die emotionale Qualität des Seufzers wird durch den Prompt bestimmt. |
[laughing] |
Fügt ein Lachen ein. | Hoch | Die besten Ergebnisse erzielen Sie mit einem spezifischen Prompt. Ein allgemeiner Prompt kann beispielsweise ein nervöses Lachen hervorrufen, während „Reagiere mit einem amüsierten Lachen“ ein Lachen aus Belustigung generiert. |
[uhm] |
Fügt ein Zögern ein. | Hoch | Hilfreich, um einen natürlicheren Stil der Unterhaltung zu generiere. |
Modus 2: Stilmodifikatoren
Das Markup wird nicht gesprochen, sondern die Wiedergabe wird der nachfolgenden Sprache angepasst. Umfang und Dauer der Änderung können variieren.
| Tag | Verhalten | Zuverlässigkeit | Anleitung |
|---|---|---|---|
[sarcasm] |
Verleiht der nachfolgenden Formulierung einen sarkastischen Tonfall. | Hoch | Dieses Tag ist ein leistungsstarker Modifikator. Es zeigt, dass abstrakte Konzepte die Ausgabe des Modells erfolgreich steuern können. |
[robotic] |
Dadurch klingt die nachfolgende Sprache roboterhaft. | Hoch | Der Effekt kann sich über eine komplette Formulierung erstrecken. Ein unterstützender Stil-Prompt (z. B. „Sag das auf roboterhafte Weise“) ist weiterhin empfehlenswert, um die besten Ergebnisse zu erzielen. |
[shouting] |
Erhöht die Lautstärke der nachfolgenden Sprache. | Hoch | Am effektivsten ist die Funktion, wenn sie mit einem passenden Stil-Prompt kombiniert wird, z. B. „Schrei diesen nächsten Abschnitt“, und mit Text, der darauf hindeutet, dass gebrüllt wird. |
[whispering] |
Verringert die Lautstärke der nachfolgenden Sprache. | Hoch | Die besten Ergebnisse werden erzielt, wenn auch der Stil-Prompt explizit formuliert ist, z. B. „Flüstere diesen Teil jetzt so leise wie möglich“. |
[extremely fast] |
Erhöht die Geschwindigkeit der nachfolgenden Sprache. | Hoch | Ideal für Haftungsausschlüsse oder schnelle Dialoge. Es ist nur eine minimale Unterstützung durch Prompts erforderlich. |
Modus 3: Gesprochenes Markup (Adjektive)
Das Markup-Tag selbst wird als Wort gesprochen und beeinflusst gleichzeitig den Tonfall des gesamten Satzes. Dieses Verhalten gilt in der Regel für emotionale Adjektive.
Warnung: Da das Tag selbst gesprochen wird, hat dieser Modus für die meisten Anwendungsfälle wahrscheinlich unerwünschte Nebenwirkungen. Verwenden Sie stattdessen den Stil-Prompt, um einen solchen emotionalen Tonfall festzulegen.
| Tag | Verhalten | Zuverlässigkeit | Anleitung |
|---|---|---|---|
[scared] |
Das Wort „verängstigt“ wird gesprochen und der Satz erhält einen ängstlichen Ton. | Hoch | Die Leistung hängt stark von den Textinhalten ab. Der Satz „Ich habe gerade gehört, wie ein Fenster zerbrochen ist“ führt zu einem authentisch verängstigten Ergebnis. Eine neutrale Formulierung führt zu einem eher „schaurigen“, aber weniger authentischen Ergebnis. |
[curious] |
Das Wort „neugierig“ wird gesprochen und der Satz erhält einen neugierigen Tonfall. | Hoch | Verwenden Sie eine fragende Formulierung, um die Intention des Tags zu unterstützen. |
[bored] |
Das Wort „gelangweilt“ wird gesprochen und der Satz wird gelangweilt und monoton wiedergegeben. | Hoch | Die Funktion eignet sich am besten für alltägliche oder sich wiederholende Texte. |
Modus 4: Taktung und Pausen
Mit diesen Tags wird Stille in das generierte Audio eingefügt. Damit haben Sie die Möglichkeit, Rhythmus, Timing und Tempo genau zu steuern. Durch Standard-Satzzeichen (Kommas, Punkte, Semikolons) werden ebenfalls natürliche Pausen erzeugt. Diese Tags bieten aber eine explizitere Steuerung.
| Tag | Verhalten | Zuverlässigkeit | Anleitung |
|---|---|---|---|
[short pause] |
Fügt eine kurze Pause ein, ähnlich einem Komma (~250 ms). | Hoch | Damit können Sie Satzteile oder Listenelemente trennen, um für mehr Klarheit zu sorgen. |
[medium pause] |
Fügt eine Standardpause ein, ähnlich wie bei einem Satzende (~500 ms). | Hoch | Eignet sich gut, um einzelne Sätze oder Gedanken voneinander zu trennen. |
[long pause] |
Fügt eine längere Pause für einen dramatischen Effekt ein (ca. 1000 ms oder länger). | Hoch | Wird für dramatische Timing-Effekte verwendet. Beispiel: „Die Antwort ist… [long pause] … nein.“ Vermeiden Sie eine übermäßige Verwendung, da sie unnatürlich klingen kann. |
Wichtige Strategien für zuverlässige Ergebnisse
Alle drei Hebel aufeinander abstimmen: Für maximale Vorhersehbarkeit sollten Ihr Stil-Prompt, Ihr Textinhalt und alle Markup-Tags semantisch konsistent und auf dasselbe Ziel ausgerichtet sein.
Emotionalen Text verwenden: Verlassen Sie sich nicht nur auf Prompts und Tags. Fügen Sie dem Modell aussagekräftigen, beschreibenden Text hinzu. Das ist besonders wichtig für subtile Emotionen wie Sarkasmus, Angst oder Aufregung.
Spezifische, detaillierte Prompts schreiben: Je spezifischer Ihr Stil-Prompt ist, desto zuverlässiger ist das Ergebnis. „Reagiere mit einem amüsierten Lachen“ ist besser als nur
[laughing]. „Sprich wie ein Radiosprecher aus den 1940er-Jahren“ ist besser als „Sprich altmodisch“.Neue Tags testen und überprüfen: Das Verhalten eines neuen oder nicht getesteten Tags ist nicht immer vorhersehbar. Ein Tag, das Sie für einen Stilmodifikator halten, wird möglicherweise gesprochen. Testen Sie immer eine neue Tag- oder Prompt-Kombination, um das Verhalten zu prüfen, bevor Sie sie in der Produktion bereitstellen.
Colab-Notebook ausprobieren
Notebook auf GitHub ansehen