Gemini-TTS

Gemini-TTS in Vertex AI Studio ausprobieren In Colab ausprobieren Notebook auf GitHub ansehen

Gemini-TTS ist die neueste Entwicklung unserer Text-to-Speech-Technologie. Sie geht über die natürliche Sprachwiedergabe hinaus und ermöglicht eine detaillierte Steuerung der generierten Audioausgabe mithilfe von textbasierten Prompts. Mit Gemini-TTS können Sie Sprache mit einem oder mehreren Sprechern von kurzen Snippets bis hin zu langen Erzählungen synthetisieren. Dabei lassen sich Stil, Akzent, Tempo, Ton und sogar emotionaler Ausdruck präzise festlegen – alles über Prompts in natürlicher Sprache.

Verfügbare Modelle

Gemini-TTS umfasst die folgenden verfügbaren Modelle:

Gemini 2.5 Flash TTS

Modell-ID gemini-2.5-flash-tts
Optimiert für Kostengünstige Audio-Generierung mit geringer Latenz und mit Steuerungsmöglichkeiten für die Sprachausgabe mit einem oder mehreren Sprechern für alltägliche Anwendungen
Eingabe- und Ausgabemodalitäten
  • Eingabe: Text
  • Ausgabe: Audio
Unterstützte Sprecheranzahl Einzelner Sprecher, mehrere Sprecher
Unterstützte Audioausgabeformate* LINEAR16 (Standard), ALAW, MULAW, MP3, OGG_OPUS, PCM
Unterstützte Regionen global
Stimmoptionen Stimmoptionen
Verfügbare Sprachen Verfügbare Sprachen
Beispiel
model: "gemini-2.5-flash-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary.
       Check our website or your local store for complete
       details and restrictions."
speaker: "Kore"
            

Gemini 2.5 Pro TTS

Modell-ID gemini-2.5-pro-tts
Optimiert für Umfangreiche Kontrolle strukturierter Workflows wie Podcast-Generierung, Hörbücher, Kundensupport und mehr
Eingabe- und Ausgabemodalitäten
  • Eingabe: Text
  • Ausgabe: Audio
Unterstützte Sprecheranzahl Einzelner Sprecher, mehrere Sprecher
Unterstützte Audioausgabeformate* LINEAR16 (Standard), ALAW, MULAW, MP3, OGG_OPUS, PCM
Unterstützte Regionen global
Stimmoptionen Stimmoptionen
Verfügbare Sprachen Verfügbare Sprachen
Beispiel
model: "gemini-2.5-pro-tts"
prompt: "You are having a casual conversation with a friend.
         Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirrhoe"
            

* Nur batch. streaming wird nicht unterstützt.

Weitere Einstellungen

Zusätzliche Einstellungen und Funktionen:

  1. Natürliche Unterhaltung: Sprachinteraktionen von bemerkenswerter Qualität, angemessener Ausdruck und Rhythmusmuster werden mit äußerst geringer Latenz erzielt, sodass Sie sich flüssig unterhalten können.

  2. Stilkontrolle: Mit Prompts in natürlicher Sprache können Sie die Art der Kommunikation im Gespräch anpassen, indem Sie bestimmte Akzente vorgeben sowie eine Reihe von Tönen und Ausdrücken generieren, einschließlich eines Flüstertons.

  3. Dynamische Leistung: Diese Modelle können Text zum Leben erwecken und eignen sich für ausdrucksstarke Lesungen von Gedichten und Nachrichten sowie für fesselndes Storytelling. Sie können auch bestimmte Emotionen ausdrücken und auf Wunsch Akzente setzen.

  4. Erweiterte Steuerung von Tempo und Aussprache: Durch die Steuerung der Wiedergabegeschwindigkeit wird die Genauigkeit der Aussprache, auch bei bestimmten Wörtern, verbessert.

Informationen zur Verwendung dieser Stimmen in Ihrer Anwendung finden Sie unter Gemini-TTS verwenden.

Stimmoptionen

Gemini-TTS bietet eine Vielzahl von Sprachoptionen, die unseren vorhandenen HD-Stimmen von Chirp 3 ähneln, aber jeweils eigene Merkmale haben:

Name Geschlecht Demo
Achernar Weiblich
Achird Männlich
Algenib Männlich
Algieba Männlich
Alnilam Männlich
Aoede Weiblich
Autonoe Weiblich
Callirrhoe Weiblich
Charon Männlich
Despina Weiblich
Enceladus Männlich
Erinome Weiblich
Fenrir Männlich
Gacrux Weiblich
Iapetus Männlich
Kore Weiblich
Laomedeia Weiblich
Leda Weiblich
Orus Männlich
Pulcherrima Weiblich
Puck Männlich
Rasalgethi Männlich
Sadachbia Männlich
Sadaltager Männlich
Schedar Männlich
Sulafat Weiblich
Umbriel Männlich
Vindemiatrix Weiblich
Zephyr Weiblich
Zubenelgenubi Männlich

Verfügbare Sprachen

Gemini-TTS unterstützt die folgenden Sprachen:

Sprache BCP-47-Code Einführungsreife
Arabisch (Ägypten) ar-EG GA
Niederländisch (Niederlande) nl-NL GA
Englisch (Indien) en-IN GA
Englisch (USA) en-US GA
Französisch (Frankreich) fr-FR GA
Deutsch (Deutschland) de-DE GA
Hindi (Indien) hi-IN GA
Indonesisch (Indonesien) id-ID GA
Italienisch (Italien) it-IT GA
Japanisch (Japan) ja-JP GA
Koreanisch (Südkorea) ko-KR GA
Marathi (Indien) mr-IN GA
Polnisch (Polen) pl-PL GA
Portugiesisch (Brasilien) pt-BR GA
Rumänisch (Rumänien) ro-RO GA
Russisch (Russland) ru-RU GA
Spanisch (Spanien) es-ES GA
Tamil (Indien) ta-IN GA
Telugu (Indien) te-IN GA
Thailändisch (Thailand) th-TH GA
Türkisch (Türkei) tr-TR GA
Ukrainisch (Ukraine) uk-UA GA
Vietnamesisch (Vietnam) vi-VN GA
Afrikaans (Südafrika) af-ZA Vorschau
Albanisch (Albanien) sq-AL Vorschau
Amharisch (Äthiopien) am-ET Vorschau
Arabisch (Welt) ar-001 Vorschau
Armenisch (Armenien) hy-AM Vorschau
Aserbaidschanisch (Aserbaidschan) az-AZ Vorschau
Bengalisch (Bangladesch) bn-BD Vorschau
Baskisch (Spanien) eu-ES Vorschau
Belarussisch (Belarus) be-BY Vorschau
Bulgarisch (Bulgarien) bg-BG Vorschau
Burmesisch (Myanmar) my-MM Vorschau
Katalanisch (Spanien) ca-ES Vorschau
Cebuano (Philippinen) ceb-PH Vorschau
Chinesisch, Mandarin (China) cmn-CN Vorschau
Chinesisch, Mandarin (Taiwan) cmn-tw Vorschau
Kroatisch (Kroatien) hr-HR Vorschau
Tschechisch (Tschechische Republik) cs-CZ Vorschau
Dänisch (Dänemark) da-DK Vorschau
Englisch (Australien) en-AU Vorschau
Englisch (Vereinigtes Königreich) de-DE Vorschau
Estnisch (Estland) et-EE Vorschau
Philippinisch (Philippinen) fil-PH Vorschau
Finnisch (Finnland) fi-FI Vorschau
Französisch (Kanada) fr-CA Vorschau
Galizisch (Spanien) gl-ES Vorschau
Georgisch (Georgien) ka-GE Vorschau
Griechisch (Griechenland) el-GR Vorschau
Gujarati (Indien) gu-IN Vorschau
Haitianisches Kreolisch (Haiti) ht-HT Vorschau
Hebräisch (Israel) he-IL Vorschau
Ungarisch (Ungarn) hu-HU Vorschau
Isländisch (Island) is-IS Vorschau
Javanisch (Java) jv-JV Vorschau
Kannada (Indien) kn-IN Vorschau
Konkani (Indien) kok-IN Vorschau
Lao (Laos) lo-LA Vorschau
Lateinisch (Vatikanstadt) la-VA Vorschau
Lettisch (Lettland) lv-LV Vorschau
Litauisch (Litauen) lt-LT Vorschau
Luxemburgisch (Luxemburg) lb-LU Vorschau
Mazedonisch (Nordmazedonien) mk-MK Vorschau
Maithili (Indien) mai-IN Vorschau
Malagasy (Madagaskar) mg-MG Vorschau
Malaiisch (Malaysia) ms-MY Vorschau
Malayalam (Indien) ml-IN Vorschau
Mongolisch (Mongolei) mn-MN Vorschau
Nepalesisch (Nepal) ne-NP Vorschau
Norwegisch (Norwegen) nb-NO Vorschau
Norwegisch, Nynorsk (Norwegen) nn-NO Vorschau
Oriya (Indien) or-IN Vorschau
Paschtu (Afghanistan) ps-AF Vorschau
Persisch (Iran) fa-IR Vorschau
Portugiesisch (Portugal) pt-PT Vorschau
Panjabi (Indien) pa-IN Vorschau
Serbisch (Serbien) sr-RS Vorschau
Sindhi (Indien) sd-IN Vorschau
Singhalesisch (Sri Lanka) si-LK Vorschau
Slowakisch (Slowakei) sk-SK Vorschau
Slowenisch (Slowenien) sl-SI Vorschau
Spanisch (Lateinamerika) es-419 Vorschau
Spanisch (Mexiko) es-MX Vorschau
Swahili (Kenia) sw-KE Vorschau
Schwedisch (Schweden) sv-SE Vorschau
Urdu (Pakistan) ur-PK Vorschau

Gemini-TTS verwenden

Hier erfahren Sie, wie Sie mit Gemini-TTS-Modellen Sprache für einen einzelnen Sprecher und für mehrere Sprecher synthetisieren.

Beschreibung Limit Typ
Textfeld Weniger als oder gleich 4.000 Byte. Eingabe
Prompt-Feld Weniger als oder gleich 4.000 Byte. Eingabe
Text- und Prompt-Felder Weniger als oder gleich 8.000 Byte. Eingabe
Dauer des Ausgabeaudios Etwa 655 Sekunden. Wenn der Eingabetext dazu führt, dass das Audio 655 Sekunden überschreitet, wird es gekürzt. Ausgabe

Hinweis

Bevor Sie Text-to-Speech verwenden können, müssen Sie die API in derGoogle Cloud Console aktivieren. Gehen Sie dazu so vor:

  1. Text-to-Speech für ein Projekt aktivieren
  2. Prüfen, ob die Abrechnung für Text-to-Speech aktiviert ist
  3. Authentifizierung für Ihre Entwicklungsumgebung einrichten

Projekt in Google Cloud einrichten

  1. Melden Sie sich bei der Google Cloud Console an.

  2. Rufen Sie die Seite zur Projektauswahl auf.

    Sie können entweder ein vorhandenes Projekt auswählen oder ein neues erstellen. Weitere Informationen zum Erstellen eines Projekts finden Sie in derGoogle Cloud Dokumentation.

  3. Wenn Sie ein neues Projekt erstellen, wird eine Meldung angezeigt, in der Sie aufgefordert werden, ein Rechnungskonto zu verknüpfen. Wenn Sie ein bereits vorhandenes Projekt verwenden, muss die Abrechnung aktiviert sein.

    Informationen dazu, wie Sie prüfen, ob die Abrechnung für Ihr Projekt aktiviert ist

  4. Nachdem Sie ein Projekt ausgewählt und mit einem Rechnungskonto verknüpft haben, können Sie die Text-to-Speech API aktivieren. Geben Sie oben auf der Seite in die Leiste Produkte und Ressourcen suchen den Text speech ein. Wählen Sie aus der Liste der Ergebnisse die Cloud Text-to-Speech API aus.

  5. Wenn Sie Text-to-Speech testen möchten, ohne es mit Ihrem Projekt zu verknüpfen, wählen Sie die Option Diese API testen aus. Klicken Sie auf Aktivieren, um die Text-to-Speech API für Ihr Projekt zu aktivieren.

  6. Authentifizierung für Ihre Entwicklungsumgebung einrichten Eine Anleitung finden Sie unter Authentifizierung für Text-to-Speech einrichten.

Synchrone Sprachsynthese mit einem Sprecher durchführen

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
    """Synthesizes speech from the input text and saves it to an MP3 file.

    Args:
        prompt: Styling instructions on how to synthesize the content in
          the text field.
        text: The text to synthesize.
        output_filepath: The path to save the generated audio file.
          Defaults to "output.mp3".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    # Select the voice you want to use.
    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        name="Charon",  # Example voice, adjust as needed
        model_name="gemini-2.5-pro-tts"
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3
    )

    # Perform the text-to-speech request on the text input with the selected
    # voice parameters and audio file type.
    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    # The response's audio_content is binary.
    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following in a curious way",
    "text": "OK, so... tell me about this [uhm] AI thing."
  },
  "voice": {
    "languageCode": "en-us",
    "name": "Kore",
    "model_name": "gemini-2.5-flash-tts"
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16"
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Synchrone Sprachsynthese mit mehreren Sprechern mit Texteingabe im Freiformat durchführen

Beschreibung Einschränkungen und Limits Typ
Textfeld Weniger als oder gleich 4.000 Byte Eingabe
Prompt-Feld Weniger als oder gleich 4.000 Byte Eingabe
Text- und Prompt-Felder Weniger als oder gleich 8.000 Byte Eingabe
Sprecher-Aliasse Alphanumerische Zeichen und keine Leerzeichen Eingabe
Dauer des Ausgabeaudios Etwa 655 Sekunden. Wenn der Eingabetext dazu führt, dass das Audio 655 Sekunden überschreitet, wird es gekürzt. Ausgabe

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_freeform(
    prompt: str,
    text: str,
    output_filepath: str = "output_non_turn_based.wav",
):
    """Synthesizes speech from non-turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        text: The text to synthesize, containing speaker aliases to indicate
          different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
        output_filepath: The path to save the generated audio file. Defaults to
          "output_non_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Synchrone Sprachsynthese mit mehreren Sprechern mit strukturierter Texteingabe durchführen

Mit der Funktion „Mehrere Sprecher mit strukturierter Texteingabe“ kann Text auf intelligente Weise menschenähnlich formuliert werden. Diese Art von Eingabe ist beispielsweise für Adressen und Datumsangaben hilfreich. Bei der Eingabe von Freitext wird der Text exakt so gesprochen, wie er geschrieben wurde.

Beschreibung Einschränkungen und Limits Typ
MultiSpeakerMarkUp-Feld Weniger als oder gleich 4.000 Byte Eingabe
Prompt-Feld Weniger als oder gleich 4.000 Byte Eingabe
MultiSpeakerMarkUp- und Prompt-Felder Weniger als oder gleich 8.000 Byte Eingabe
Sprecher-Aliasse Alphanumerische Zeichen und keine Leerzeichen Eingabe
Dauer des Ausgabeaudios Etwa 655 Sekunden. Wenn der Eingabetext dazu führt, dass das Audio 655 Sekunden überschreitet, wird es gekürzt. Ausgabe

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_structured(
    prompt: str,
    turns: list[texttospeech.MultiSpeakerMarkup.Turn],
    output_filepath: str = "output_turn_based.wav",
):
    """Synthesizes speech from turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
          the dialogue turns.
        output_filepath: The path to save the generated audio file. Defaults to
          "output_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(
        multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
        prompt=prompt,
    )

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "multiSpeakerMarkup": {
      "turns": [
        {
          "speaker": "Sam",
          "text": "Hi Bob, how are you?"
        },
        {
          "speaker": "Bob",
          "text": "I am doing well, and you?"
        }
      ]
    }
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Sprachsynthese in Media Studio durchführen

Sie können Media Studio in der Google Google Cloud Console verwenden, um Text-to-Speech-Modelle auszuprobieren. Mithilfe dieser Benutzeroberfläche können Sie schnell synthetisierte Audioinhalte generieren und anhören sowie verschiedene Stilvorgaben und Parameter ausprobieren.

  1. Rufen Sie in der Google Google Cloud Console die Seite Vertex AI Studio > Media Studio auf.

    Media Studio

  2. Wählen Sie im Media-Drop-down-Menü Sprache aus.

  3. Geben Sie in das Textfeld den Text ein, der in Sprache synthetisiert werden soll.

  4. Legen Sie im Bereich Einstellungen die folgenden Einstellungen fest:

    1. Modell: Wählen Sie das gewünschte TTS-Modell (Text-to-Speech) aus, z. B. Gemini 2.5 Pro TTS. Weitere Informationen zu den verfügbaren Modellen finden Sie unter Text-to-Speech-Modelle.
    2. Stilanweisungen: (Optional) Geben Sie einen Textprompt ein, der den ausgewählten Sprechstil, Tonfall und die emotionale Intonation beschreibt. So können Sie die Leistung des Modells über die Standardnarration hinaus steuern. Beispiel: „Sprich in einem ruhigen, professionellen Ton für eine Dokumentation.“
    3. Sprache: Wählen Sie die Sprache und Region des eingegebenen Texts aus. Das Modell generiert die Ausgabe in der ausgewählten Sprache und mit dem ausgewählten Akzent. Beispiel: Englisch (USA).
    4. Stimme: Wählen Sie eine vordefinierte Stimme für die Narration aus. Die Liste enthält die verfügbaren Stimmen für das ausgewählte Modell und die ausgewählte Sprache, z. B. Achernar (weiblich).
  5. Optional: Maximieren Sie den Abschnitt „Erweiterte Optionen“, um technische Audioeinstellungen festzulegen:

    1. Audiocodierung: Wählen Sie die Codierung für die Audioausgabedatei aus. LINEAR16 ist ein verlustfreies, nicht komprimiertes Format, das sich für die Verarbeitung von Audio in hoher Qualität eignet. MULAW ist auch für die Ausgabe von komprimiertem Audio verfügbar.
    2. Audioabtastrate: Wählen Sie die Abtastrate in Hertz (Hz) aus. Dadurch wird die Audioqualität festgelegt. Höhere Werte wie 44.100 Hz erzeugen Audio in höherer Qualität (in diesem Fall CD-Qualität).
    3. Geschwindigkeit: Sie können die Sprechgeschwindigkeit anpassen, indem Sie den Schieberegler positionieren oder einen Wert eingeben. Werte unter 1 verlangsamen die Sprechgeschwindigkeit, Werte über 1 beschleunigen sie. Der Standardwert ist 1.
    4. Lautstärkepegel (dB): Hiermit passen Sie die Lautstärke des ausgegebenen Audiosignals in Dezibel (dB) an. Positive Werte erhöhen die Lautstärke, negative Werte verringern sie. Der Standardwert ist 0.
  6. Klicken Sie rechts neben dem Textfeld auf das Symbol Senden, um die Audioausgabe zu generieren.

  7. Das generierte Audio wird im Mediaplayer angezeigt. Klicken Sie auf die Wiedergabeschaltfläche, um die Ausgabe anzuhören. Sie können die Einstellungen weiter anpassen und bei Bedarf neue Versionen generieren.

Tipps für Prompts

Um ansprechende und natürlich klingende Audioinhalte aus Text zu erstellen, müssen die Nuancen der gesprochenen Sprache verstanden und in Skriptform übersetzt werden. Die folgenden Tipps helfen Ihnen, authentisch klingende Skripte zu erstellen, die den gewählten Ton treffen.

Die drei Säulen der Sprachsteuerung

Damit Sie möglichst vorhersehbare und differenzierte Ergebnisse erhalten, müssen alle der drei folgenden Komponenten mit der gewünschten Ausgabe übereinstimmen.

Stil-Prompt: Die primäre Quelle für den emotionalen Ausdruck und die Art der Wiedergabe. Der Prompt legt den Kontext für das gesamte Sprachsegment fest.

  • Beispiel: You are an AI assistant speaking in a friendly and helpful tone.

  • Beispiel: Narrate this in the calm, authoritative tone of a nature documentary narrator.

Textinhalte: Die semantische Bedeutung der Wörter, die Sie synthetisieren. Eine aussagekräftige Formulierung, die emotional mit dem Stil-Prompt übereinstimmt, führt zu erheblich zuverlässigeren Ergebnissen als neutraler Text.

  • Gut: Ein Prompt für einen ängstlichen Tonfall funktioniert am besten mit Text wie I think someone is in the house.

  • Weniger effektiv: Ein Prompt für einen ängstlichen Tonfall mit Text wie The meeting is at 4 PM. führt zu mehrdeutigen Ergebnissen.

Markup-Tags: Tags in Klammern wie [sigh] eignen sich vor allem, um eine bestimmte, lokale Aktion oder Stiländerung einzufügen, nicht um den allgemeinen Tonfall festzulegen. Sie werden in Kombination mit dem Stil-Prompt und dem Textinhalt angewendet.

Leitfaden zu Markup-Tags

Unsere Untersuchungen haben gezeigt, dass Markup-Tags in geschweiften Klammern in einem von drei verschiedenen Modi funktionieren. Damit Sie ein Tag effektiv verwenden können, müssen Sie seinen Modus kennen.

Modus 1: Geräusche

Das Markup wird durch eine hörbare, nicht sprachliche Stimmgebung ersetzt (z. B. ein Seufzer, ein Lachen). Das Tag selbst wird nicht gesprochen. Markups eignen sich hervorragend, um ein realistisches, menschliches Zögern bzw menschliche Reaktionen hinzuzufügen.

Tag Verhalten Zuverlässigkeit Anleitung
[sigh] Fügt ein Seufzen ein. Hoch Die emotionale Qualität des Seufzers wird durch den Prompt bestimmt.
[laughing] Fügt ein Lachen ein. Hoch Die besten Ergebnisse erzielen Sie mit einem spezifischen Prompt. Ein allgemeiner Prompt kann beispielsweise ein nervöses Lachen hervorrufen, während „Reagiere mit einem amüsierten Lachen“ ein Lachen aus Belustigung generiert.
[uhm] Fügt ein Zögern ein. Hoch Hilfreich, um einen natürlicheren Stil der Unterhaltung zu generieren.

Modus 2: Stilmodifikatoren

Das Markup wird nicht gesprochen, sondern die Wiedergabe der nachfolgenden Aussage wird angepasst. Umfang und Dauer der Änderung können variieren.

Tag Verhalten Zuverlässigkeit Anleitung
[sarcasm] Verleiht der nachfolgenden Formulierung einen sarkastischen Tonfall. Hoch Dieses Tag ist ein leistungsstarker Modifikator. Es zeigt, dass abstrakte Konzepte die Modellausgabe erfolgreich steuern können.
[robotic] Dadurch klingt die nachfolgende Sprache roboterhaft. Hoch Der Effekt kann sich über eine komplette Formulierung erstrecken. Ein unterstützender Stil-Prompt (z. B. „Sag das auf roboterhafte Weise“) ist zusätzlich empfehlenswert, um die besten Ergebnisse zu erzielen.
[shouting] Erhöht die Lautstärke der nachfolgenden Sprachausgabe. Hoch Am effektivsten ist die Funktion, wenn sie mit einem passenden Stil-Prompt kombiniert wird, z. B. „Schrei diesen nächsten Abschnitt“, und mit Text, der darauf hindeutet, dass geschrien wird.
[whispering] Verringert die Lautstärke der nachfolgenden Sprache. Hoch Die besten Ergebnisse werden erzielt, wenn auch der Stil-Prompt explizit formuliert ist, z. B. „Flüstere diesen Teil jetzt so leise wie möglich“.
[extremely fast] Erhöht die Geschwindigkeit der nachfolgenden Sprachausgabe. Hoch Ideal für Haftungsausschlüsse oder schnelle Dialoge. Es ist nur eine minimale Unterstützung durch Prompts erforderlich.

Modus 3: Gesprochenes Markup (Adjektive)

Das Markup-Tag selbst wird als Wort gesprochen und beeinflusst gleichzeitig den Tonfall des gesamten Satzes. Dieses Verhalten gilt in der Regel für emotionale Adjektive.

Warnung: Da das Tag selbst gesprochen wird, hat dieser Modus für die meisten Anwendungsfälle wahrscheinlich unerwünschte Nebenwirkungen. Verwenden Sie stattdessen den Stil-Prompt, um einen solchen emotionalen Tonfall festzulegen.

Tag Verhalten Zuverlässigkeit Anleitung
[scared] Das Wort „verängstigt“ wird gesprochen und der Satz erhält einen ängstlichen Ton. Hoch Die Wirkung hängt stark von den Textinhalten ab. Der Satz „Ich habe gerade gehört, wie ein Fenster zerbrochen ist“ führt zu einem authentisch verängstigten Ergebnis. Eine neutrale Formulierung führt zu einem eher „schaurigen“, aber weniger authentischen Ergebnis.
[curious] Das Wort „neugierig“ wird gesprochen und der Satz erhält einen neugierigen Tonfall. Hoch Verwenden Sie eine fragende Formulierung, um die Intention des Tags zu unterstützen.
[bored] Das Wort „gelangweilt“ wird gesprochen und der Satz wird gelangweilt und monoton wiedergegeben. Hoch Die Funktion eignet sich am besten für alltägliche oder sich wiederholende Texte.

Modus 4: Tempo und Pausen

Mit diesen Tags wird Stille in das generierte Audio eingefügt. Damit haben Sie die Möglichkeit, Rhythmus, Timing und Tempo genau zu steuern. Durch Standardsatzzeichen (Kommas, Punkte, Semikolons) werden ebenfalls natürliche Pausen erzeugt. Diese Tags bieten aber eine explizitere Steuerung.

Tag Verhalten Zuverlässigkeit Anleitung
[short pause] Fügt eine kurze Pause ein, ähnlich einem Komma (~250 ms). Hoch Damit können Sie Satzteile oder Listenelemente trennen, um für mehr Klarheit zu sorgen.
[medium pause] Fügt eine Standardpause ein, ähnlich wie bei einem Satzende (~500 ms). Hoch Eignet sich gut, um einzelne Sätze oder Gedanken voneinander zu trennen.
[long pause] Fügt eine längere Pause für einen dramatischen Effekt ein (ca. 1.000 ms oder länger). Hoch Wird für dramatische Timing-Effekte verwendet. Beispiel: „Die Antwort ist… [long pause] … nein.“ Vermeiden Sie eine übermäßige Verwendung, da dies unnatürlich klingen kann.

Wichtige Strategien für zuverlässige Ergebnisse

  • Alle drei Hebel aufeinander abstimmen: Für maximale Vorhersehbarkeit sollten Ihr Stil-Prompt, Ihr Textinhalt und alle Markup-Tags semantisch konsistent und auf dasselbe Ziel ausgerichtet sein.

  • Emotionalen Text verwenden: Verlassen Sie sich nicht nur auf Prompts und Tags. Fügen Sie dem Modell aussagekräftigen, beschreibenden Text hinzu. Das ist besonders wichtig für subtile Emotionen wie Sarkasmus, Angst oder Aufregung.

  • Spezifische, detaillierte Prompts schreiben: Je spezifischer Ihr Stil-Prompt ist, desto zuverlässiger ist das Ergebnis. „Reagiere mit einem amüsierten Lachen“ ist besser als nur [laughing]. „Sprich wie ein Radiosprecher aus den 1940er-Jahren“ ist besser als „Sprich altmodisch“.

  • Neue Tags testen und überprüfen: Das Verhalten eines neuen oder nicht getesteten Tags ist nicht immer vorhersehbar. Ein Tag, das Sie für einen Stilmodifikator halten, wird möglicherweise gesprochen. Testen Sie immer eine neue Tag- oder Prompt-Kombination, um das Verhalten zu prüfen, bevor Sie sie in der Produktion bereitstellen.