Se usó la API de Cloud Translation para traducir esta página.

Gemini-TTS

Gemini-TTS es la evolución más reciente de nuestra tecnología de Text-to-Speech, que va más allá de la naturalidad para brindar un control detallado sobre el audio generado con instrucciones basadas en texto. Con Gemini-TTS, puedes sintetizar la voz de uno o varios oradores a partir de fragmentos cortos hasta narrativas completas, todo sin perder el contexto. Además, puedes determinar con precisión el estilo, el acento, el ritmo, el tono y hasta la expresión emocional, lo cual puedes controlar a través de instrucciones en lenguaje natural.

Para explorar este modelo en la consola, consulta la tarjeta de modelo de Gemini-TTS en Model Garden (se puede acceder a ella desde la pestaña Media Studio).

Prueba Gemini-TTS en Vertex AI (Vertex AI Studio)

Las capacidades de Gemini-TTS son compatibles con lo siguiente:

gemini-2.5-flash-tts: Gemini 2.5 Flash TTS es ideal para aplicaciones de TTS cotidianas y rentables.
gemini-2.5-pro-tts: Gemini 2.5 Pro TTS es ideal para la generación de voz controlable (TTS) y para la calidad de vanguardia de instrucciones complejas.

Modelo	Optimizado para	Modalidad de entrada	Modalidad de salida	Un solo interlocutor	Varios interlocutores
Gemini 2.5 Flash TTS	Generación de audio de Text-to-Speech de baja latencia, controlable y con uno o varios oradores para aplicaciones cotidianas rentables	Texto	Audio	✔️	✔️
Gemini 2.5 Pro TTS	Alto control para flujos de trabajo estructurados, como la generación de podcasts, audiolibros, atención al cliente y mucho más	Texto	Audio	✔️	✔️

Los controles y las capacidades adicionales incluyen lo siguiente:

Conversación natural: Las interacciones por voz de calidad notable, la expresividad y la prosodia (patrones de ritmo) más adecuadas se ofrecen con una latencia muy baja para que puedas conversar con fluidez.
Control de estilo: Con instrucciones en lenguaje natural, puedes adaptar la entrega dentro de la conversación guiándola para que adopte acentos específicos y produzca una variedad de tonos y expresiones, incluido un susurro.
Rendimiento dinámico: Estos modelos pueden dar vida al texto para lecturas expresivas de poesía, noticieros y narraciones atractivas. También pueden actuar con emociones específicas y producir acentos cuando se les solicita.
Control mejorado del ritmo y la pronunciación: Controlar la velocidad de entrega ayuda a garantizar una mayor precisión en la pronunciación, incluidas las palabras específicas.

Ejemplos

model: "gemini-2.5-pro-tts"
prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirhoe"

model: "gemini-2.5-flash-tts"
prompt: "Say the following in a curious way"
text: "OK, so... tell me about this [uhm] AI thing.",
speaker: "Orus"

model: "gemini-2.5-flash-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions."
speaker: "Kore"

Para obtener información sobre cómo usar estas voces de forma programática, consulta la sección Usa Gemini-TTS.

Opciones de voz

Gemini-TTS ofrece una amplia variedad de opciones de voz similares a nuestras voces en HD de Chirp 3 existentes, cada una con características distintivas:

Nombre	Género	Demostración
Achernar	Mujer
Achird	Hombre
Algenib	Hombre
Algieba	Hombre
Alnilam	Hombre
Aoede	Mujer
Autonoe	Mujer
Callirrhoe	Mujer
Caronte	Hombre
Despina	Mujer
Encélado	Hombre
Erinome	Mujer
Fenrir	Hombre
Gacrux	Mujer
Jápeto	Hombre
Kore	Mujer
Laomedeia	Mujer
Leda	Mujer
Orus	Hombre
Pulcherrima	Mujer
Puck	Hombre
Rasalgethi	Hombre
Sadachbia	Hombre
Sadaltager	Hombre
Schedar	Hombre
Sulafat	Mujer
Umbriel	Hombre
Vindemiatrix	Mujer
Zephyr	Mujer
Zubenelgenubi	Hombre

Idiomas disponibles

Gemini-TTS admite los siguientes idiomas:

Idioma	Código BCP-47	Preparación para el lanzamiento
Árabe (Egipto)	ar-EG	DG
Holandés (Países Bajos)	nl-NL	DG
Inglés (India)	en-IN	DG
Inglés (Estados Unidos)	en-US	DG
Francés (Francia)	fr-FR	DG
Alemán (Alemania)	de-DE	DG
Hindi (India)	hi-IN	DG
Indonesio (Indonesia)	id-ID	DG
Italiano (Italia)	it-IT	DG
Japonés (Japón)	ja-JP	DG
Coreano (Corea del Sur)	ko-KR	DG
Maratí (India)	mr-IN	DG
Polaco (Polonia)	pl-PL	DG
Portugués (Brasil)	pt-BR	DG
Rumano (Rumania)	ro-RO	DG
Ruso (Rusia)	ru-RU	DG
Español (España)	es-ES	DG
Tamil (India)	ta-IN	DG
Telugu (India)	te-IN	DG
Tailandés (Tailandia)	th-TH	DG
Turco (Turquía)	tr-TR	DG
Ucraniano (Ucrania)	uk-UA	DG
Vietnamita (Vietnam)	vi-VN	DG
Afrikáans (Sudáfrica)	af-ZA	Vista previa
Albanés (Albania)	sq-AL	Vista previa
Amárico (Etiopía)	am-ET	Vista previa
Árabe (a nivel mundial)	ar-001	Vista previa
Armenio (Armenia)	hy-AM	Vista previa
Azerí (Azerbaiyán)	az-AZ	Vista previa
Bengalí (Bangladés)	bn-bd	Vista previa
Vasco (España)	eu-ES	Vista previa
Bielorruso (Bielorrusia)	be-BY	Vista previa
Búlgaro (Bulgaria)	bg-BG	Vista previa
Birmano (Birmania)	my-MM	Vista previa
Catalán (España)	ca-ES	Vista previa
Cebuano (Filipinas)	ceb‐PH	Vista previa
Chino, mandarín (China)	cmn-cn	Vista previa
Chino mandarín (Taiwán)	cmn-tw	Vista previa
Croata (Croacia)	hr-HR	Vista previa
Checo (República Checa)	cs-CZ	Vista previa
Danés (Dinamarca)	da-DK	Vista previa
inglés (Australia)	en-AU	Vista previa
Inglés (Reino Unido)	en-GB	Vista previa
Estonio (Estonia)	et-EE	Vista previa
Filipino (Filipinas)	fil-PH	Vista previa
Finés (Finlandia)	fi-FI	Vista previa
Francés (Canadá)	fr-CA	Vista previa
Gallego (España)	gl-ES	Vista previa
Georgiano (Georgia)	ka-GE	Vista previa
Griego (Grecia)	el-GR	Vista previa
Guyaratí (India)	gu-IN	Vista previa
Criollo haitiano (Haití)	ht-HT	Vista previa
Hebreo (Israel)	he-IL	Vista previa
Húngaro (Hungría)	hu-HU	Vista previa
Islandés (Islandia)	is-IS	Vista previa
Javanés (Java)	jv-JV	Vista previa
Canarés (India)	kn-IN	Vista previa
Konkani (India)	kok-in	Vista previa
Lao (Laos)	lo-LA	Vista previa
Latín (Ciudad del Vaticano)	la-VA	Vista previa
Letón (Letonia)	lv-LV	Vista previa
Lituano (Lituania)	lt-IT	Vista previa
Luxemburgués (Luxemburgo)	lb-LU	Vista previa
Macedonio (Macedonia del Norte)	mk-MK	Vista previa
Maithili (India)	mai-IN	Vista previa
Malgache (Madagascar)	mg-MG	Vista previa
Malayo (Malasia)	ms-MY	Vista previa
Malabar (India)	ml-IN	Vista previa
Mongol (Mongolia)	mn-MN	Vista previa
Nepalí (Nepal)	ne-NP	Vista previa
Noruego (Bokmål, Noruega)	nb-NO	Vista previa
Noruego (Nynorsk, Noruega)	nn-NO	Vista previa
Odia (India)	or-IN	Vista previa
Pastún (Afganistán)	ps-AF	Vista previa
Persa (Irán)	fa-IR	Vista previa
Portugués (Portugal)	pt-PT	Vista previa
Panyabí (India)	pa-IN	Vista previa
Serbio (Serbia)	sr-RS	Vista previa
Sindhi (India)	sd-IN	Vista previa
Cingalés (Sri Lanka)	si-LK	Vista previa
Eslovaco (Eslovaquia)	sk-SK	Vista previa
Esloveno (Eslovenia)	sl-SI	Vista previa
Español (América Latina)	es-419	Vista previa
Español (México)	es-MX	Vista previa
Suajili (Kenia)	sw-KE	Vista previa
Sueco (Suecia)	sv-SE	Vista previa
Urdu (Pakistán)	ur-PK	Vista previa

Disponibilidad regional

Los modelos de Gemini-TTS están disponibles en las siguientes Google Cloud regiones, respectivamente:

Google Cloud zona	Preparación para el lanzamiento
`global`	DG

Formatos de salida compatibles

El formato de respuesta predeterminado es LINEAR16. Estos son otros formatos admitidos:

Método de la API	Formato
`batch`	ALAW, MULAW, MP3, OGG_OPUS y PCM
`streaming`	No compatible

Usa Gemini-TTS

Descubre cómo usar los modelos de Gemini-TTS para sintetizar el habla de un solo orador y de varios oradores.

Antes de comenzar

Antes de poder comenzar a usar Text-to-Speech, debes habilitar la API en laGoogle Cloud consola siguiendo estos pasos:

Habilita Text-to-Speech en un proyecto.
Asegúrate de que la facturación esté habilitada para Text-to-Speech.
Configura la autenticación para tu entorno de desarrollo.

Configura tu Google Cloud proyecto

Acceder a la consola de Google Cloud
Ir a la página Selector de proyectos

Puedes elegir un proyecto existente o crear uno nuevo. Para obtener más detalles sobre cómo crear un proyecto, consulta la documentación deGoogle Cloud .
Si creas un proyecto nuevo, aparecerá un mensaje que te informará que debes vincular una cuenta de facturación. Si usas un proyecto existente, asegúrate de habilitar la facturación.

Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.

Nota: Debes habilitar la facturación para usar la API de Text-to-Speech. Sin embargo, no se te cobrará a menos que excedas la cuota gratuita. Para obtener más información sobre los precios, consulta la página Precios.
Después de seleccionar un proyecto y vincularlo a una cuenta de facturación, puedes habilitar la API de Text-to-Speech. Ve a la barra Buscar productos y recursos en la parte superior de la página y escribe “speech”. Selecciona la API de Cloud Text-to-Speech en la lista de resultados.
Para probar Text-to-Speech sin vincularlo a tu proyecto, elige la opción Probar esta API. Si deseas habilitar la API de Text-to-Speech para usarla en tu proyecto, haz clic en Habilitar.
Configura la autenticación para tu entorno de desarrollo. Para obtener instrucciones, consulta Configura la autenticación para Text-to-Speech.

Realiza la síntesis síncrona de un solo orador

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
    """Synthesizes speech from the input text and saves it to an MP3 file.

    Args:
        prompt: Styling instructions on how to synthesize the content in
          the text field.
        text: The text to synthesize.
        output_filepath: The path to save the generated audio file.
          Defaults to "output.mp3".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    # Select the voice you want to use.
    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        name="Charon",  # Example voice, adjust as needed
        model_name="gemini-2.5-pro-tts"
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3
    )

    # Perform the text-to-speech request on the text input with the selected
    # voice parameters and audio file type.
    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    # The response's audio_content is binary.
    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following in a curious way",
    "text": "OK, so... tell me about this [uhm] AI thing."
  },
  "voice": {
    "languageCode": "en-us",
    "name": "Kore",
    "model_name": "gemini-2.5-flash-tts"
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16"
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Realiza la síntesis síncrona de varios oradores con entrada de texto de formato libre

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_freeform(
    prompt: str,
    text: str,
    output_filepath: str = "output_non_turn_based.wav",
):
    """Synthesizes speech from non-turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        text: The text to synthesize, containing speaker aliases to indicate
          different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
        output_filepath: The path to save the generated audio file. Defaults to
          "output_non_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Realiza la síntesis síncrona de varios oradores con entrada de texto estructurado

La función de varios interlocutores con entrada de texto estructurado permite la verbalización inteligente de texto de una manera similar a la humana. Por ejemplo, este tipo de entrada es útil para direcciones y fechas. La entrada de texto libre pronuncia el texto exactamente como se escribe.

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_structured(
    prompt: str,
    turns: list[texttospeech.MultiSpeakerMarkup.Turn],
    output_filepath: str = "output_turn_based.wav",
):
    """Synthesizes speech from turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
          the dialogue turns.
        output_filepath: The path to save the generated audio file. Defaults to
          "output_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(
        multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
        prompt=prompt,
    )

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "multiSpeakerMarkup": {
      "turns": [
        {
          "speaker": "Sam",
          "text": "Hi Bob, how are you?"
        },
        {
          "speaker": "Bob",
          "text": "I am doing well, and you?"
        }
      ]
    }
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Realiza la síntesis de voz en Media Studio

Puedes usar Media Studio en la consola de Google Google Cloud para experimentar con modelos de texto a voz. Esto proporciona una interfaz de usuario para generar y escuchar rápidamente audio sintetizado, y experimentar con diferentes instrucciones y parámetros de estilo.

En la consola de Google Google Cloud , ve a la página Vertex AI Studio > Media Studio.

Media Studio
Selecciona Voz en el menú desplegable de medios.
En el campo de texto, ingresa el texto que deseas sintetizar en voz.
En el panel Configuración, establece los siguientes parámetros de configuración:
1. Modelo: Selecciona el modelo de Text-to-Speech (TTS) que deseas usar, como Gemini 2.5 Pro TTS. Para obtener más información sobre los modelos disponibles, consulta Modelos de Text-to-Speech.
2. Instrucciones de estilo: Opcional: Ingresa una instrucción de texto que describa el estilo de habla, el tono y la expresión emocional seleccionados. Esto te permite guiar el rendimiento del modelo más allá de la narración predeterminada. Por ejemplo: "Narra con un tono tranquilo y profesional para un documental".
3. Idioma: Selecciona el idioma y la región del texto de entrada. El modelo genera voz en el idioma y el acento seleccionados. Por ejemplo, Inglés (Estados Unidos).
4. Voz: Elige una voz predefinida para la narración. La lista contiene las voces disponibles para el modelo y el idioma seleccionados, como Acherner (femenina).
Opcional: Expande la sección Opciones avanzadas para configurar los parámetros de configuración de audio técnicos:
1. Codificación de audio: Selecciona la codificación para el archivo de audio de salida. LINEAR16 es un formato sin pérdidas y sin comprimir adecuado para el procesamiento de audio de alta calidad. MULAW también está disponible para la salida de audio comprimido.
2. Tasa de muestreo de audio: Selecciona la tasa de muestreo en hercios (Hz). Esto determina la calidad del audio. Los valores más altos, como 44,100 Hz, representan un audio de mayor fidelidad, equivalente a la calidad de un CD.
3. Velocidad: Ajusta la velocidad de habla moviendo el control deslizante o ingresando un valor. Los valores inferiores a 1 ralentizan el habla, y los valores superiores a 1 la aceleran. El valor predeterminado es 1.
4. Aumento de volumen (dB): Ajusta el volumen del audio de salida en decibeles (dB). Los valores positivos aumentan el volumen y los valores negativos lo disminuyen. El valor predeterminado es 0.
Haz clic en el ícono de enviar a la derecha del cuadro de texto para generar el audio.
El audio generado aparecerá en el reproductor multimedia. Haz clic en el botón de reproducción para escuchar el resultado. Puedes seguir ajustando la configuración y generar versiones nuevas según sea necesario.

Sugerencias para crear instrucciones

Para crear audio atractivo y natural a partir de texto, es necesario comprender los matices del lenguaje hablado y traducirlos a formato de guion. Las siguientes sugerencias te ayudarán a crear guiones que suenen auténticos y capten el tono elegido.

Las tres palancas del control del habla

Para obtener los resultados más predecibles y matizados, asegúrate de que los tres componentes siguientes sean coherentes con el resultado deseado.

Instrucción de estilo Es el principal factor determinante del tono emocional y la presentación generales. La instrucción establece el contexto para todo el segmento de voz.

Ejemplo: You are an AI assistant speaking in a friendly and helpful tone.
Ejemplo: Narrate this in the calm, authoritative tone of a nature documentary narrator.

Contenido de texto Es el significado semántico de las palabras que sintetizas. Una frase evocadora que sea coherente desde el punto de vista emocional con la instrucción de estilo producirá resultados mucho más confiables que un texto neutro.

Adecuado: Una instrucción para un tono asustado funciona mejor con texto como I think someone is in the house.
Menos eficaz: Una instrucción para un tono asustado con texto como The meeting is at 4 PM. producirá resultados ambiguos.

Etiquetas de lenguaje de marcado Las etiquetas entre corchetes, como [sigh], se usan mejor para insertar una acción o una modificación de estilo específicas y localizadas, no para establecer el tono general. Funcionan en conjunto con la instrucción de estilo y el contenido de texto.

Guía de etiquetas de lenguaje de marcado

Nuestra investigación demuestra que las etiquetas de marcado entre corchetes operan en uno de tres modos distintos. Comprender el modo de una etiqueta es clave para usarla de manera eficaz.

Modo 1: Sonidos que no son de voz

El marcado se reemplaza por una vocalización audible que no es discurso (p.ej., un suspiro o una risa). La etiqueta en sí no se pronuncia. Son excelentes para agregar dudas y reacciones realistas y similares a las humanas.

Etiqueta	Comportamiento	Confiabilidad	Orientación
`[sigh]`	Inserta un sonido de suspiro.	Alta	La calidad emocional del suspiro se ve influenciada por la instrucción.
`[laughing]`	Inserta una risa.	Alta	Para obtener mejores resultados, usa una instrucción específica. Por ejemplo, una instrucción genérica puede generar una risa de sorpresa, mientras que "reacciona con una risa divertida" genera una risa de diversión.
`[uhm]`	Inserta un sonido de duda.	Alta	Es útil para crear un ambiente más natural y conversacional.

Modo 2: Modificadores de estilo

El marcado no se pronuncia, pero modifica la entrega del discurso posterior. El alcance y la duración de la modificación pueden variar.

Etiqueta	Comportamiento	Confiabilidad	Orientación
`[sarcasm]`	Le da un tono sarcástico a la frase siguiente.	Alta	Esta etiqueta es un modificador potente. Demuestra que los conceptos abstractos pueden guiar con éxito la entrega del modelo.
`[robotic]`	Hace que el habla posterior suene robótica.	Alta	El efecto puede extenderse a toda una frase. Una instrucción de estilo que brinda asistencia (p.ej., "Dilo de forma robótica") sigue siendo la recomendación para obtener mejores resultados.
`[shouting]`	Aumenta el volumen del discurso posterior.	Alta	Es más eficaz cuando se combina con una instrucción de estilo coincidente (p.ej., "Grita esta próxima parte") y texto que implica gritos.
`[whispering]`	Disminuye el volumen del discurso posterior.	Alta	Los mejores resultados se obtienen cuando la instrucción de estilo también es explícita (p.ej., "Ahora susurra esta parte lo más silenciosamente posible").
`[extremely fast]`	Aumenta la velocidad del habla posterior.	Alta	Es ideal para renuncias de responsabilidad o diálogos rápidos. Se necesita asistencia mínima con las instrucciones.

Modo 3: Marcas vocalizadas (adjetivos)

La etiqueta de marcado se pronuncia como una palabra y, al mismo tiempo, influye en el tono de toda la oración. Por lo general, este comportamiento se aplica a los adjetivos emocionales.

Advertencia: Debido a que la etiqueta se pronuncia, es probable que este modo sea un efecto secundario no deseado para la mayoría de los casos de uso. En su lugar, te recomendamos que uses la instrucción de estilo para establecer estos tonos emocionales.

Etiqueta	Comportamiento	Confiabilidad	Orientación
`[scared]`	Se pronuncia la palabra "asustado", y la oración adopta un tono de miedo.	Alta	El rendimiento depende en gran medida del contenido de texto. La frase "Acabo de oír que se rompió una ventana" produce un resultado genuinamente asustado. Una frase neutra produce un resultado "espeluznante", pero menos auténtico.
`[curious]`	Se pronuncia la palabra "curioso" y la oración adopta un tono curioso.	Alta	Usa una frase inquisitiva para respaldar la intención de la etiqueta.
`[bored]`	Se pronuncia la palabra "aburrido", y la oración adopta un tono monótono y aburrido.	Alta	Úsala con texto repetitivo o común para obtener el mejor efecto.

Modo 4: Ritmo y pausas

Estas etiquetas insertan silencio en el audio generado, lo que te brinda un control detallado sobre el ritmo, la sincronización y el ritmo. La puntuación estándar (comas, puntos, puntos y comas) también creará pausas naturales, pero estas etiquetas ofrecen un control más explícito.

Etiqueta	Comportamiento	Confiabilidad	Orientación
`[short pause]`	Inserta una breve pausa, similar a una coma (aproximadamente 250 ms).	Alta	Se usa para separar cláusulas o elementos de una lista y mejorar la claridad.
`[medium pause]`	Inserta una pausa estándar, similar a una pausa entre oraciones (~500 ms).	Alta	Es eficaz para separar oraciones o ideas distintas.
`[long pause]`	Inserta una pausa significativa para generar un efecto dramático (más de 1,000 ms).	Alta	Úsalo para crear un efecto dramático. Por ejemplo: "La respuesta es… `[long pause]`… no". Evita el uso excesivo, ya que puede sonar poco natural.

Estrategias clave para obtener resultados confiables

Alinea los tres factores de ajuste para lograr la máxima previsibilidad, asegúrate de que tu instrucción de estilo, el contenido de texto y las etiquetas de marcado sean coherentes semánticamente y trabajen en pos del mismo objetivo.
Usa texto enriquecido emocionalmente No te bases solo en instrucciones y etiquetas. Proporciona al modelo texto descriptivo y enriquecido para que trabaje con él. Esto es especialmente importante para las emociones sutiles, como el sarcasmo, el miedo o la emoción.
Escribe instrucciones específicas y detalladas Cuanto más específica sea tu instrucción de estilo, más confiable será el resultado. "Reacciona con una risa divertida" es mejor que solo [laughing]. "Habla como un locutor de noticias de radio de la década de 1940" es mejor que "Habla de una manera anticuada".
Prueba y verifica las etiquetas nuevas El comportamiento de una etiqueta nueva o no probada no siempre es predecible. Es posible que se vocalice una etiqueta que crees que es un modificador de estilo. Siempre prueba una nueva combinación de etiquetas o instrucciones para confirmar su comportamiento antes de implementarla en producción.