Gemini-TTS

Gemini TTS de Text-to-Speech es la evolución más reciente de nuestra tecnología de Text-to-Speech, que va más allá de la naturalidad para brindar un control detallado sobre el audio generado con instrucciones basadas en texto. Con Gemini-TTS, puedes sintetizar voz a partir de fragmentos cortos y narraciones largas, y dictar con precisión el estilo, el acento, el ritmo, el tono y hasta la expresión emocional, todo ello a través de instrucciones en lenguaje natural.

Las capacidades de Gemini-TTS son compatibles con lo siguiente:

  • gemini-2.5-flash-preview-tts: La versión preliminar de Gemini 2.5 Flash es ideal para aplicaciones cotidianas rentables.

  • gemini-2.5-pro-preview-tts: La versión preliminar de Gemini 2.5 Pro es ideal para la generación de voz controlable (TTS) y para la calidad de vanguardia de las instrucciones complejas.

Modelo Optimizado para Modalidad de entrada Modalidad de salida Un solo interlocutor
Versión preliminar de TTS de Gemini 2.5 Flash Generación de audio de Text-to-Speech de baja latencia, controlable y con uno o varios oradores para aplicaciones cotidianas rentables Texto Audio ✔️
Versión preliminar de TTS de Gemini 2.5 Pro Alto control para flujos de trabajo estructurados, como la generación de podcasts, audiolibros, atención al cliente y mucho más Texto Audio ✔️

Los controles y las capacidades adicionales incluyen lo siguiente:

  1. Conversación natural: Las interacciones por voz de calidad notable, la expresividad y la prosodia (patrones de ritmo) más adecuadas se ofrecen con una latencia muy baja para que puedas conversar con fluidez.

  2. Control de estilo: Con instrucciones en lenguaje natural, puedes adaptar la entrega dentro de la conversación guiándola para que adopte acentos específicos y produzca una variedad de tonos y expresiones, incluido un susurro.

  3. Rendimiento dinámico: Estos modelos pueden dar vida al texto para lecturas expresivas de poesía, noticieros y narraciones atractivas. También pueden actuar con emociones específicas y producir acentos cuando se les solicita.

  4. Control mejorado del ritmo y la pronunciación: Controlar la velocidad de entrega ayuda a garantizar una mayor precisión en la pronunciación, incluidas las palabras específicas.

Ejemplos

model: "gemini-2.5-pro-preview-tts"
prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirhoe"

model: "gemini-2.5-flash-preview-tts"
prompt: "Say the following in a curious way"
text: "OK, so... tell me about this [uhm] AI thing.",
speaker: "Orus"

model: "gemini-2.5-flash-preview-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions."
speaker: "Kore"

Consulta la sección Cómo usar Gemini-TTS para obtener detalles sobre cómo usar estas voces de forma programática.

Opciones de voz

Gemini-TTS ofrece una amplia variedad de opciones de voz similares a nuestras voces en HD de Chirp 3 existentes, cada una con características distintivas:

Nombre Género Demostración
Achernar Mujer
Achird Hombre
Algenib Hombre
Algieba Hombre
Alnilam Hombre
Aoede Mujer
Autonoe Mujer
Callirrhoe Mujer
Caronte Hombre
Despina Mujer
Encélado Hombre
Erinome Mujer
Fenrir Hombre
Gacrux Mujer
Jápeto Hombre
Kore Mujer
Laomedeia Mujer
Leda Mujer
Orus Hombre
Pulcherrima Mujer
Puck Hombre
Rasalgethi Hombre
Sadachbia Hombre
Sadaltager Hombre
Schedar Hombre
Sulafat Mujer
Umbriel Hombre
Vindemiatrix Mujer
Zephyr Mujer
Zubenelgenubi Hombre

Idiomas disponibles

Gemini-TTS ofrece una amplia variedad de opciones de voz similares a nuestras voces en HD de Chirp 3 existentes, cada una con características distintivas:

Idioma Código BCP-47
Inglés (Estados Unidos) en-US

Disponibilidad regional

Los modelos de Gemini-TTS están disponibles en las siguientes Google Cloud regiones, respectivamente:

Google Cloud zona Preparación para el lanzamiento
global Versión preliminar pública

Formatos de salida compatibles

El formato de respuesta predeterminado es LINEAR16. Estos son otros formatos admitidos:

Método de la API Formato
batch ALAW, MULAW, MP3, OGG_OPUS y PCM

Usa Gemini-TTS

Descubre cómo usar los modelos de Gemini-TTS para sintetizar el habla de un solo orador.

Realiza una solicitud de síntesis de voz síncrona

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, model_name: str, output_filepath: str = "output.mp3"):
   """Synthesizes speech from the input text and saves it to an MP3 file.

   Args:
       prompt: Stylisting instructions on how to synthesize the content in
         the text field.
       text: The text to synthesize.
       model_name: Gemini model to use. Currently, the available models are
         gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
       output_filepath: The path to save the generated audio file.
         Defaults to "output.mp3".
   """
   client = texttospeech.TextToSpeechClient()

   synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

   # Select the voice you want to use.
   voice = texttospeech.VoiceSelectionParams(
       language_code="en-US",
       name="Charon",  # Example voice, adjust as needed
       model_name=model_name
   )

   audio_config = texttospeech.AudioConfig(
       audio_encoding=texttospeech.AudioEncoding.MP3
   )

   # Perform the text-to-speech request on the text input with the selected
   # voice parameters and audio file type.
   response = client.synthesize_speech(
       input=synthesis_input, voice=voice, audio_config=audio_config
   )

   # The response's audio_content is binary.
   with open(output_filepath, "wb") as out:
       out.write(response.audio_content)
       print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# Currently, the available models are gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
  "prompt": "Say the following in a curious way",
  "text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
  "languageCode": "en-us",
  "name": "Kore",
  "model_name": "gemini-2.5-flash-preview-tts"
},
"audioConfig": {
  "audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit