Gemini TTS de Text-to-Speech es la evolución más reciente de nuestra tecnología de Text-to-Speech, que va más allá de la naturalidad para brindar un control detallado sobre el audio generado con instrucciones basadas en texto. Con Gemini-TTS, puedes sintetizar voz a partir de fragmentos cortos y narraciones largas, y dictar con precisión el estilo, el acento, el ritmo, el tono y hasta la expresión emocional, todo ello a través de instrucciones en lenguaje natural.
Las capacidades de Gemini-TTS son compatibles con lo siguiente:
gemini-2.5-flash-preview-tts
: La versión preliminar de Gemini 2.5 Flash es ideal para aplicaciones cotidianas rentables.gemini-2.5-pro-preview-tts
: La versión preliminar de Gemini 2.5 Pro es ideal para la generación de voz controlable (TTS) y para la calidad de vanguardia de las instrucciones complejas.
Modelo | Optimizado para | Modalidad de entrada | Modalidad de salida | Un solo interlocutor |
---|---|---|---|---|
Versión preliminar de TTS de Gemini 2.5 Flash | Generación de audio de Text-to-Speech de baja latencia, controlable y con uno o varios oradores para aplicaciones cotidianas rentables | Texto | Audio | ✔️ |
Versión preliminar de TTS de Gemini 2.5 Pro | Alto control para flujos de trabajo estructurados, como la generación de podcasts, audiolibros, atención al cliente y mucho más | Texto | Audio | ✔️ |
Los controles y las capacidades adicionales incluyen lo siguiente:
Conversación natural: Las interacciones por voz de calidad notable, la expresividad y la prosodia (patrones de ritmo) más adecuadas se ofrecen con una latencia muy baja para que puedas conversar con fluidez.
Control de estilo: Con instrucciones en lenguaje natural, puedes adaptar la entrega dentro de la conversación guiándola para que adopte acentos específicos y produzca una variedad de tonos y expresiones, incluido un susurro.
Rendimiento dinámico: Estos modelos pueden dar vida al texto para lecturas expresivas de poesía, noticieros y narraciones atractivas. También pueden actuar con emociones específicas y producir acentos cuando se les solicita.
Control mejorado del ritmo y la pronunciación: Controlar la velocidad de entrega ayuda a garantizar una mayor precisión en la pronunciación, incluidas las palabras específicas.
Ejemplos
model: "gemini-2.5-pro-preview-tts" prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way." text: "hahah I did NOT expect that. Can you believe it!." speaker: "Callirhoe"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following in a curious way" text: "OK, so... tell me about this [uhm] AI thing.", speaker: "Orus"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following" text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions." speaker: "Kore"
Consulta la sección Cómo usar Gemini-TTS para obtener detalles sobre cómo usar estas voces de forma programática.
Opciones de voz
Gemini-TTS ofrece una amplia variedad de opciones de voz similares a nuestras voces en HD de Chirp 3 existentes, cada una con características distintivas:
Nombre | Género | Demostración |
---|---|---|
Achernar | Mujer | |
Achird | Hombre | |
Algenib | Hombre | |
Algieba | Hombre | |
Alnilam | Hombre | |
Aoede | Mujer | |
Autonoe | Mujer | |
Callirrhoe | Mujer | |
Caronte | Hombre | |
Despina | Mujer | |
Encélado | Hombre | |
Erinome | Mujer | |
Fenrir | Hombre | |
Gacrux | Mujer | |
Jápeto | Hombre | |
Kore | Mujer | |
Laomedeia | Mujer | |
Leda | Mujer | |
Orus | Hombre | |
Pulcherrima | Mujer | |
Puck | Hombre | |
Rasalgethi | Hombre | |
Sadachbia | Hombre | |
Sadaltager | Hombre | |
Schedar | Hombre | |
Sulafat | Mujer | |
Umbriel | Hombre | |
Vindemiatrix | Mujer | |
Zephyr | Mujer | |
Zubenelgenubi | Hombre |
Idiomas disponibles
Gemini-TTS ofrece una amplia variedad de opciones de voz similares a nuestras voces en HD de Chirp 3 existentes, cada una con características distintivas:
Idioma | Código BCP-47 |
---|---|
Inglés (Estados Unidos) | en-US |
Disponibilidad regional
Los modelos de Gemini-TTS están disponibles en las siguientes Google Cloud regiones, respectivamente:
Google Cloud zona | Preparación para el lanzamiento |
---|---|
global |
Versión preliminar pública |
Formatos de salida compatibles
El formato de respuesta predeterminado es LINEAR16
. Estos son otros formatos admitidos:
Método de la API | Formato |
---|---|
batch |
ALAW, MULAW, MP3, OGG_OPUS y PCM |
Usa Gemini-TTS
Descubre cómo usar los modelos de Gemini-TTS para sintetizar el habla de un solo orador.
Realiza una solicitud de síntesis de voz síncrona
Python
# google-cloud-texttospeech minimum version 2.29.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize(prompt: str, text: str, model_name: str, output_filepath: str = "output.mp3"):
"""Synthesizes speech from the input text and saves it to an MP3 file.
Args:
prompt: Stylisting instructions on how to synthesize the content in
the text field.
text: The text to synthesize.
model_name: Gemini model to use. Currently, the available models are
gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
output_filepath: The path to save the generated audio file.
Defaults to "output.mp3".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
# Select the voice you want to use.
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="Charon", # Example voice, adjust as needed
model_name=model_name
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type.
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# Currently, the available models are gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following in a curious way",
"text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
"languageCode": "en-us",
"name": "Kore",
"model_name": "gemini-2.5-flash-preview-tts"
},
"audioConfig": {
"audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit