![]() |
![]() |
O Gemini-TTS Text-to-Speech é a mais recente evolução da nossa tecnologia Text-to-Speech, que vai além da naturalidade e oferece controle granular sobre o áudio gerado usando comandos baseados em texto. Com o Gemini-TTS, é possível sintetizar a fala de trechos curtos a narrativas longas, ditando com precisão estilo, sotaque, ritmo, tom e até mesmo expressão emocional, tudo controlável por comandos de linguagem natural.
Os recursos do Gemini TTS são compatíveis com o seguinte:
gemini-2.5-flash-preview-tts
: o pré-lançamento do Gemini 2.5 Flash é ideal para aplicativos cotidianos econômicos.gemini-2.5-pro-preview-tts
: o pré-lançamento do Gemini 2.5 Pro é bom para geração de fala controlável (TTS) e para qualidade de ponta de comandos complexos.
Modelo | Otimizado para | Modalidade de entrada | Modalidade de saída | Apenas um locutor |
---|---|---|---|---|
Prévia da TTS do Gemini 2.5 Flash | Geração de áudio de conversão Text-to-Speech em voz de baixa latência, controlável, com um ou vários falantes para aplicativos diários econômicos | Texto | Áudio | ✔️ |
Pré-lançamento da TTS do Gemini 2.5 Pro | Alto controle para fluxos de trabalho estruturados, como geração de podcasts, audiolivros, suporte ao cliente e muito mais | Texto | Áudio | ✔️ |
Outros controles e recursos incluem:
Conversa natural: as interações por voz de qualidade notável, expressividade e prosódia (padrões de ritmo) mais adequadas são entregues com latência muito baixa para que você possa conversar com fluidez.
Controle de estilo: usando comandos de linguagem natural, você pode adaptar a entrega na conversa, direcionando-a para adotar sotaques específicos e produzir uma variedade de tons e expressões, incluindo um sussurro.
Desempenho dinâmico: esses modelos podem dar vida ao texto para leituras expressivas de poesia, noticiários e narrativas envolventes. Eles também podem fazer isso com emoções específicas e produzir sotaques quando solicitados.
Controle aprimorado de ritmo e pronúncia: controlar a velocidade de entrega ajuda a garantir mais precisão na pronúncia, incluindo palavras específicas.
Exemplos
model: "gemini-2.5-pro-preview-tts" prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way." text: "hahah I did NOT expect that. Can you believe it!." speaker: "Callirhoe"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following in a curious way" text: "OK, so... tell me about this [uhm] AI thing.", speaker: "Orus"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following" text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions." speaker: "Kore"
Consulte a seção Usar o Gemini-TTS para saber como usar essas vozes de forma programática.
Opções de voz
O Gemini-TTS oferece uma ampla variedade de opções de voz semelhantes ao Chirp 3: vozes em alta definição, cada uma com características distintas:
Nome | Gênero | Demonstração |
---|---|---|
Achernar | Feminino | |
Achird | Masculino | |
Algenib | Masculino | |
Algieba | Masculino | |
Alnilam | Masculino | |
Aoede | Feminino | |
Autonoe | Feminino | |
Callirrhoe | Feminino | |
Caronte | Masculino | |
Despina | Feminino | |
Encélado | Masculino | |
Erinome | Feminino | |
Fenrir | Masculino | |
Gacrux | Feminino | |
Jápeto | Masculino | |
Kore | Feminino | |
Laomedeia | Feminino | |
Leda | Feminino | |
Orus | Masculino | |
Pulcherrima | Feminino | |
Puck | Masculino | |
Rasalgethi | Masculino | |
Sadachbia | Masculino | |
Sadaltager | Masculino | |
Schedar | Masculino | |
Sulat | Feminino | |
Umbriel | Masculino | |
Vindemiatrix | Feminino | |
Zephyr | Feminino | |
Zubenelgenubi | Masculino |
Disponibilidade de idiomas
O Gemini-TTS oferece uma ampla variedade de opções de voz semelhantes ao Chirp 3: vozes em alta definição, cada uma com características distintas:
Idioma | Código BCP-47 |
---|---|
Inglês (Estados Unidos) | en-US |
Disponibilidade regional
Os modelos Gemini-TTS estão disponíveis nas seguintes regiões Google Cloud , respectivamente:
Google Cloud zona | Preparação para o lançamento |
---|---|
global |
Prévia pública |
Formatos de saída aceitos
O formato de resposta padrão é LINEAR16
. Outros formatos compatíveis incluem:
Método de API | Formato |
---|---|
batch |
ALAW, MULAW, MP3, OGG_OPUS e PCM |
Usar o Gemini-TTS
Descubra como usar os modelos Gemini-TTS para sintetizar a fala de um único falante.
Fazer uma solicitação síncrona de síntese de voz
Python
# google-cloud-texttospeech minimum version 2.29.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize(prompt: str, text: str, model_name: str, output_filepath: str = "output.mp3"):
"""Synthesizes speech from the input text and saves it to an MP3 file.
Args:
prompt: Stylisting instructions on how to synthesize the content in
the text field.
text: The text to synthesize.
model_name: Gemini model to use. Currently, the available models are
gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
output_filepath: The path to save the generated audio file.
Defaults to "output.mp3".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
# Select the voice you want to use.
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="Charon", # Example voice, adjust as needed
model_name=model_name
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type.
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# Currently, the available models are gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following in a curious way",
"text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
"languageCode": "en-us",
"name": "Kore",
"model_name": "gemini-2.5-flash-preview-tts"
},
"audioConfig": {
"audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit