Gemini-TTS

Testar um notebook do Colab Ver o notebook no GitHub

O Gemini-TTS Text-to-Speech é a mais recente evolução da nossa tecnologia Text-to-Speech, que vai além da naturalidade e oferece controle granular sobre o áudio gerado usando comandos baseados em texto. Com o Gemini-TTS, é possível sintetizar a fala de trechos curtos a narrativas longas, ditando com precisão estilo, sotaque, ritmo, tom e até mesmo expressão emocional, tudo controlável por comandos de linguagem natural.

Os recursos do Gemini TTS são compatíveis com o seguinte:

  • gemini-2.5-flash-preview-tts: o pré-lançamento do Gemini 2.5 Flash é ideal para aplicativos cotidianos econômicos.

  • gemini-2.5-pro-preview-tts: o pré-lançamento do Gemini 2.5 Pro é bom para geração de fala controlável (TTS) e para qualidade de ponta de comandos complexos.

Modelo Otimizado para Modalidade de entrada Modalidade de saída Apenas um locutor
Prévia da TTS do Gemini 2.5 Flash Geração de áudio de conversão Text-to-Speech em voz de baixa latência, controlável, com um ou vários falantes para aplicativos diários econômicos Texto Áudio ✔️
Pré-lançamento da TTS do Gemini 2.5 Pro Alto controle para fluxos de trabalho estruturados, como geração de podcasts, audiolivros, suporte ao cliente e muito mais Texto Áudio ✔️

Outros controles e recursos incluem:

  1. Conversa natural: as interações por voz de qualidade notável, expressividade e prosódia (padrões de ritmo) mais adequadas são entregues com latência muito baixa para que você possa conversar com fluidez.

  2. Controle de estilo: usando comandos de linguagem natural, você pode adaptar a entrega na conversa, direcionando-a para adotar sotaques específicos e produzir uma variedade de tons e expressões, incluindo um sussurro.

  3. Desempenho dinâmico: esses modelos podem dar vida ao texto para leituras expressivas de poesia, noticiários e narrativas envolventes. Eles também podem fazer isso com emoções específicas e produzir sotaques quando solicitados.

  4. Controle aprimorado de ritmo e pronúncia: controlar a velocidade de entrega ajuda a garantir mais precisão na pronúncia, incluindo palavras específicas.

Exemplos

model: "gemini-2.5-pro-preview-tts"
prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirhoe"

model: "gemini-2.5-flash-preview-tts"
prompt: "Say the following in a curious way"
text: "OK, so... tell me about this [uhm] AI thing.",
speaker: "Orus"

model: "gemini-2.5-flash-preview-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions."
speaker: "Kore"

Consulte a seção Usar o Gemini-TTS para saber como usar essas vozes de forma programática.

Opções de voz

O Gemini-TTS oferece uma ampla variedade de opções de voz semelhantes ao Chirp 3: vozes em alta definição, cada uma com características distintas:

Nome Gênero Demonstração
Achernar Feminino
Achird Masculino
Algenib Masculino
Algieba Masculino
Alnilam Masculino
Aoede Feminino
Autonoe Feminino
Callirrhoe Feminino
Caronte Masculino
Despina Feminino
Encélado Masculino
Erinome Feminino
Fenrir Masculino
Gacrux Feminino
Jápeto Masculino
Kore Feminino
Laomedeia Feminino
Leda Feminino
Orus Masculino
Pulcherrima Feminino
Puck Masculino
Rasalgethi Masculino
Sadachbia Masculino
Sadaltager Masculino
Schedar Masculino
Sulat Feminino
Umbriel Masculino
Vindemiatrix Feminino
Zephyr Feminino
Zubenelgenubi Masculino

Disponibilidade de idiomas

O Gemini-TTS oferece uma ampla variedade de opções de voz semelhantes ao Chirp 3: vozes em alta definição, cada uma com características distintas:

Idioma Código BCP-47
Inglês (Estados Unidos) en-US

Disponibilidade regional

Os modelos Gemini-TTS estão disponíveis nas seguintes regiões Google Cloud , respectivamente:

Google Cloud zona Preparação para o lançamento
global Prévia pública

Formatos de saída aceitos

O formato de resposta padrão é LINEAR16. Outros formatos compatíveis incluem:

Método de API Formato
batch ALAW, MULAW, MP3, OGG_OPUS e PCM

Usar o Gemini-TTS

Descubra como usar os modelos Gemini-TTS para sintetizar a fala de um único falante.

Fazer uma solicitação síncrona de síntese de voz

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, model_name: str, output_filepath: str = "output.mp3"):
   """Synthesizes speech from the input text and saves it to an MP3 file.

   Args:
       prompt: Stylisting instructions on how to synthesize the content in
         the text field.
       text: The text to synthesize.
       model_name: Gemini model to use. Currently, the available models are
         gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
       output_filepath: The path to save the generated audio file.
         Defaults to "output.mp3".
   """
   client = texttospeech.TextToSpeechClient()

   synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

   # Select the voice you want to use.
   voice = texttospeech.VoiceSelectionParams(
       language_code="en-US",
       name="Charon",  # Example voice, adjust as needed
       model_name=model_name
   )

   audio_config = texttospeech.AudioConfig(
       audio_encoding=texttospeech.AudioEncoding.MP3
   )

   # Perform the text-to-speech request on the text input with the selected
   # voice parameters and audio file type.
   response = client.synthesize_speech(
       input=synthesis_input, voice=voice, audio_config=audio_config
   )

   # The response's audio_content is binary.
   with open(output_filepath, "wb") as out:
       out.write(response.audio_content)
       print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# Currently, the available models are gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
  "prompt": "Say the following in a curious way",
  "text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
  "languageCode": "en-us",
  "name": "Kore",
  "model_name": "gemini-2.5-flash-preview-tts"
},
"audioConfig": {
  "audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit