Gemini-TTS

O Gemini-TTS de conversão de texto em voz é a mais recente evolução da nossa tecnologia de conversão de texto em voz, que vai além da naturalidade para oferecer um controlo detalhado sobre o áudio gerado através de comandos baseados em texto. Com o Gemini-TTS, pode sintetizar a fala de pequenos fragmentos a narrativas longas, ditando com precisão o estilo, o sotaque, o ritmo, o tom e até a expressão emocional, tudo controlável através de comandos de linguagem natural.

As capacidades do Gemini-TTS são suportadas pelo seguinte:

gemini-2.5-flash-preview-tts: a pré-visualização do Gemini 2.5 Flash é adequada para aplicações diárias económicas.
gemini-2.5-pro-preview-tts: a pré-visualização do Gemini 2.5 Pro é adequada para a geração de voz controlável (TTS) e para a qualidade de ponta de comandos complexos.

Modelo	Otimizado para	Modalidade de entrada	Modalidade de saída	Orador único
Gemini 2.5 Flash Preview TTS	Geração de áudio de conversão de texto em voz de baixa latência, controlável, com um ou vários altifalantes para aplicações diárias económicas	Texto	Áudio	✔️
Gemini 2.5 Pro Preview TTS	Controlo elevado para fluxos de trabalho estruturados, como geração de podcasts, livros áudio, apoio ao cliente e muito mais	Texto	Áudio	✔️

Os controlos e as capacidades adicionais incluem o seguinte:

Conversa natural: as interações de voz de qualidade notável, expressividade mais adequada e prosódia (padrões de ritmo) são fornecidas com uma latência muito baixa para que possa conversar de forma fluida.
Controlo de estilo: através de comandos de linguagem natural, pode adaptar a transmissão na conversa, direcionando-a para adotar sotaques específicos e produzir uma variedade de tons e expressões, incluindo um sussurro.
Desempenho dinâmico: estes modelos podem dar vida ao texto para leituras expressivas de poesia, noticiários e histórias cativantes. Também podem atuar com emoções específicas e produzir sotaques quando solicitado.
Controlo melhorado do ritmo e da pronúncia: o controlo da velocidade de transmissão ajuda a garantir uma maior precisão na pronúncia, incluindo palavras específicas.

Exemplos

model: "gemini-2.5-pro-preview-tts"
prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirhoe"

model: "gemini-2.5-flash-preview-tts"
prompt: "Say the following in a curious way"
text: "OK, so... tell me about this [uhm] AI thing.",
speaker: "Orus"

model: "gemini-2.5-flash-preview-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions."
speaker: "Kore"

Consulte a secção Usar o Gemini-TTS para ver detalhes sobre como usar estas vozes através de programação.

Opções de voz

O Gemini-TTS oferece uma vasta gama de opções de voz semelhantes às nossas vozes HD do Chirp 3 existentes, cada uma com características distintas:

Nome	Sexo	Demonstrações
Achernar	Feminino
Achird	Masculino
Algenib	Masculino
Algieba	Masculino
Alnilam	Masculino
Aoede	Feminino
Autonoe	Feminino
Callirrhoe	Feminino
Caronte	Masculino
Despina	Feminino
Encélado	Masculino
Erinome	Feminino
Fenrir	Masculino
Gacrux	Feminino
Jápeto	Masculino
Kore	Feminino
Laomedeia	Feminino
Leda	Feminino
Orus	Masculino
Pulcherrima	Feminino
Disco	Masculino
Rasalgethi	Masculino
Sadachbia	Masculino
Sadaltager	Masculino
Schedar	Masculino
Sulafat	Feminino
Umbriel	Masculino
Vindemiatrix	Feminino
Zephyr	Feminino
Zubenelgenubi	Masculino

Idiomas disponíveis

O Gemini-TTS oferece uma vasta gama de opções de voz semelhantes às nossas vozes HD do Chirp 3 existentes, cada uma com características distintas:

Idioma	Código BCP-47
Inglês (Estados Unidos)	en-US

Disponibilidade regional

Os modelos Gemini-TTS estão disponíveis nas seguintes Google Cloud regiões, respetivamente:

Google Cloud zona	Prontidão para o lançamento
`global`	Pré-visualização pública

Formatos de saída suportados

O formato de resposta predefinido é LINEAR16. Outros formatos suportados incluem o seguinte:

Método da API	Formato
`batch`	ALAW, MULAW, MP3, OGG_OPUS e PCM

Use o Gemini-TTS

Descubra como usar os modelos Gemini-TTS para sintetizar a fala de um único orador.

Executar pedido de síntese de voz síncrono

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, model_name: str, output_filepath: str = "output.mp3"):
   """Synthesizes speech from the input text and saves it to an MP3 file.

   Args:
       prompt: Stylisting instructions on how to synthesize the content in
         the text field.
       text: The text to synthesize.
       model_name: Gemini model to use. Currently, the available models are
         gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
       output_filepath: The path to save the generated audio file.
         Defaults to "output.mp3".
   """
   client = texttospeech.TextToSpeechClient()

   synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

   # Select the voice you want to use.
   voice = texttospeech.VoiceSelectionParams(
       language_code="en-US",
       name="Charon",  # Example voice, adjust as needed
       model_name=model_name
   )

   audio_config = texttospeech.AudioConfig(
       audio_encoding=texttospeech.AudioEncoding.MP3
   )

   # Perform the text-to-speech request on the text input with the selected
   # voice parameters and audio file type.
   response = client.synthesize_speech(
       input=synthesis_input, voice=voice, audio_config=audio_config
   )

   # The response's audio_content is binary.
   with open(output_filepath, "wb") as out:
       out.write(response.audio_content)
       print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# Currently, the available models are gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
  "prompt": "Say the following in a curious way",
  "text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
  "languageCode": "en-us",
  "name": "Kore",
  "model_name": "gemini-2.5-flash-preview-tts"
},
"audioConfig": {
  "audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit