Gemini-TTS

Experimente um bloco de notas do Colab Ver bloco de notas no GitHub

O Gemini-TTS de conversão de texto em voz é a mais recente evolução da nossa tecnologia de conversão de texto em voz, que vai além da naturalidade para oferecer um controlo detalhado sobre o áudio gerado através de comandos baseados em texto. Com o Gemini-TTS, pode sintetizar a fala de pequenos fragmentos a narrativas longas, ditando com precisão o estilo, o sotaque, o ritmo, o tom e até a expressão emocional, tudo controlável através de comandos de linguagem natural.

As capacidades do Gemini-TTS são suportadas pelo seguinte:

  • gemini-2.5-flash-preview-tts: a pré-visualização do Gemini 2.5 Flash é adequada para aplicações diárias económicas.

  • gemini-2.5-pro-preview-tts: a pré-visualização do Gemini 2.5 Pro é adequada para a geração de voz controlável (TTS) e para a qualidade de ponta de comandos complexos.

Modelo Otimizado para Modalidade de entrada Modalidade de saída Orador único
Gemini 2.5 Flash Preview TTS Geração de áudio de conversão de texto em voz de baixa latência, controlável, com um ou vários altifalantes para aplicações diárias económicas Texto Áudio ✔️
Gemini 2.5 Pro Preview TTS Controlo elevado para fluxos de trabalho estruturados, como geração de podcasts, livros áudio, apoio ao cliente e muito mais Texto Áudio ✔️

Os controlos e as capacidades adicionais incluem o seguinte:

  1. Conversa natural: as interações de voz de qualidade notável, expressividade mais adequada e prosódia (padrões de ritmo) são fornecidas com uma latência muito baixa para que possa conversar de forma fluida.

  2. Controlo de estilo: através de comandos de linguagem natural, pode adaptar a transmissão na conversa, direcionando-a para adotar sotaques específicos e produzir uma variedade de tons e expressões, incluindo um sussurro.

  3. Desempenho dinâmico: estes modelos podem dar vida ao texto para leituras expressivas de poesia, noticiários e histórias cativantes. Também podem atuar com emoções específicas e produzir sotaques quando solicitado.

  4. Controlo melhorado do ritmo e da pronúncia: o controlo da velocidade de transmissão ajuda a garantir uma maior precisão na pronúncia, incluindo palavras específicas.

Exemplos

model: "gemini-2.5-pro-preview-tts"
prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirhoe"

model: "gemini-2.5-flash-preview-tts"
prompt: "Say the following in a curious way"
text: "OK, so... tell me about this [uhm] AI thing.",
speaker: "Orus"

model: "gemini-2.5-flash-preview-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions."
speaker: "Kore"

Consulte a secção Usar o Gemini-TTS para ver detalhes sobre como usar estas vozes através de programação.

Opções de voz

O Gemini-TTS oferece uma vasta gama de opções de voz semelhantes às nossas vozes HD do Chirp 3 existentes, cada uma com características distintas:

Nome Sexo Demonstrações
Achernar Feminino
Achird Masculino
Algenib Masculino
Algieba Masculino
Alnilam Masculino
Aoede Feminino
Autonoe Feminino
Callirrhoe Feminino
Caronte Masculino
Despina Feminino
Encélado Masculino
Erinome Feminino
Fenrir Masculino
Gacrux Feminino
Jápeto Masculino
Kore Feminino
Laomedeia Feminino
Leda Feminino
Orus Masculino
Pulcherrima Feminino
Disco Masculino
Rasalgethi Masculino
Sadachbia Masculino
Sadaltager Masculino
Schedar Masculino
Sulafat Feminino
Umbriel Masculino
Vindemiatrix Feminino
Zephyr Feminino
Zubenelgenubi Masculino

Idiomas disponíveis

O Gemini-TTS oferece uma vasta gama de opções de voz semelhantes às nossas vozes HD do Chirp 3 existentes, cada uma com características distintas:

Idioma Código BCP-47
Inglês (Estados Unidos) en-US

Disponibilidade regional

Os modelos Gemini-TTS estão disponíveis nas seguintes Google Cloud regiões, respetivamente:

Google Cloud zona Prontidão para o lançamento
global Pré-visualização pública

Formatos de saída suportados

O formato de resposta predefinido é LINEAR16. Outros formatos suportados incluem o seguinte:

Método da API Formato
batch ALAW, MULAW, MP3, OGG_OPUS e PCM

Use o Gemini-TTS

Descubra como usar os modelos Gemini-TTS para sintetizar a fala de um único orador.

Executar pedido de síntese de voz síncrono

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, model_name: str, output_filepath: str = "output.mp3"):
   """Synthesizes speech from the input text and saves it to an MP3 file.

   Args:
       prompt: Stylisting instructions on how to synthesize the content in
         the text field.
       text: The text to synthesize.
       model_name: Gemini model to use. Currently, the available models are
         gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
       output_filepath: The path to save the generated audio file.
         Defaults to "output.mp3".
   """
   client = texttospeech.TextToSpeechClient()

   synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

   # Select the voice you want to use.
   voice = texttospeech.VoiceSelectionParams(
       language_code="en-US",
       name="Charon",  # Example voice, adjust as needed
       model_name=model_name
   )

   audio_config = texttospeech.AudioConfig(
       audio_encoding=texttospeech.AudioEncoding.MP3
   )

   # Perform the text-to-speech request on the text input with the selected
   # voice parameters and audio file type.
   response = client.synthesize_speech(
       input=synthesis_input, voice=voice, audio_config=audio_config
   )

   # The response's audio_content is binary.
   with open(output_filepath, "wb") as out:
       out.write(response.audio_content)
       print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# Currently, the available models are gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
  "prompt": "Say the following in a curious way",
  "text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
  "languageCode": "en-us",
  "name": "Kore",
  "model_name": "gemini-2.5-flash-preview-tts"
},
"audioConfig": {
  "audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit