Experimente um bloco de notas do Colab
|
Ver bloco de notas no GitHub
|
O Gemini-TTS de conversão de texto em voz é a mais recente evolução da nossa tecnologia de conversão de texto em voz, que vai além da naturalidade para oferecer um controlo detalhado sobre o áudio gerado através de comandos baseados em texto. Com o Gemini-TTS, pode sintetizar a fala de pequenos fragmentos a narrativas longas, ditando com precisão o estilo, o sotaque, o ritmo, o tom e até a expressão emocional, tudo controlável através de comandos de linguagem natural.
As capacidades do Gemini-TTS são suportadas pelo seguinte:
gemini-2.5-flash-preview-tts: a pré-visualização do Gemini 2.5 Flash é adequada para aplicações diárias económicas.gemini-2.5-pro-preview-tts: a pré-visualização do Gemini 2.5 Pro é adequada para a geração de voz controlável (TTS) e para a qualidade de ponta de comandos complexos.
| Modelo | Otimizado para | Modalidade de entrada | Modalidade de saída | Orador único |
|---|---|---|---|---|
| Gemini 2.5 Flash Preview TTS | Geração de áudio de conversão de texto em voz de baixa latência, controlável, com um ou vários altifalantes para aplicações diárias económicas | Texto | Áudio | ✔️ |
| Gemini 2.5 Pro Preview TTS | Controlo elevado para fluxos de trabalho estruturados, como geração de podcasts, livros áudio, apoio ao cliente e muito mais | Texto | Áudio | ✔️ |
Os controlos e as capacidades adicionais incluem o seguinte:
Conversa natural: as interações de voz de qualidade notável, expressividade mais adequada e prosódia (padrões de ritmo) são fornecidas com uma latência muito baixa para que possa conversar de forma fluida.
Controlo de estilo: através de comandos de linguagem natural, pode adaptar a transmissão na conversa, direcionando-a para adotar sotaques específicos e produzir uma variedade de tons e expressões, incluindo um sussurro.
Desempenho dinâmico: estes modelos podem dar vida ao texto para leituras expressivas de poesia, noticiários e histórias cativantes. Também podem atuar com emoções específicas e produzir sotaques quando solicitado.
Controlo melhorado do ritmo e da pronúncia: o controlo da velocidade de transmissão ajuda a garantir uma maior precisão na pronúncia, incluindo palavras específicas.
Exemplos
model: "gemini-2.5-pro-preview-tts" prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way." text: "hahah I did NOT expect that. Can you believe it!." speaker: "Callirhoe"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following in a curious way" text: "OK, so... tell me about this [uhm] AI thing.", speaker: "Orus"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following" text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions." speaker: "Kore"
Consulte a secção Usar o Gemini-TTS para ver detalhes sobre como usar estas vozes através de programação.
Opções de voz
O Gemini-TTS oferece uma vasta gama de opções de voz semelhantes às nossas vozes HD do Chirp 3 existentes, cada uma com características distintas:
| Nome | Sexo | Demonstrações |
|---|---|---|
| Achernar | Feminino | |
| Achird | Masculino | |
| Algenib | Masculino | |
| Algieba | Masculino | |
| Alnilam | Masculino | |
| Aoede | Feminino | |
| Autonoe | Feminino | |
| Callirrhoe | Feminino | |
| Caronte | Masculino | |
| Despina | Feminino | |
| Encélado | Masculino | |
| Erinome | Feminino | |
| Fenrir | Masculino | |
| Gacrux | Feminino | |
| Jápeto | Masculino | |
| Kore | Feminino | |
| Laomedeia | Feminino | |
| Leda | Feminino | |
| Orus | Masculino | |
| Pulcherrima | Feminino | |
| Disco | Masculino | |
| Rasalgethi | Masculino | |
| Sadachbia | Masculino | |
| Sadaltager | Masculino | |
| Schedar | Masculino | |
| Sulafat | Feminino | |
| Umbriel | Masculino | |
| Vindemiatrix | Feminino | |
| Zephyr | Feminino | |
| Zubenelgenubi | Masculino |
Idiomas disponíveis
O Gemini-TTS oferece uma vasta gama de opções de voz semelhantes às nossas vozes HD do Chirp 3 existentes, cada uma com características distintas:
| Idioma | Código BCP-47 |
|---|---|
| Inglês (Estados Unidos) | en-US |
Disponibilidade regional
Os modelos Gemini-TTS estão disponíveis nas seguintes Google Cloud regiões, respetivamente:
| Google Cloud zona | Prontidão para o lançamento |
|---|---|
global |
Pré-visualização pública |
Formatos de saída suportados
O formato de resposta predefinido é LINEAR16. Outros formatos suportados incluem o seguinte:
| Método da API | Formato |
|---|---|
batch |
ALAW, MULAW, MP3, OGG_OPUS e PCM |
Use o Gemini-TTS
Descubra como usar os modelos Gemini-TTS para sintetizar a fala de um único orador.
Executar pedido de síntese de voz síncrono
Python
# google-cloud-texttospeech minimum version 2.29.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize(prompt: str, text: str, model_name: str, output_filepath: str = "output.mp3"):
"""Synthesizes speech from the input text and saves it to an MP3 file.
Args:
prompt: Stylisting instructions on how to synthesize the content in
the text field.
text: The text to synthesize.
model_name: Gemini model to use. Currently, the available models are
gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
output_filepath: The path to save the generated audio file.
Defaults to "output.mp3".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
# Select the voice you want to use.
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="Charon", # Example voice, adjust as needed
model_name=model_name
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type.
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# Currently, the available models are gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following in a curious way",
"text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
"languageCode": "en-us",
"name": "Kore",
"model_name": "gemini-2.5-flash-preview-tts"
},
"audioConfig": {
"audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Experimente um bloco de notas do Colab
Ver bloco de notas no GitHub