Gemini-TTS è l'ultima evoluzione della nostra tecnologia di Text-to-Speech che va oltre la naturalezza per offrire un controllo granulare sull'audio generato utilizzando prompt basati su testo. Con Gemini-TTS, puoi sintetizzare la voce da brevi snippet a narrazioni di lunga durata, dettando con precisione stile, accento, ritmo, tono e persino l'espressione emotiva, il tutto controllabile tramite prompt in linguaggio naturale.
Le funzionalità di Gemini-TTS sono supportate da:
gemini-2.5-flash-preview-tts
: l'anteprima di Gemini 2.5 Flash è ideale per le applicazioni quotidiane a costi contenuti.gemini-2.5-pro-preview-tts
: l'anteprima di Gemini 2.5 Pro è ideale per la generazione di sintesi vocale controllabile (TTS) e per la qualità all'avanguardia di prompt complessi.
Modello | Ottimizzato per | Modalità di input | Modalità di output | Unico interlocutore |
---|---|---|---|---|
Anteprima della sintesi vocale di Gemini 2.5 Flash | Generazione di audio Text-to-Speech a bassa latenza, controllabile, con uno o più speaker per applicazioni quotidiane economiche | Testo | Audio | ✔️ |
Anteprima TTS di Gemini 2.5 Pro | Controllo elevato per flussi di lavoro strutturati come la generazione di podcast, audiolibri, assistenza clienti e altro ancora | Testo | Audio | ✔️ |
Controlli e funzionalità aggiuntivi includono quanto segue:
Conversazione naturale: le interazioni vocali di qualità straordinaria, con espressività e prosodia (schemi ritmici) più appropriate, vengono fornite con una latenza molto bassa, in modo da poter conversare in modo fluido.
Controllo dello stile: utilizzando prompt in linguaggio naturale, puoi adattare la conversazione per adottare accenti specifici e produrre una gamma di toni ed espressioni, incluso un sussurro.
Prestazioni dinamiche: questi modelli possono dare vita al testo per letture espressive di poesie, notiziari e storytelling coinvolgenti. Possono anche esibirsi con emozioni specifiche e produrre accenti su richiesta.
Controllo avanzato del ritmo e della pronuncia: il controllo della velocità di riproduzione contribuisce a garantire una maggiore precisione nella pronuncia, incluse parole specifiche.
Esempi
model: "gemini-2.5-pro-preview-tts" prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way." text: "hahah I did NOT expect that. Can you believe it!." speaker: "Callirhoe"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following in a curious way" text: "OK, so... tell me about this [uhm] AI thing.", speaker: "Orus"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following" text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions." speaker: "Kore"
Per informazioni dettagliate su come utilizzare queste voci a livello di programmazione, consulta la sezione Utilizzare Gemini-TTS.
Opzioni vocali
Gemini-TTS offre un'ampia gamma di opzioni vocali simili a Chirp 3: voci in HD, ognuna con caratteristiche distinte:
Nome | Genere | Demo |
---|---|---|
Achernar | Donna | |
Achird | Uomo | |
Algenib | Uomo | |
Algieba | Uomo | |
Alnilam | Uomo | |
Aoede | Donna | |
Autonoe | Donna | |
Callirrhoe | Donna | |
Caronte | Uomo | |
Despina | Donna | |
Encelado | Uomo | |
Erinome | Donna | |
Fenrir | Uomo | |
Gacrux | Donna | |
Giapeto | Uomo | |
Kore | Donna | |
Laomedeia | Donna | |
Leda | Donna | |
Orus | Uomo | |
Pulcherrima | Donna | |
Puck | Uomo | |
Rasalgethi | Uomo | |
Sadachbia | Uomo | |
Sadaltager | Uomo | |
Schedar | Uomo | |
Sulafat | Donna | |
Umbriel | Uomo | |
Vindemiatrix | Donna | |
Zephyr | Donna | |
Zubenelgenubi | Uomo |
Lingue disponibili
Gemini-TTS offre un'ampia gamma di opzioni vocali simili a Chirp 3: voci in HD, ognuna con caratteristiche distinte:
Lingua | Codice BCP-47 |
---|---|
Inglese (Stati Uniti) | en-US |
Disponibilità a livello di regione
I modelli Gemini-TTS sono disponibili nelle seguenti regioni Google Cloud :
Google Cloud zona | Preparazione al lancio |
---|---|
global |
Anteprima pubblica |
Formati di output supportati
Il formato di risposta predefinito è LINEAR16
. Altri formati supportati includono:
Metodo API | Formato |
---|---|
batch |
ALAW, MULAW, MP3, OGG_OPUS e PCM |
Usare Gemini-TTS
Scopri come utilizzare i modelli Gemini-TTS per sintetizzare la voce di un singolo oratore.
Eseguire una richiesta di sintesi vocale sincrona
Python
# google-cloud-texttospeech minimum version 2.29.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize(prompt: str, text: str, model_name: str, output_filepath: str = "output.mp3"):
"""Synthesizes speech from the input text and saves it to an MP3 file.
Args:
prompt: Stylisting instructions on how to synthesize the content in
the text field.
text: The text to synthesize.
model_name: Gemini model to use. Currently, the available models are
gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
output_filepath: The path to save the generated audio file.
Defaults to "output.mp3".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
# Select the voice you want to use.
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="Charon", # Example voice, adjust as needed
model_name=model_name
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type.
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# Currently, the available models are gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following in a curious way",
"text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
"languageCode": "en-us",
"name": "Kore",
"model_name": "gemini-2.5-flash-preview-tts"
},
"audioConfig": {
"audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit