Gemini-TTS

Gemini-TTS è l'ultima evoluzione della nostra tecnologia di Text-to-Speech che va oltre la naturalezza per offrire un controllo granulare sull'audio generato utilizzando prompt basati su testo. Con Gemini-TTS, puoi sintetizzare la voce da brevi snippet a narrazioni di lunga durata, dettando con precisione stile, accento, ritmo, tono e persino l'espressione emotiva, il tutto controllabile tramite prompt in linguaggio naturale.

Le funzionalità di Gemini-TTS sono supportate da:

  • gemini-2.5-flash-preview-tts: l'anteprima di Gemini 2.5 Flash è ideale per le applicazioni quotidiane a costi contenuti.

  • gemini-2.5-pro-preview-tts: l'anteprima di Gemini 2.5 Pro è ideale per la generazione di sintesi vocale controllabile (TTS) e per la qualità all'avanguardia di prompt complessi.

Modello Ottimizzato per Modalità di input Modalità di output Unico interlocutore
Anteprima della sintesi vocale di Gemini 2.5 Flash Generazione di audio Text-to-Speech a bassa latenza, controllabile, con uno o più speaker per applicazioni quotidiane economiche Testo Audio ✔️
Anteprima TTS di Gemini 2.5 Pro Controllo elevato per flussi di lavoro strutturati come la generazione di podcast, audiolibri, assistenza clienti e altro ancora Testo Audio ✔️

Controlli e funzionalità aggiuntivi includono quanto segue:

  1. Conversazione naturale: le interazioni vocali di qualità straordinaria, con espressività e prosodia (schemi ritmici) più appropriate, vengono fornite con una latenza molto bassa, in modo da poter conversare in modo fluido.

  2. Controllo dello stile: utilizzando prompt in linguaggio naturale, puoi adattare la conversazione per adottare accenti specifici e produrre una gamma di toni ed espressioni, incluso un sussurro.

  3. Prestazioni dinamiche: questi modelli possono dare vita al testo per letture espressive di poesie, notiziari e storytelling coinvolgenti. Possono anche esibirsi con emozioni specifiche e produrre accenti su richiesta.

  4. Controllo avanzato del ritmo e della pronuncia: il controllo della velocità di riproduzione contribuisce a garantire una maggiore precisione nella pronuncia, incluse parole specifiche.

Esempi

model: "gemini-2.5-pro-preview-tts"
prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirhoe"

model: "gemini-2.5-flash-preview-tts"
prompt: "Say the following in a curious way"
text: "OK, so... tell me about this [uhm] AI thing.",
speaker: "Orus"

model: "gemini-2.5-flash-preview-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions."
speaker: "Kore"

Per informazioni dettagliate su come utilizzare queste voci a livello di programmazione, consulta la sezione Utilizzare Gemini-TTS.

Opzioni vocali

Gemini-TTS offre un'ampia gamma di opzioni vocali simili a Chirp 3: voci in HD, ognuna con caratteristiche distinte:

Nome Genere Demo
Achernar Donna
Achird Uomo
Algenib Uomo
Algieba Uomo
Alnilam Uomo
Aoede Donna
Autonoe Donna
Callirrhoe Donna
Caronte Uomo
Despina Donna
Encelado Uomo
Erinome Donna
Fenrir Uomo
Gacrux Donna
Giapeto Uomo
Kore Donna
Laomedeia Donna
Leda Donna
Orus Uomo
Pulcherrima Donna
Puck Uomo
Rasalgethi Uomo
Sadachbia Uomo
Sadaltager Uomo
Schedar Uomo
Sulafat Donna
Umbriel Uomo
Vindemiatrix Donna
Zephyr Donna
Zubenelgenubi Uomo

Lingue disponibili

Gemini-TTS offre un'ampia gamma di opzioni vocali simili a Chirp 3: voci in HD, ognuna con caratteristiche distinte:

Lingua Codice BCP-47
Inglese (Stati Uniti) en-US

Disponibilità a livello di regione

I modelli Gemini-TTS sono disponibili nelle seguenti regioni Google Cloud :

Google Cloud zona Preparazione al lancio
global Anteprima pubblica

Formati di output supportati

Il formato di risposta predefinito è LINEAR16. Altri formati supportati includono:

Metodo API Formato
batch ALAW, MULAW, MP3, OGG_OPUS e PCM

Usare Gemini-TTS

Scopri come utilizzare i modelli Gemini-TTS per sintetizzare la voce di un singolo oratore.

Eseguire una richiesta di sintesi vocale sincrona

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, model_name: str, output_filepath: str = "output.mp3"):
   """Synthesizes speech from the input text and saves it to an MP3 file.

   Args:
       prompt: Stylisting instructions on how to synthesize the content in
         the text field.
       text: The text to synthesize.
       model_name: Gemini model to use. Currently, the available models are
         gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
       output_filepath: The path to save the generated audio file.
         Defaults to "output.mp3".
   """
   client = texttospeech.TextToSpeechClient()

   synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

   # Select the voice you want to use.
   voice = texttospeech.VoiceSelectionParams(
       language_code="en-US",
       name="Charon",  # Example voice, adjust as needed
       model_name=model_name
   )

   audio_config = texttospeech.AudioConfig(
       audio_encoding=texttospeech.AudioEncoding.MP3
   )

   # Perform the text-to-speech request on the text input with the selected
   # voice parameters and audio file type.
   response = client.synthesize_speech(
       input=synthesis_input, voice=voice, audio_config=audio_config
   )

   # The response's audio_content is binary.
   with open(output_filepath, "wb") as out:
       out.write(response.audio_content)
       print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# Currently, the available models are gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
  "prompt": "Say the following in a curious way",
  "text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
  "languageCode": "en-us",
  "name": "Kore",
  "model_name": "gemini-2.5-flash-preview-tts"
},
"audioConfig": {
  "audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit