Gemini-TTS est la dernière évolution de notre technologie Text-to-Speech. Elle va au-delà du simple naturel et permet de contrôler précisément l'audio généré à l'aide de requêtes textuelles. Grâce à Gemini-TTS, vous pouvez synthétiser la parole à partir de courts extraits ou de longs récits, en dictant précisément le style, l'accent, le rythme, le ton et même l'expression émotionnelle, le tout pilotable à l'aide de requêtes en langage naturel.
Les fonctionnalités Gemini-TTS sont compatibles avec les éléments suivants :
gemini-2.5-flash-preview-tts
: Gemini 2.5 Flash (preview) est adapté aux applications quotidiennes économiques.gemini-2.5-pro-preview-tts
: Gemini 2.5 Pro (preview) est idéal pour la génération de parole contrôlable (TTS) et pour la qualité de pointe des requêtes complexes.
Modèle | Optimisé pour | Modalité d'entrée | Modalité de sortie | Locuteur unique |
---|---|---|---|---|
Gemini 2.5 Flash Preview TTS | Génération audio de Text-to-Speech à faible latence et contrôlable, pour un ou plusieurs locuteurs, pour des applications quotidiennes économiques | Texte | Audio | ✔️ |
TTS Gemini 2.5 Pro (preview) | Contrôle élevé pour les workflows structurés tels que la génération de podcasts, les livres audio, le service client, etc. | Texte | Audio | ✔️ |
Voici quelques-uns des contrôles et des fonctionnalités supplémentaires :
Conversation naturelle : les interactions vocales sont d'une qualité remarquable, avec une expressivité et une prosodie (rythme) plus appropriées, et une latence très faible pour que vous puissiez converser de manière fluide.
Contrôle du style : à l'aide de requêtes en langage naturel, vous pouvez adapter la façon dont le contenu est transmis au cours de la conversation en lui demandant d'adopter des accents spécifiques et de produire une gamme de tons et d'expressions, y compris un murmure.
Performances dynamiques : ces modèles peuvent donner vie au texte pour des lectures expressives de poèmes, de bulletins d'informations et de récits captivants. Ils peuvent également jouer la comédie avec des émotions spécifiques et produire des accents sur demande.
Contrôle amélioré du rythme et de la prononciation : le contrôle de la vitesse de lecture permet d'améliorer la précision de la prononciation, y compris pour des mots spécifiques.
Exemples
model: "gemini-2.5-pro-preview-tts" prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way." text: "hahah I did NOT expect that. Can you believe it!." speaker: "Callirhoe"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following in a curious way" text: "OK, so... tell me about this [uhm] AI thing.", speaker: "Orus"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following" text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions." speaker: "Kore"
Pour savoir comment utiliser ces voix de manière programmatique, consultez la section Utiliser Gemini-TTS.
Options vocales
Gemini-TTS propose un large éventail d'options vocales semblables à nos voix Chirp 3 HD existantes, chacune avec des caractéristiques distinctes :
Nom | Sexe | Démonstration |
---|---|---|
Achernar | Femme | |
Achird | Homme | |
Algenib | Homme | |
Algieba | Homme | |
Alnilam | Homme | |
Aoede | Femme | |
Autonoe | Femme | |
Callirrhoe | Femme | |
Charon | Homme | |
Despina | Femme | |
Encelade | Homme | |
Erinome | Femme | |
Fenrir | Homme | |
Gacrux | Femme | |
Iapetus | Homme | |
Kore | Femme | |
Laomedeia | Femme | |
Léda | Femme | |
Orus | Homme | |
Pulcherrima | Femme | |
Puck | Homme | |
Rasalgethi | Homme | |
Sadachbia | Homme | |
Sadaltager | Homme | |
Schedar | Homme | |
Sulafat | Femme | |
Umbriel | Homme | |
Vindemiatrix | Femme | |
Zephyr | Femme | |
Zubenelgenubi | Homme |
Langues disponibles
Gemini-TTS propose un large éventail d'options vocales semblables à nos voix Chirp 3 HD existantes, chacune avec des caractéristiques distinctes :
Langue | Code BCP-47 |
---|---|
Anglais (États-Unis) | en-US |
Disponibilité en fonction des régions
Les modèles Gemini-TTS sont disponibles dans les Google Cloud régions suivantes :
Google Cloud zone | Disponibilité pour le lancement |
---|---|
global |
Aperçu public |
Formats de sortie acceptés
Le format de réponse par défaut est LINEAR16
. Voici d'autres formats acceptés :
Méthode API | Format |
---|---|
batch |
ALAW, MULAW, MP3, OGG_OPUS et PCM |
Utiliser Gemini-TTS
Découvrez comment utiliser les modèles Gemini-TTS pour synthétiser la parole d'un seul locuteur.
Envoyer une requête de synthèse vocale synchrone
Python
# google-cloud-texttospeech minimum version 2.29.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize(prompt: str, text: str, model_name: str, output_filepath: str = "output.mp3"):
"""Synthesizes speech from the input text and saves it to an MP3 file.
Args:
prompt: Stylisting instructions on how to synthesize the content in
the text field.
text: The text to synthesize.
model_name: Gemini model to use. Currently, the available models are
gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
output_filepath: The path to save the generated audio file.
Defaults to "output.mp3".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
# Select the voice you want to use.
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="Charon", # Example voice, adjust as needed
model_name=model_name
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type.
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# Currently, the available models are gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following in a curious way",
"text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
"languageCode": "en-us",
"name": "Kore",
"model_name": "gemini-2.5-flash-preview-tts"
},
"audioConfig": {
"audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit