Text-to-Speech Gemini-TTS adalah evolusi terbaru dari teknologi Text-to-Speech kami yang tidak hanya menghasilkan audio yang terdengar alami, tetapi juga memberikan kontrol terperinci atas audio yang dihasilkan menggunakan perintah berbasis teks. Dengan Gemini-TTS, Anda dapat menyintesis ucapan dari cuplikan singkat hingga narasi panjang, dengan secara tepat menentukan gaya, aksen, kecepatan, nada, dan bahkan ekspresi emosional, yang semuanya dapat dikontrol melalui perintah bahasa alami.
Kemampuan Gemini-TTS didukung oleh:
gemini-2.5-flash-preview-tts
: Pratinjau Gemini 2.5 Flash cocok untuk aplikasi sehari-hari yang hemat biaya.gemini-2.5-pro-preview-tts
: Pratinjau Gemini 2.5 Pro cocok untuk pembuatan ucapan (TTS) yang dapat dikontrol dan untuk kualitas canggih dari perintah yang kompleks.
Model | Dioptimalkan untuk | Modalitas input | Modalitas output | Satu pembicara |
---|---|---|---|---|
TTS Pratinjau Gemini 2.5 Flash | Pembuatan audio Text-to-Speech latensi rendah, dapat dikontrol, satu dan multi-pembicara untuk aplikasi sehari-hari yang hemat biaya | Teks | Audio | ✔️ |
TTS Pratinjau Gemini 2.5 Pro | Kontrol tinggi untuk alur kerja terstruktur seperti pembuatan podcast, buku audio, dukungan pelanggan, dan lainnya | Teks | Audio | ✔️ |
Kontrol dan kemampuan tambahan mencakup hal berikut:
Percakapan alami: Interaksi suara berkualitas tinggi, ekspresivitas, dan prosodi (pola ritme) yang lebih tepat disampaikan dengan latensi yang sangat rendah sehingga Anda dapat melakukan percakapan dengan lancar.
Kontrol gaya: Dengan menggunakan perintah bahasa natural, Anda dapat menyesuaikan penyampaian dalam percakapan dengan mengarahkannya untuk menggunakan aksen tertentu dan menghasilkan berbagai nada dan ekspresi, termasuk bisikan.
Performa dinamis: Model ini dapat menghidupkan teks untuk pembacaan puisi, siaran berita, dan penceritaan yang menarik. Agen AI juga dapat tampil dengan emosi tertentu dan menghasilkan aksen saat diminta.
Kontrol kecepatan dan pengucapan yang ditingkatkan: Mengontrol kecepatan penyampaian membantu memastikan akurasi pengucapan yang lebih baik, termasuk kata-kata tertentu.
Contoh
model: "gemini-2.5-pro-preview-tts" prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way." text: "hahah I did NOT expect that. Can you believe it!." speaker: "Callirhoe"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following in a curious way" text: "OK, so... tell me about this [uhm] AI thing.", speaker: "Orus"
model: "gemini-2.5-flash-preview-tts" prompt: "Say the following" text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions." speaker: "Kore"
Lihat bagian Menggunakan Gemini-TTS untuk mengetahui detail tentang cara menggunakan suara ini secara terprogram.
Opsi Suara
Gemini-TTS menawarkan berbagai opsi suara yang mirip dengan Chirp 3: HD Voices yang sudah ada, masing-masing dengan karakteristik yang berbeda:
Nama | Gender | Demo |
---|---|---|
Achernar | Perempuan | |
Achird | Laki-laki | |
Algenib | Laki-laki | |
Algieba | Laki-laki | |
Alnilam | Laki-laki | |
Aoede | Perempuan | |
Autonoe | Perempuan | |
Callirrhoe | Perempuan | |
Charon | Laki-laki | |
Despina | Perempuan | |
Enceladus | Laki-laki | |
Erinome | Perempuan | |
Fenrir | Laki-laki | |
Gacrux | Perempuan | |
Iapetus | Laki-laki | |
Kore | Perempuan | |
Laomedeia | Perempuan | |
Leda | Perempuan | |
Orus | Laki-laki | |
Pulcherrima | Perempuan | |
Puck | Laki-laki | |
Rasalgethi | Laki-laki | |
Sadachbia | Laki-laki | |
Sadaltager | Laki-laki | |
Schedar | Laki-laki | |
Sulafat | Perempuan | |
Umbriel | Laki-laki | |
Vindemiatrix | Perempuan | |
Zephyr | Perempuan | |
Zubenelgenubi | Laki-laki |
Ketersediaan bahasa
Gemini-TTS menawarkan berbagai opsi suara yang mirip dengan Chirp 3: HD Voices yang sudah ada, masing-masing dengan karakteristik yang berbeda:
Bahasa | Kode BCP-47 |
---|---|
Inggris (Amerika Serikat) | en-US |
Ketersediaan regional
Model Gemini-TTS tersedia di Google Cloud region berikut:
Google Cloud zona | Kesiapan peluncuran |
---|---|
global |
Pratinjau Publik |
Format output yang didukung
Format respons default adalah LINEAR16
. Format lain yang didukung mencakup:
Metode API | Format |
---|---|
batch |
ALAW, MULAW, MP3, OGG_OPUS, dan PCM |
Menggunakan Gemini-TTS
Pelajari cara menggunakan model Gemini-TTS untuk menyintesis ucapan satu penutur.
Melakukan permintaan sintesis ucapan sinkron
Python
# google-cloud-texttospeech minimum version 2.29.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize(prompt: str, text: str, model_name: str, output_filepath: str = "output.mp3"):
"""Synthesizes speech from the input text and saves it to an MP3 file.
Args:
prompt: Stylisting instructions on how to synthesize the content in
the text field.
text: The text to synthesize.
model_name: Gemini model to use. Currently, the available models are
gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
output_filepath: The path to save the generated audio file.
Defaults to "output.mp3".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
# Select the voice you want to use.
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="Charon", # Example voice, adjust as needed
model_name=model_name
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type.
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# Currently, the available models are gemini-2.5-flash-preview-tts and gemini-2.5-pro-preview-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following in a curious way",
"text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
"languageCode": "en-us",
"name": "Kore",
"model_name": "gemini-2.5-flash-preview-tts"
},
"audioConfig": {
"audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit