Coba Gemini 3, model terbaik kami untuk penalaran, coding, dan pemahaman multimodal di Gemini Enterprise Agent Platform

Text-to-Speech

Text-to-Speech AI

Konversi teks menjadi ucapan yang terdengar alami menggunakan API yang didukung oleh teknologi AI terbaik dari Google.

Pelanggan baru mendapatkan kredit gratis senilai hingga $300 untuk mencoba Text-to-Speech dan produk Google Cloud lainnya.

Berikan respons cerdas dan terdengar nyata kepada pengguna dengan suara AI yang alami
Bangun antarmuka suara untuk aplikasi dengan text to speech terintegrasi
Personalisasi komunikasi dan audio Anda berdasarkan preferensi suara dan bahasa pengguna

Pelajari cara membuat ucapan sintetis menggunakan Text-to-Speech API

Mulai lab mandiri

Manfaat

Ucapan fidelitas tinggi

Deploy teknologi inovatif Google untuk menghasilkan ucapan dengan intonasi layaknya manusia. Dibangun berdasarkan keahlian sintesis ucapan DeepMind, API tersebut menghasilkan suara yang mendekati kualitas suara manusia.

Pilihan suara terluas

Tersedia pilihan lebih dari 380 suara dalam lebih dari 75 bahasa dan varian, termasuk Mandarin, Hindi, Spanyol, Arab, Rusia, dan banyak lagi. Pilih suara yang paling sesuai untuk pengguna dan aplikasi Anda.

Suara yang unik

Buat suara yang unik untuk mewakili brand Anda di semua poin kontak pelanggan Anda. Jangan menggunakan suara yang sama dengan yang dipakai organisasi lain.

Demo

Menerapkan Text-to-Speech

Ketik apa saja, pilih bahasa, lalu klik “Ucapkan” untuk mendengarnya.

Fitur utama

Gemini-TTS

Lakukan sintesis ucapan satu atau banyak penutur dari cuplikan pendek hingga narasi panjang, dengan tetap mempertahankan kontekstualitas. Tentukan gaya, aksen, kecepatan, nada, dan ekspresi emosional dengan tepat dengan perintah bahasa alami sederhana dalam lebih dari 75 lokalitas. Buka Media Studio atau lihat dokumentasi kami untuk mempelajari lebih lanjut.

Chirp 3: Suara HD

Bangun agen yang menarik menggunakan suara percakapan spontan terbaru yang berbasis AudioML. Suara ini menawarkan audio berkualitas tinggi, streaming berlatensi rendah, dan ucapan yang terdengar alami, dengan intonasi yang akurat, beragam emosi, serta menyertakan ketidaklancaran pengucapan manusia. Buka Media Studio atau lihat dokumentasi kami untuk mempelajari lebih lanjut.

Chirp 3: suara kustom instan

Buat model suara yang dipersonalisasi hanya dengan input audio berdurasi 10 detik. Cocok untuk video game, buku audio, podcast, dan lainnya. Tersedia dalam lebih dari 30 lokalitas. Buka Media Studio atau lihat dokumentasi kami untuk mempelajari lebih lanjut.

Dukungan perintah, teks, dan SSML

Kontrol format angka dan waktu, pengiriman, pengucapan, dan emosi menggunakan pembuatan skrip teks biasa yang sederhana, tag SSML, atau bahkan perintah bahasa alami yang canggih, tergantung model yang didukung. Buka Media Studio atau lihat dokumentasi kami untuk mempelajari lebih lanjut.

Yang baru

Daftar untuk berlangganan newsletter Google Cloud guna menerima berita terbaru terkait produk, informasi acara, penawaran spesial, dan lainnya.

Gambar vektor orang yang mengucapkan ‘Halo’ dalam berbagai bahasa

Blog post

Google Cloud Text-to-Speech API kini mendukung suara kustomBaca blog

Seseorang yang sedang memegang smartphone menunjukkan buku audio yang dibuat dengan text to speech

Video

Cara mengonversi PDF ke buku audio dengan machine learningTonton video

Sketsa yang mendemonstrasikan percakapan yang didukung AI menggunakan Contact Center AI

Blog post

AI Percakapan mendorong pengalaman pelanggan yang lebih baikBaca blog

Seorang perempuan memegang ponsel di depannya dan berbicara melalui ponsel tersebut

Video

Membuat solusi untuk panggilan telepon ramah difabel dengan Speech-to-Text dan Text-to-SpeechTonton video

Teks Bahasa dan Suara Cloud Text-to-Speech di atas deretan ~25 bendera dunia

Blog post

Bahasa dan suara baru untuk Text-to-SpeechBaca blog

Dokumentasi

Quickstart

Gemini-TTS

Pelajari cara mengontrol sintesis ucapan dengan tepat menggunakan Gemini-TTS, dengan perintah bahasa alami untuk menentukan gaya, nada, kecepatan, dan ekspresi emosional.

Quickstart

Chirp 3: ringkasan suara HD

Pelajari cara menyintesis ucapan yang realistis dan penuh emosi menggunakan Chirp 3: suara HD, serta menyempurnakan audio dengan kontrol lanjutan dan praktik terbaik pembuatan skrip.

Quickstart

Chirp 3: ringkasan suara kustom instan

Buat model suara yang dipersonalisasi dan unik hanya dengan rekaman audio berdurasi 10 detik untuk organisasi Anda. Fitur ini memungkinkan pembuatan suara pribadi dengan cepat.

Tutorial

Mengucapkan alamat dengan SSML

Pelajari cara menggunakan Speech Synthesis Markup Language (SSML) untuk mengucapkan file teks alamat.

Google Cloud Basics

Dasar-dasar Text-to-Speech

Panduan konsep dasar penggunaan Text-to-Speech API.

Google Cloud Basics

Suara dan bahasa yang didukung

Telusuri panduan dan referensi untuk produk ini.

Tidak menemukan yang Anda cari?

Catatan rilis

Baca rilis terbaru untuk Text-to-Speech

Kasus penggunaan

Voicebot di pusat kontak

Berikan pengalaman suara yang lebih baik untuk layanan pelanggan dengan voicebot di Customer Experience Agent Studio yang secara dinamis menghasilkan ucapan, bukan memutar audio statis yang telah direkam sebelumnya. Hadirkan interaksi melalui suara sintesis berkualitas tinggi yang memberikan kesan akrab dan personal bagi penelepon.

Kasus penggunaan

Pembuatan suara di perangkat

Wujudkan komunikasi yang natural bersama pengguna Anda dengan mendukung perangkat untuk mengucapkan suara layaknya manusia sebagai pembaca teks. Bangun antarmuka pengguna suara end-to-end menggunakan Speech-to-Text dan Natural Language untuk meningkatkan kualitas pengalaman pengguna dengan interaksi yang mudah dan menarik.

Voice to text dengan perangkat dan alur IOT

Kasus penggunaan

EPG (Panduan Program Elektronik) ramah difabel

Buat EPG membacakan teks secara lantang dengan mudah untuk memberikan pengalaman pengguna yang lebih baik kepada pelanggan serta memenuhi persyaratan aksesibilitas untuk layanan dan aplikasi Anda. Coba demo EPG.

Implementasikan fungsi text-to-speech dengan mudah di EPG untuk memberikan pengalaman pengguna yang lebih baik kepada pelanggan serta memenuhi persyaratan aksesibilitas untuk layanan dan aplikasi Anda.

Semua fitur

Sintesis audio streaming	Dukung agen AI Anda dengan ucapan berlatensi ultra-rendah untuk memproses percakapan real-time yang lancar dengan sintesis audio streaming.
Sintesis audio panjang	Lakukan sintesis hingga 1 juta byte input secara asinkron dengan sintesis audio panjang.
Pemilihan suara dan bahasa	Tersedia lebih dari 380 suara yang dapat dipilih dalam lebih dari 75 bahasa dan varian, dan jumlahnya akan bertambah dalam waktu dekat.
Dukungan Teks dan SSML	Sesuaikan ucapan dengan tag SSML yang memungkinkan Anda menambahkan jeda, angka, format tanggal dan waktu, serta petunjuk pengucapan lain.
Penyesuaian tinggi nada	Personalisasi tinggi nada suara yang Anda pilih, hingga 20 semitone di atas atau di bawah setelan default.
Penyesuaian kecepatan bicara	Sesuaikan kecepatan bicara Anda menjadi 4x lebih cepat atau lebih lambat dari kecepatan normal.
Kontrol peningkatan volume	Tingkatkan volume output hingga 16 dB atau kurangi volume hingga -96 dB.
REST dan gRPC API terintegrasi	Mudah diintegrasikan dengan aplikasi atau perangkat apa pun yang dapat mengirimkan permintaan REST atau gRPC, termasuk ponsel, PC, tablet, dan perangkat IoT (misalnya, mobil, TV, speaker).
Fleksibilitas format audio	Konversi teks menjadi format MP3, Linear16, OGG Opus, dan sejumlah format audio lainnya.
Profil audio	Optimalkan jenis speaker yang digunakan untuk memutar ucapan Anda, seperti headphone atau saluran telepon.

Harga

Text-to-Speech dikenai biaya berdasarkan jumlah karakter yang dikirim ke layanan untuk disintesis menjadi audio setiap bulannya. 1 juta karakter pertama per bulan gratis untuk suara WaveNet. Untuk suara Standar (non-WaveNet), 4 juta karakter pertama per bulan gratis. Setelah batas paket gratis tercapai, Text-to-Speech akan dikenai biaya per 1 juta karakter teks yang diproses.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Google Cloud.

Langkah selanjutnya

Pelanggan baru mendapatkan kredit gratis senilai $300 untuk mencoba Text-to-Speech dan produk Google Cloud lainnya.

Perlu bantuan untuk memulai?
Hubungi bagian penjualan
Bekerja sama dengan partner tepercaya
Temukan partner
Lanjutkan menjelajah
Lihat semua produk

Text-to-Speech AI

Ucapan fidelitas tinggi

Pilihan suara terluas

Suara yang unik

Menerapkan Text-to-Speech

Fitur utama

Gemini-TTS

Chirp 3: Suara HD

Chirp 3: suara kustom instan

Dukungan perintah, teks, dan SSML

Yang baru

Dokumentasi

Gemini-TTS

Chirp 3: ringkasan suara HD

Chirp 3: ringkasan suara kustom instan

Mengucapkan alamat dengan SSML

Dasar-dasar Text-to-Speech

Suara dan bahasa yang didukung

Tidak menemukan yang Anda cari?

Pelajari dokumen lainnya

Kasus penggunaan

Voicebot di pusat kontak

Pembuatan suara di perangkat

EPG (Panduan Program Elektronik) ramah difabel

Semua fitur

Harga

Langkah selanjutnya

Perlu bantuan untuk memulai?

Bekerja sama dengan partner tepercaya

Lanjutkan menjelajah