Speech-to-Text
Ubah ucapan menjadi teks secara akurat menggunakan API yang didukung oleh teknologi AI Google.
Coba gratis-
Transkripsikan konten Anda dengan teks yang akurat
-
Berikan pengalaman pengguna yang lebih baik dalam produk melalui perintah suara
-
Dapatkan insight dari interaksi pelanggan untuk meningkatkan kualitas layanan Anda
Manfaat
Akurasi yang canggih
Terapkan algoritme jaringan neural deep learning paling canggih dari Google untuk pengenalan ucapan otomatis (ASR).
Jangkauan global
Berinteraksilah dengan pengguna Anda secara global di mana pun mereka berada, dengan pengenalan suara yang mendukung lebih dari 125 bahasa dan varian.
Deployment fleksibel
Deploy pengenalan ucapan di mana pun Anda butuhkan, baik di cloud dengan API maupun di infrastruktur lokal dengan Speech-to-Text On-Prem.
Demo
Mewujudkan Speech-to-Text
Fitur utama
Fitur utama
Adaptasi ucapan
Sesuaikan pengenalan ucapan untuk mentranskripsikan istilah khusus domain dan kata-kata langka dengan memberikan petunjuk dan meningkatkan akurasi transkripsi terhadap kata atau frasa tertentu. Konversi angka yang diucapkan menjadi alamat, tahun, mata uang, dan lainnya secara otomatis menggunakan class.
Model khusus domain
Pilih dari pilihan model terlatih untuk kontrol suara dan panggilan telepon serta transkripsi video yang dioptimalkan untuk persyaratan kualitas khusus domain. Misalnya, model panggilan telepon kami yang disempurnakan disesuaikan untuk audio yang berasal dari telepon, seperti panggilan telepon yang direkam pada frekuensi pengambilan sampel 8 kHz.
Pengenalan ucapan saat streaming
Dapatkan hasil pengenalan ucapan real-time saat API memproses input audio yang di-streaming dari mikrofon aplikasi Anda, atau dikirim dari file audio yang direkam sebelumnya (inline atau melalui Cloud Storage).
Speech-to-Text On-Prem
Miliki kontrol penuh atas infrastruktur Anda dan data ucapan yang dilindungi sambil memanfaatkan teknologi pengenalan ucapan Google di infrastruktur lokal, langsung di pusat data pribadi Anda. Hubungi bagian penjualan untuk memulai.
Pelanggan
Pelanggan
Castbox menggunakan Speech-to-Text untuk menayangkan layanan penelusuran dalam audio untuk podcast.
Baca kisahnyaSorotan kisah
-
Memungkinkan pengguna menelusuri kata atau frasa dalam konten audio
-
Tingkat akurasi konversi audio menjadi teks lebih dari 96%
-
Kueri penelusuran umum dengan latensi hanya 50 milidetik
Industri
-
Teknologi
Yang baru
Yang baru
Daftar untuk berlangganan newsletter Google Cloud guna menerima berita terbaru terkait produk, informasi acara, penawaran spesial, dan lainnya.
Dokumentasi
Dokumentasi
Dasar-dasar Speech-to-Text
Pelajari konsep dasar dalam Speech-to-Text.
Panduan memulai: Menggunakan alat gcloud
Kirim permintaan transkripsi audio ke Speech-to-Text menggunakan alat gcloud dari command line.
Praktik terbaik
Tinjau praktik terbaik untuk mentranskripsikan audio dengan Speech-to-Text.
Bahasa yang didukung
Pelajari bahasa yang tersedia untuk Speech-to-Text, serta fitur dan model pengenalan yang tersedia untuk masing-masing bahasa.
Speech-to-Text On-Prem
Pelajari Speech-to-Text On-Prem lebih lanjut, yang memungkinkan integrasi yang mudah dari teknologi pengenalan ucapan Google ke dalam solusi lokal Anda.
Kasus penggunaan
Kasus penggunaan
Dukung sistem layanan pelanggan Anda dengan menambahkan IVR (tanggapan suara interaktif) dan percakapan agen ke pusat panggilan Anda. Lakukan analisis pada data percakapan Anda guna mendapatkan lebih banyak data tentang panggilan dan pelanggan Anda. Speech-to-Text dan model panggilan teleponnya yang disempurnakan telah mendukung solusi canggih Google Cloud, yaitu Contact Center AI.
Terapkan perintah suara seperti “naikkan volume”, dan penelusuran suara seperti mengucapkan “berapa suhu di Jakarta?” Gabungkan perintah ini dengan Text-to-Speech API untuk memberikan pengalaman yang didukung suara dalam aplikasi IoT (Internet of Things).
Transkripsikan audio dan video Anda untuk menyertakan teks serta tingkatkan jangkauan dan pengalaman audiens Anda. Tambahkan subtitel ke konten Anda secara real time untuk konten streaming Anda. Model transkripsi video kami ideal untuk mengindeks atau memberi subtitel pada video dan/atau konten yang melibatkan banyak pembicara. Model ini menggunakan teknologi machine learning yang prinsipnya sama dengan pemberian teks video di YouTube.
Semua fitur
Semua fitur
Kosakata global | Dukung basis pengguna global Anda dengan dukungan bahasa yang beragam dari Speech-to-Text dalam lebih dari 125 bahasa dan varian. |
Pengenalan ucapan saat streaming | Dapatkan hasil pengenalan ucapan real-time saat API memproses input audio yang di-streaming dari mikrofon aplikasi Anda atau dikirim dari file audio yang direkam sebelumnya (inline atau melalui Cloud Storage). |
Adaptasi ucapan | Sesuaikan pengenalan ucapan untuk mentranskripsikan istilah khusus domain dan kata-kata langka dengan memberikan petunjuk dan meningkatkan akurasi transkripsi terhadap kata atau frasa tertentu. Konversi angka yang diucapkan menjadi alamat, tahun, mata uang, dan lainnya secara otomatis menggunakan class. |
Speech-to-Text On-Prem | Miliki kontrol penuh atas infrastruktur Anda dan data ucapan yang dilindungi sambil memanfaatkan teknologi pengenalan ucapan Google di infrastruktur lokal, langsung di pusat data pribadi Anda. Hubungi bagian penjualan untuk memulai. |
Pengenalan multisaluran | Speech-to-Text dapat mengenali saluran yang berbeda dalam situasi multisaluran (misalnya, konferensi video) dan menganotasi transkrip untuk mempertahankan urutan. |
Penanganan derau yang andal | Speech-to-Text dapat menangani audio bising dari berbagai lingkungan tanpa memerlukan pengurang derau tambahan. |
Model khusus domain | Pilih dari pilihan model terlatih untuk kontrol suara dan panggilan telepon serta transkripsi video yang dioptimalkan untuk persyaratan kualitas khusus domain. Misalnya, model panggilan telepon kami yang disempurnakan disesuaikan untuk audio yang berasal dari telepon, seperti panggilan telepon yang direkam pada frekuensi pengambilan sampel 8 kHz. |
Pemfilteran konten | Filter kata-kata tidak sopan membantu Anda mendeteksi konten yang tidak pantas atau tidak profesional dalam data audio Anda dan memfilter kata-kata tidak sopan dalam hasil teks. |
Deteksi bahasa otomatis (beta) | Tentukan hingga empat kode bahasa, lalu Speech-to-Text akan mengidentifikasi bahasa yang diucapkan dengan benar dalam skenario multibahasa. |
Tanda baca otomatis (beta) | Speech-to-Text akan memberikan tanda baca dalam transkripsinya secara akurat (misalnya, koma, tanda tanya, dan titik). |
Diarisasi speaker (beta) | Ketahui siapa yang berbicara dengan menerima prediksi otomatis terkait pembicara mana yang berbicara dalam percakapan. |
Harga
Harga
Tagihan Speech-to-Text dihitung per 15 detik audio yang diproses setelah paket gratis 60 menit pertama.