Cloud Speech-to-Text

Konversi speech-to-text yang diberdayakan machine learning dan tersedia untuk audio format pendek atau format panjang.

Coba Gratis

Lihat dokumentasi untuk produk ini.

Pengenalan ucapan yang andal

Dengan Speech-to-Text, developer dapat mengonversi audio menjadi teks dengan menerapkan model jaringan neural yang canggih di API yang mudah digunakan. API ini mengenali 120 bahasa dan varian untuk mendukung basis pengguna global Anda. Anda dapat mengaktifkan perintah dan kontrol suara, mentranskripsi audio dari pusat panggilan, dan sebagainya. API ini dapat memproses streaming real time atau audio rekaman menggunakan teknologi machine learning Google.

speech-api-lead

Konversi ucapan Anda menjadi teks sekarang juga *

* Demo ini didasarkan pada sampel aplikasi/UI yang dibuat menggunakan Cloud Text-to-Speech API

Diberdayakan oleh machine learning

Terapkan algoritme jaringan neural deep learning tercanggih ke audio untuk pengenalan ucapan dengan akurasi yang tidak tertandingi. Akurasi Cloud Speech-to-Text meningkat seiring penyempurnaan yang dilakukan Google pada teknologi pengenalan ucapan yang digunakan oleh produk-produk Google.

machine learning

Mengenali 120 bahasa dan varian

Cloud Speech-to-Text mengenali 120 bahasa dan varian sehingga dapat mendukung basis pengguna global Anda. Anda juga dapat memfilter konten yang tidak pantas dalam hasil teks untuk semua bahasa.

menu bahasa

Otomatis mengidentifikasi bahasa lisan

Dengan Cloud Speech-to-Text, Anda dapat mengidentifikasi bahasa yang diucapkan (dibatasi maksimal empat bahasa). Kapabilitas ini dapat digunakan untuk penelusuran suara (seperti, “Berapa suhu di Malang?”) dan kasus penggunaan perintah (seperti, “Naikkan volume”).

bahasa lisan

Menampilkan transkripsi teks secara real time untuk audio format pendek atau format panjang

Cloud Speech-to-Text dapat menstreaming hasil teks, yang langsung menampilkan teks begitu dikenali dari streaming audio atau saat pengguna berbicara. Selain itu, Cloud Speech-to-Text dapat menampilkan teks yang dikenali dari audio yang tersimpan dalam file. API ini mampu menganalisis audio format pendek dan format panjang.

jam

Otomatis mentranskripsi kata benda khusus dan pemformatan spesifik konteks

Cloud Speech-to-Text disesuaikan agar berfungsi lancar dengan ucapan asli dan dapat mentranskripsi kata benda khusus (seperti Sundar Pichai) secara akurat, serta memformat bahasa dengan tepat (seperti tanggal dan nomor telepon). Jumlah kata benda khusus yang didukung Google lebih dari 10x lipat dibandingkan jumlah kata dalam seluruh Oxford English Dictionary.

gelombang suara

Menawarkan pilihan model pre-built, yang disesuaikan dengan kasus penggunaan Anda

Cloud Speech-to-Text tersedia dalam beberapa model pengenalan ucapan yang telah dibuat sebelumnya (pre-built) sehingga Anda dapat mengoptimalkannya untuk kasus penggunaan Anda (misalnya perintah suara). Contoh: Model transkripsi video pre-built kami ideal untuk mengindeks atau memberi subtitel video dan/atau konten yang melibatkan banyak pembicara. Model ini menggunakan teknologi machine learning yang mirip dengan yang digunakan untuk pemberian subtitel di YouTube.

model ucapan
Model Deskripsi
command_and_search Paling cocok untuk kueri singkat seperti perintah suara atau penelusuran suara.
phone_call Paling cocok untuk audio yang berasal dari panggilan telepon (biasanya direkam pada frekuensi sampel 8 khz)
video Paling cocok untuk audio yang berasal dari video atau mencakup beberapa pembicara. Idealnya audio direkam pada frekuensi sampel 16 khz atau lebih tinggi. Ini adalah model premium yang harganya lebih mahal daripada tarif standar.
default Paling cocok untuk audio yang bukan merupakan salah satu dari model audio tertentu. Misalnya, audio format panjang. Idealnya audio berjenis high fidelity, dan direkam pada frekuensi sampel 16 khz atau lebih tinggi.

Fitur-fitur Cloud Speech-to-Text

Konversi speech-to-text yang diberdayakan machine learning

Pengenalan Ucapan Otomatis
Pengenalan Ucapan Otomatis (ASR) yang diberdayakan oleh jaringan neural deep learning untuk menggerakkan aplikasi seperti penelusuran suara atau transkripsi ucapan.
Kosakata Global
Mengenali 120 bahasa dan varian dengan kosakata yang luas.
Pengenalan Ucapan yang Disesuaikan
Menyesuaikan pengenalan ucapan untuk bisnis Anda secara manual dengan menetapkan hingga 5.000 kata atau frasa yang kemungkinan akan diucapkan (seperti nama produk). Juga secara otomatis mengonversi angka yang diucapkan menjadi alamat, tahun, atau mata uang, atau melakukan konversi lain, tergantung pada konteksnya.
Dukungan Audio Streaming Real-time atau Rekaman
Input audio dapat di-stream dari mikrofon aplikasi atau dikirim dari file audio rekaman (inline atau melalui Google Cloud Storage). Mendukung banyak encoding audio, termasuk FLAC, AMR, PCMU, dan Linear-16.
Deteksi Bahasa Otomatis BETA
Saat perlu mendukung skenario multibahasa, sekarang Anda dapat menentukan dua hingga empat kode bahasa, dan Cloud Speech-to-Text akan mengidentifikasi bahasa yang benar yang diucapkan dan menyediakan transkripnya.
Penanganan Derau yang Andal
Menangani audio bising dari berbagai lingkungan tanpa memerlukan pengurang derau tambahan.
Pemfilteran Konten yang Tidak Pantas
Memfilter konten yang tidak pantas dalam hasil teks untuk beberapa bahasa.
Tanda Baca Otomatis BETA
Memberikan tanda baca dalam transkripsi secara akurat (misalnya koma, tanda tanya, dan titik) dengan machine learning.
Pemilihan Model
Pilih dari empat model yang telah dibuat sebelumnya: default, penelusuran dan perintah suara, panggilan telepon, dan transkripsi video.
Diarisasi Speaker BETA
Ketahui siapa mengatakan apa - sekarang Anda bisa mendapatkan prediksi otomatis tentang pembicara mana yang berbicara dalam percakapan.
Pengenalan Multisaluran
Dalam rekaman multipeserta di mana setiap peserta direkam dalam saluran terpisah (misalnya panggilan telepon dengan dua saluran atau konferensi video dengan empat saluran), Cloud Speech-to-Text akan mengenali setiap saluran secara terpisah lalu menganotasi transkripsi sehingga mengikuti urutan yang sama seperti dalam penggunaan sebenarnya.

Harga Cloud Speech-to-Text API

Pengenalan ucapan yang andal.

Tagihan Cloud Speech-to-Text dihitung per 15 detik audio yang diproses setelah paket gratis 60 menit pertama. Untuk selengkapnya, lihat panduan harga kami.

Fitur Model standar (semua model kecuali telepon dan video yang disempurnakan) Model premium* (telepon dan video yang disempurnakan)
0-60 Menit Di Atas 60 Menit hingga 1 Juta Menit 0-60 Menit Di Atas 60 Menit hingga 1 Juta Menit
Pengenalan Ucapan (tanpa Logging Data - default) Gratis $0,006/15 detik ** Gratis $0,009/15 detik **
Pengenalan Ucapan (dengan opsi Logging Data) Gratis $0,004/15 detik ** Gratis $0,006/15 detik **

Harga ini berlaku untuk aplikasi pada sistem pribadi (seperti ponsel, tablet, laptop, desktop). Silakan hubungi kami untuk mendapatkan persetujuan dan mengetahui harga penggunaan Cloud Speech-to-Text API pada perangkat tersemat (seperti mobil, TV, perabotan rumah tangga, atau speaker).

* Saat ini hanya tersedia dalam bahasa Inggris AS

** Setiap permintaan dibulatkan ke atas ke kenaikan 15 detik terdekat. Misalnya, jika Anda membuat tiga permintaan terpisah (model Standar) yang masing-masing berisi 7 detik audio, maka Anda akan ditagih US$0,018 untuk 45 detik (3x15 detik) audio. Pecahan detik dimasukkan dalam pembulatan ke atas ke kenaikan 15 detik terdekat. Dengan begitu, 15,14 detik dibulatkan ke atas dan ditagih sebagai 30 detik.

ikon load balancing

Produk atau fitur yang tertera di halaman ini adalah versi beta. Untuk informasi lebih lanjut tentang tahap peluncuran produk kami, lihat di sini.

Produk Cloud AI mematuhi kebijakan SLA yang tercantum di sini. Produk tersebut mungkin menawarkan latensi atau jaminan ketersediaan yang berbeda dengan layanan Google Cloud lainnya.