Konversi audio menjadi transkripsi teks dan integrasikan pengenalan ucapan ke dalam aplikasi dengan API yang mudah digunakan.
Dapatkan gratis hingga 60 menit untuk membuat transkripsi dan menganalisis audio per bulan.* Pelanggan baru juga mendapatkan kredit gratis senilai hingga $300 untuk mencoba Speech-to-Text dan produk Google Cloud lainnya.
*Berlaku untuk pemrosesan audio dengan Speech-to-Text V1 API saja.
Fitur
Speech-to-Text dapat memanfaatkan Chirp, yakni model dasar Google Cloud untuk ucapan yang dilatih dengan data audio berdurasi jutaan jam dan miliaran kalimat teks. Hal ini berbeda dengan teknik pengenalan ucapan tradisional yang berfokus pada sejumlah besar data yang diawasi untuk bahasa tertentu. Teknik ini memberi pengguna pengenalan dan transkripsi yang lebih baik untuk aksen dan bahasa yang lebih sering diucapkan.
Dibangun untuk basis pengguna global dengan dukungan bahasa yang ekstensif Transkripsikan data audio singkat, panjang, dan bahkan streaming. Speech-to-Text juga menawarkan terjemahan dan pengenalan yang lebih akurat serta mencakup seluruh dunia dengan Chirp, model ucapan universal generasi berikutnya. Chirp dibuat menggunakan pelatihan yang diawasi secara mandiri dengan audio berdurasi jutaan jam dan 28 miliar kalimat teks yang mencakup lebih dari 100 bahasa.
Pilih dari sejumlah model terlatih untuk kontrol suara, panggilan telepon, dan transkripsi video yang dioptimalkan untuk persyaratan kualitas khusus domain. Menyesuaikan, bereksperimen, membuat, dan mengelola resource khusus dengan mudah menggunakan UI Speech-to-Text.
Speech-to-Text API v2 memberikan persyaratan keamanan dan peraturan tambahan secara langsung kepada pelanggan perusahaan dan bisnis. Residensi data memungkinkan pemanggilan model transkripsi melalui layanan yang sepenuhnya bersifat regional yang memanfaatkan region Google Cloud seperti Singapura dan Belgia. Kecanggihan pengenal menghilangkan kebutuhan akan akun layanan khusus untuk autentikasi dan otorisasi. Log untuk pembuatan resource dan transkripsi tersedia dengan mudah di Konsol Google Cloud. Selain itu, Speech-to-Text API v2 menawarkan enkripsi tingkat perusahaan dengan kunci enkripsi yang dikelola pelanggan untuk semua resource serta transkripsi batch.
Speech-to-Text menggunakan adaptasi model untuk meningkatkan akurasi kata yang sering digunakan, memperluas kosakata yang tersedia untuk transkripsi, dan meningkatkan transkripsi dari audio yang bising. Adaptasi model memungkinkan pengguna menyesuaikan Speech-to-Text untuk lebih sering mengenali kata atau frasa tertentu daripada opsi lain yang mungkin disarankan. Misalnya, Anda dapat membiaskan Speech-to-Text untuk mentranskripsikan "weather" daripada "whether".
Dapatkan hasil pengenalan ucapan real-time saat API memproses input audio yang di-streaming dari mikrofon aplikasi Anda atau dikirim dari file audio yang direkam sebelumnya (inline atau melalui Cloud Storage).
Sesuaikan pengenalan ucapan untuk mentranskripsikan istilah khusus domain dan kata-kata langka dengan memberikan petunjuk dan meningkatkan akurasi transkripsi terhadap kata atau frasa tertentu. Konversi angka yang diucapkan menjadi alamat, tahun, mata uang, dan lainnya secara otomatis menggunakan class.
Miliki kontrol penuh atas infrastruktur Anda dan data ucapan yang dilindungi sambil memanfaatkan teknologi pengenalan ucapan Google di infrastruktur lokal, langsung di pusat data pribadi Anda. Hubungi bagian penjualan untuk memulai.
Speech-to-Text dapat mengenali saluran yang berbeda dalam situasi multisaluran (misalnya, konferensi video) dan menganotasi transkrip untuk mempertahankan urutan.
Speech-to-Text dapat menangani audio bising dari berbagai lingkungan tanpa memerlukan peredam bising tambahan.
Pilih dari sejumlah model terlatih untuk kontrol suara dan panggilan telepon serta transkripsi video yang dioptimalkan untuk persyaratan kualitas khusus domain. Misalnya, model panggilan telepon kami yang canggih telah disesuaikan untuk audio yang berasal dari telepon, seperti panggilan telepon yang direkam pada frekuensi sampling 8 kHz.
Filter kata-kata tidak sopan membantu Anda mendeteksi konten yang tidak pantas atau tidak profesional dalam data audio Anda dan memfilter kata-kata tidak sopan dalam hasil teks.
Upload data suara Anda sendiri dan transkripsikan tanpa kode. Evaluasi kualitas dengan melakukan iterasi pada konfigurasi Anda.
Speech-to-Text akan memberikan tanda baca dalam transkripsinya secara akurat, seperti dengan memberikan koma, tanda tanya, dan titik.
Ketahui siapa yang berbicara dengan menerima prediksi otomatis terkait pembicara mana yang berbicara dalam percakapan.
Cara Kerjanya
Speech-to-Text memiliki tiga metode utama untuk melakukan pengenalan ucapan: sinkron, asinkron, dan streaming. Setiap metode menampilkan hasil teks berdasarkan perlu tidaknya transkripsi secara real time, berkala, atau pascapemrosesan. Sederhananya, Anda memasukkan data audio kemudian menerima respons berbasis teks.
Demo
Buat transkripsi audio dengan cepat dari file yang diupload atau berbicara langsung ke mikrofon.
Penggunaan Umum
Membuat transkripsi audio
Pelajari cara menggunakan Speech-to-Text API dari dalam Konsol Cloud dengan membuat transkripsi audio hanya dalam beberapa langkah. Anda juga dapat mentranskripsikan audio singkat, panjang, dan streaming.
Membuat transkripsi audio
Pelajari cara menggunakan Speech-to-Text API dari dalam Konsol Cloud dengan membuat transkripsi audio hanya dalam beberapa langkah. Anda juga dapat mentranskripsikan audio singkat, panjang, dan streaming.
Cara menambahkan Speech-to-Text ke aplikasi
Pelajari cara mengaktifkan Speech-to-Text untuk aplikasi Anda dengan cepat dan mudah menggunakan Google Cloud. Video ini membahas cara menambahkan AI ke aplikasi Anda tanpa memerlukan pengalaman model machine learning yang ekstensif. Dengan menggunakan Speech-to-Text API yang terlatih sebelumnya, Anda dapat mengaktifkan AI untuk aplikasi Anda dengan cepat dan mudah.
Cara menambahkan Speech-to-Text ke aplikasi
Pelajari cara mengaktifkan Speech-to-Text untuk aplikasi Anda dengan cepat dan mudah menggunakan Google Cloud. Video ini membahas cara menambahkan AI ke aplikasi Anda tanpa memerlukan pengalaman model machine learning yang ekstensif. Dengan menggunakan Speech-to-Text API yang terlatih sebelumnya, Anda dapat mengaktifkan AI untuk aplikasi Anda dengan cepat dan mudah.
Bahasa, ucapan, teks, dan terjemahan dengan Google Cloud API
Dalam kursus ini, Anda akan menggunakan Speech-to-Text API untuk mentranskripsikan file audio menjadi file teks, menerjemahkannya dengan Google Cloud Translation API, dan membuat ucapan sintetis dengan Natural Language AI.
Bahasa, ucapan, teks, dan terjemahan dengan Google Cloud API
Dalam kursus ini, Anda akan menggunakan Speech-to-Text API untuk mentranskripsikan file audio menjadi file teks, menerjemahkannya dengan Google Cloud Translation API, dan membuat ucapan sintetis dengan Natural Language AI.
Harga
Cara kerja penetapan harga Speech-to-Text | Harga Speech-to-Text didasarkan pada versi API, saluran, metode batch, dan biaya layanan Google Cloud tambahan seperti penyimpanan. | |
---|---|---|
Versi API | Layanan dan kemampuan | Harga |
Speech-to-Text V1 API | V1 menawarkan residensi data hanya untuk multi-region. Model mencakup audio singkat, audio panjang, panggilan telepon, dan video. V1 tidak menyertakan logging audit. Pelanggan baru mendapatkan kredit gratis senilai $300 dan waktu 60 menit untuk mentranskripsikan dan menganalisis audio gratis per bulan, tidak ditagihkan ke kredit Anda. | $0,024 per menit |
Speech-to-Text V2 API | V2 menawarkan residensi data untuk multi-region dan satu region. Model mencakup audio singkat, audio panjang, telepon, video, dan Chirp. V2 menyertakan logging audit dan dukungan untuk kunci enkripsi yang dikelola pelanggan. | $0,016 per menit |
Lihat detail harga untuk Speech-to-Text.
Cara kerja penetapan harga Speech-to-Text
Harga Speech-to-Text didasarkan pada versi API, saluran, metode batch, dan biaya layanan Google Cloud tambahan seperti penyimpanan.
Speech-to-Text V1 API
V1 menawarkan residensi data hanya untuk multi-region. Model mencakup audio singkat, audio panjang, panggilan telepon, dan video. V1 tidak menyertakan logging audit. Pelanggan baru mendapatkan kredit gratis senilai $300 dan waktu 60 menit untuk mentranskripsikan dan menganalisis audio gratis per bulan, tidak ditagihkan ke kredit Anda.
$0,024
per menit
Speech-to-Text V2 API
V2 menawarkan residensi data untuk multi-region dan satu region. Model mencakup audio singkat, audio panjang, telepon, video, dan Chirp. V2 menyertakan logging audit dan dukungan untuk kunci enkripsi yang dikelola pelanggan.
$0,016
per menit
Lihat detail harga untuk Speech-to-Text.