Lihat pengumuman terbaru dari Google Cloud Next Tonton sekarang
Lompat ke

Speech-to-Text

Secara akurat mengonversi ucapan menjadi teks dengan API yang diberdayakan oleh penelitian dan teknologi AI terbaik Google.

Pelanggan baru mendapatkan kredit gratis senilai $300 untuk digunakan pada Speech-to-Text. Semua pelanggan mendapatkan 60 menit gratis untuk membuat transkripsi dan menganalisis audio per bulan, tidak dibebankan pada kredit Anda.

  • Transkripsikan konten Anda dengan teks yang akurat

  • Manfaatkan fitur suara untuk menciptakan pengalaman pengguna yang lebih baik

  • Tingkatkan layanan Anda dengan insight dari interaksi pelanggan

  • Mulai dengan cepat dengan tutorial dalam konsol

Manfaat

Akurasi termutakhir

Terapkan algoritme jaringan neural deep learning paling canggih dari Google untuk pengenalan ucapan otomatis (ASR).

Penyesuaian model yang mudah

Bereksperimen, membuat, dan mengelola resource khusus dengan UI Speech-to-Text.

Deployment model yang fleksibel

Men-deploy ASR di mana pun Anda membutuhkannya, baik di cloud dengan API atau secara lokal dengan Speech-to-Text On-Prem.

Demo

Menerapkan Speech-to-Text

Seperti dalam demo ini, Anda dapat dengan mudah memasukkan transkripsi ucapan ke dalam aplikasi Anda dengan Speech-to-Text API.

Fitur utama

Fitur utama

Adaptasi ucapan

Memberi petunjuk untuk meningkatkan akurasi transkripsi kata atau frasa yang langka dan khusus domain. Gunakan class untuk secara otomatis mengonversi angka yang diucapkan menjadi alamat, tahun, mata uang, dan lainnya.

Model khusus domain

Pilih dari sejumlah model terlatih untuk kontrol suara, panggilan telepon, dan transkripsi video yang dioptimalkan untuk persyaratan kualitas khusus domain.

Mudah membandingkan kualitas

Bereksperimen dengan audio ucapan Anda dengan antarmuka pengguna kami yang mudah digunakan. Coba konfigurasi yang berbeda untuk mengoptimalkan kualitas dan akurasi.

Speech-to-Text On-Prem

Pertahankan kontrol atas infrastruktur dan data ucapan yang dilindungi dengan memanfaatkan teknologi pengenalan ucapan Google secara lokal, di pusat data pribadi Anda. Hubungi bagian penjualan untuk memulai.

Speech On-Device

Jalankan algoritme ucapan Google Cloud secara lokal di perangkat apa pun, terlepas dari konektivitas internet. Janjikan kepada pengguna bahwa data suara mereka tidak akan pernah keluar dari perangkat.

Lihat semua fitur

Dokumentasi

Tutorial dan referensi untuk memulai

Tutorial
Tutorial Speech-to-Text dalam konsol

Pelajari cara menambahkan Speech-to-Text ke aplikasi Anda yang sudah ada. Mulai dengan cepat dengan tutorial dalam konsol.

Dasar-Dasar Google Cloud
Dasar-dasar Speech-to-Text

Pelajari konsep dasar dalam Speech-to-Text.

Panduan Memulai
Panduan memulai: Menggunakan UI Speech-to-Text

Pelajari cara menyiapkan proyek dan otorisasi Anda, membuat dan memperbaiki transkripsi, serta pelajari cara menggunakan konfigurasi ini di konsol.

Panduan Memulai
Panduan memulai: Menggunakan alat gcloud

Kirim permintaan transkripsi audio ke Speech-to-Text menggunakan alat gcloud dari command line.

Praktik Terbaik
Praktik terbaik

Tinjau praktik terbaik untuk mentranskripsikan audio dengan Speech-to-Text.

Tutorial
ML onramp

Jelajahi tutorial Speech-to-Text, codelab, dan lainnya.

Dasar-Dasar Google Cloud
Bahasa yang didukung

Pelajari bahasa yang tersedia untuk Speech-to-Text, serta fitur dan model pengenalan yang tersedia untuk masing-masing bahasa.

Dasar-Dasar Google Cloud
Speech-to-Text On-Prem

Pelajari Speech-to-Text On-Prem lebih lanjut, yang memungkinkan integrasi yang mudah dari teknologi pengenalan ucapan Google ke dalam solusi lokal Anda.

Kasus penggunaan

Kasus penggunaan

Kasus penggunaan
Peningkatan kualitas layanan pelanggan

Dukung sistem layanan pelanggan Anda dengan menambahkan IVR (tanggapan suara interaktif) dan percakapan agen ke pusat panggilan Anda. Lakukan analisis pada data percakapan Anda guna mendapatkan lebih banyak data tentang panggilan dan pelanggan Anda. Speech-to-Text dan model panggilan teleponnya yang ditingkatkan (kualitasnya) telah mendukung solusi canggih Google Cloud, yaitu Contact Center AI.

Alur kerja: Data dipindahkan dari Data Audio Pusat Kontak melalui produk Google Cloud: Cloud Storage ke (1) Transkripsi dengan Speech-to-Text API ke Natural Language API ke (2) Analisis dengan Cloud Data Loss Prevention ke (3) Redact PII dengan BigQuery . Kemudian alur bergerak di kedua arah dari BigQuery (4) Store ke (5) Query dan visualisasi dengan Data Panggilan Visualize.
Kasus penggunaan
Memungkinkan kontrol suara

Terapkan perintah suara seperti “naikkan volume”, dan penelusuran suara seperti mengucapkan “berapa suhu di Jakarta?” Gabungkan perintah ini dengan Text-to-Speech API untuk memberikan pengalaman yang didukung suara dalam aplikasi IoT (Internet of Things).

Alur kerja dari kontrol suara menggunakan speech to text API. Alur dimulai dengan (1) Perintah suara pengguna ke Perangkat pengguna dengan alur dua arah ke (0) Identitas aman unik dengan Cloud IoT Core, dan alur dua arah ke Cloud Functions ke (2) Transkripsi dengan API Speech-to-Text ke AutoML Natural Language dengan (3) Intent dan ekstraksi entitas, kembali ke Cloud Functions dan Perangkat pengguna.
Kasus penggunaan
Mentranskripsikan konten multimedia

Transkripsikan audio dan video Anda untuk menyertakan teks serta tingkatkan jangkauan dan pengalaman audiens Anda. Tambahkan subtitel ke konten Anda secara real time untuk konten streaming Anda. Model transkripsi video kami ideal untuk mengindeks atau memberi subtitel pada video dan/atau konten yang melibatkan banyak pembicara. Model ini menggunakan teknologi machine learning yang prinsipnya sama dengan pemberian teks video di YouTube.

Alur kerja transkripsi konten multimedia: Input Audio Stream melalui (1) Teks real-time ke Google Kubernetes Engine ke API Speech-to-Text melalui (2) Evaluasi transkripsi ke VM Deep Learning ke Firestore ke Tim Moderator Konten atau melalui (3) Store dan leverage ke Broadcast Caption Device.

Semua fitur

Semua fitur

Kosakata global Dukung basis pengguna global Anda dengan dukungan bahasa yang beragam dari Speech-to-Text dalam lebih dari 125 bahasa dan varian.
Pengenalan ucapan saat streaming Dapatkan hasil pengenalan ucapan real-time saat API memproses input audio yang di-streaming dari mikrofon aplikasi Anda atau dikirim dari file audio yang direkam sebelumnya (inline atau melalui Cloud Storage).
Adaptasi ucapan Sesuaikan pengenalan ucapan untuk mentranskripsikan istilah khusus domain dan kata-kata langka dengan memberikan petunjuk dan meningkatkan akurasi transkripsi terhadap kata atau frasa tertentu. Konversi angka yang diucapkan menjadi alamat, tahun, mata uang, dan lainnya secara otomatis menggunakan class.
Speech-to-Text On-Prem Miliki kontrol penuh atas infrastruktur Anda dan data ucapan yang dilindungi sambil memanfaatkan teknologi pengenalan ucapan Google di infrastruktur lokal, langsung di pusat data pribadi Anda. Hubungi bagian penjualan untuk memulai.
Pengenalan multisaluran Speech-to-Text dapat mengenali saluran yang berbeda dalam situasi multisaluran (misalnya, konferensi video) dan menganotasi transkrip untuk mempertahankan urutan.
Penanganan derau yang andal Speech-to-Text dapat menangani audio bising dari berbagai lingkungan tanpa memerlukan peredam bising tambahan.
Model khusus domain Pilih dari pilihan model terlatih untuk kontrol suara dan panggilan telepon serta transkripsi video yang dioptimalkan untuk persyaratan kualitas khusus domain. Misalnya, model panggilan telepon kami yang canggih telah disesuaikan untuk audio yang berasal dari telepon, seperti panggilan telepon yang direkam pada frekuensi pengambilan sampel 8 kHz.
Pemfilteran konten Filter kata-kata tidak sopan membantu Anda mendeteksi konten yang tidak pantas atau tidak profesional dalam data audio Anda dan memfilter kata-kata tidak sopan dalam hasil teks.
Evaluasi transkripsi Upload data suara Anda sendiri dan transkripsikan tanpa kode. Evaluasi kualitas dengan melakukan iterasi pada konfigurasi Anda.
Tanda baca otomatis (beta) Speech-to-Text akan memberikan tanda baca dalam transkripsinya secara akurat (misalnya, koma, tanda tanya, dan titik).
Diarisasi speaker (beta) Ketahui siapa yang berbicara dengan menerima prediksi otomatis terkait pembicara mana yang berbicara dalam percakapan.

Harga

Harga

Harga Speech-to-Text didasarkan pada jumlah audio yang berhasil diproses oleh layanan setiap bulan, yang diukur dalam kelipatan satu detik.