Halaman ini menjelaskan cara menggunakan model machine learning tertentu untuk permintaan transkripsi audio ke Speech-to-Text.
Model transkripsi
Speech-to-Text mendeteksi kata-kata dalam klip audio dengan membandingkan input dengan salah satu dari banyak model machine learning. Setiap model telah dilatih dengan menganalisis jutaan contoh—dalam hal ini, rekaman audio orang berbicara dalam jumlah yang amat sangat banyak.
Speech-to-Text memiliki model khusus yang dilatih dari audio dari sumber tertentu, misalnya panggilan telepon atau video. Karena proses pelatihan ini, model khusus ini memberikan hasil yang lebih baik saat diterapkan pada jenis data audio yang serupa.
Misalnya, Speech-to-Text memiliki model transkripsi terlatih untuk mengenali ucapan yang direkam melalui telepon. Saat menggunakan model telephony
atau telephony_short
untuk mentranskripsi audio telepon, Speech-to-Text akan menghasilkan hasil transkripsi yang lebih akurat dibandingkan jika mentranskripsi audio telepon dengan model latest_short
atau latest_long
.
Tabel berikut menunjukkan model transkripsi yang tersedia untuk digunakan dengan Speech-to-Text.
Nama model | Deskripsi |
---|---|
latest_long |
Gunakan model ini untuk semua jenis konten berdurasi panjang, seperti media atau ucapan dan percakapan spontan. Pertimbangkan untuk menggunakan model ini sebagai pengganti model video, terutama jika model video tidak tersedia dalam bahasa target Anda. Anda juga dapat menggunakannya sebagai pengganti model default. |
latest_short |
Gunakan model ini untuk ucapan singkat yang berdurasi beberapa detik. Model ini berguna saat merekam perintah atau kasus penggunaan ucapan terarah satu pengambilan lainnya. Pertimbangkan untuk menggunakan model ini alih-alih model command and search. |
telephony |
Versi yang ditingkatkan dari model "phone_call", paling cocok untuk audio yang berasal dari panggilan telepon, biasanya direkam pada frekuensi sampling 8 kHz. |
telephony_short |
Versi khusus model "telepon" modern untuk ucapan singkat atau bahkan satu kata untuk audio yang berasal dari panggilan telepon, biasanya direkam pada frekuensi sampling 8 kHz. |
medical_dictation |
Gunakan model ini untuk mentranskripsikan catatan yang didiktekan oleh tenaga medis.
Ini adalah model premium yang harganya lebih mahal daripada tarif standar. Lihat halaman harga untuk mengetahui detail selengkapnya. |
medical_conversation |
Gunakan model ini untuk mentranskripsikan percakapan antara tenaga medis dan pasien.
Ini adalah model premium yang harganya lebih mahal daripada tarif standar. Lihat halaman harga untuk mengetahui detail selengkapnya. |
Model berikut sebagian besar didasarkan pada arsitektur klasik non-konform dan terutama disimpan karena alasan kompatibilitas lama dan kompatibilitas mundur. | |
command_and_search |
Paling cocok untuk ucapan singkat atau satu kata seperti perintah suara atau penelusuran suara. |
default |
Paling cocok untuk audio yang tidak sesuai dengan model audio lainnya, seperti audio panjang atau dikte. Model default akan memberikan hasil transkripsi untuk segala jenis audio, termasuk audio seperti klip video yang memiliki model yang disesuaikan khusus untuknya. Namun, mengenali audio klip video menggunakan model default kemungkinan akan memberikan hasil dengan kualitas lebih rendah dibandingkan jika menggunakan model video. Idealnya audio berjenis high fidelity, dan direkam pada frekuensi sampel 16 kHz atau lebih tinggi. |
phone_call |
Paling cocok untuk audio yang berasal dari panggilan telepon (biasanya direkam pada frekuensi sampling 8 kHz). |
video |
Paling cocok untuk audio dari klip video atau sumber lain (seperti podcast) yang memiliki beberapa pembicara. Model ini juga sering menjadi pilihan terbaik untuk audio yang direkam dengan mikrofon berkualitas tinggi atau yang memiliki banyak suara bising di latar belakang. Untuk hasil terbaik, sediakan audio yang direkam pada frekuensi minimal 16.000 Hz. |
Memilih model untuk transkripsi audio
Untuk menentukan model tertentu yang akan digunakan untuk transkripsi audio, Anda
harus menetapkan kolom model
ke salah satu nilai yang diizinkan—seperti latest_long
,
latest_short
, telephony
, atau telephony_short
—dalam parameter
RecognitionConfig
untuk permintaan.
Speech-to-Text mendukung pemilihan model untuk semua metode pengenalan
ucapan: speech:recognize
,
speech:longrunningrecognize
,
dan Streaming.
Melakukan transkripsi file audio lokal
Protokol
Lihat endpoint speech:recognize
API untuk
mengetahui detail selengkapnya.
Untuk melakukan pengenalan ucapan sinkron, buat permintaan POST
dan berikan
isi permintaan yang sesuai. Berikut ini contoh permintaan POST
yang menggunakan
curl
. Contoh ini menggunakan Google Cloud CLI untuk membuat token akses. Untuk petunjuk tentang cara menginstal gcloud CLI,
lihat panduan memulai.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
Lihat dokumentasi referensi RecognitionConfig
untuk mengetahui informasi selengkapnya tentang cara mengonfigurasi isi permintaan.
Jika permintaan berhasil, server akan menampilkan kode status HTTP 200 OK
dan respons dalam format JSON:
{ "results": [ { "alternatives": [ { "transcript": "OK Google stream stranger things from Netflix to my TV okay stranger things from Netflix playing on TV from the people that brought you Google home comes the next evolution of the smart home and it's just outside your window me Google know hi how can I help okay no what's the weather like outside the weather outside is sunny and 76 degrees he's right okay no turn on the hose I'm holding sure okay no I'm can I eat this lemon tree leaf yes what about this Daisy yes but I wouldn't recommend it but I could eat it okay Nomad milk to my shopping list I'm sorry that sounds like an indoor request I keep doing that sorry you do keep doing that okay no is this compost really we're all compost if you think about it pretty much everything is made up of organic matter and will return", "confidence": 0.9251011 } ] } ] }
Go
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Go Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Java Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Node.js Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk .NET.
PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk PHP.
Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk Ruby.
Melakukan transkripsi file audio Cloud Storage
Go
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Go Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Java Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Node.js Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk .NET.
PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk PHP.
Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk Ruby.