Ringkasan
Anda dapat menggunakan fitur adaptasi model untuk membantu Speech-to-Text mengenali kata atau frasa tertentu lebih sering daripada opsi lain yang mungkin disarankan. Misalnya, anggaplah data audio Anda sering menyertakan kata "weather" (cuaca). Saat Speech-to-Text menemukan kata "weather", Anda ingin agar kata tersebut mentranskripsikan kata tersebut sebagai "weather" (cuaca) lebih sering daripada "whether" (apakah). Dalam hal ini, Anda dapat menggunakan adaptasi model agar Speech-to-Text lebih condong mengenalinya sebagai "weather".
Adaptasi model sangat membantu dalam kasus penggunaan berikut:
Meningkatkan akurasi kata dan frasa yang sering muncul dalam data audio Anda. Misalnya, Anda dapat memberi tahu model pengenalan terhadap perintah suara yang biasanya diucapkan oleh pengguna Anda.
Memperluas kosakata yang dikenali oleh Speech-to-Text. Speech-to-Text mencakup kosakata yang sangat besar. Namun, jika data audio Anda sering kali berisi kata-kata yang langka dalam penggunaan bahasa umum (seperti nama diri atau kata khusus domain), Anda dapat menambahkannya menggunakan adaptasi model.
Meningkatkan akurasi transkripsi ucapan jika audio yang disediakan berisi derau atau tidak terlalu jelas.
Secara opsional, Anda dapat menyesuaikan pembiasan model pengenalan menggunakan fitur peningkatan adaptasi model.
Tingkatkan pengenalan kata dan frasa
Untuk meningkatkan kemungkinan Speech-to-Text mengenali kata "weather" (cuaca) saat mentranskripsikan data audio Anda, Anda dapat meneruskan satu kata "weather" di PhraseSet
dalam resource SpeechAdaptation.
Saat Anda memberikan frasa yang terdiri dari beberapa kata, Speech-to-Text akan lebih mungkin mengenali kata-kata tersebut dalam satu rangkaian. Menyediakan frasa juga akan meningkatkan kemungkinan mengenali bagian-bagian dari frasa, termasuk setiap kata. Lihat halaman batas konten untuk mengetahui batas jumlah dan ukuran frasa tersebut.
Meningkatkan pengenalan menggunakan class
Class mewakili konsep umum yang terjadi dalam bahasa alami, seperti unit uang dan tanggal kalender. Class membantu Anda meningkatkan akurasi transkripsi untuk sekelompok besar kata yang memetakan ke konsep umum, tetapi tidak selalu menyertakan kata atau frasa yang identik.
Misalnya, anggaplah data audio Anda menyertakan rekaman orang yang menyebutkan
alamat mereka. Anda mungkin memiliki rekaman audio seseorang yang berkata
"Rumah saya di 123 Main Street, rumah keempat di sebelah kiri." Dalam hal ini, Anda ingin Speech-to-Text mengenali urutan pertama angka ("123") sebagai alamat, bukan sebagai ordinal ("seratus dua puluh tiga"). Namun,
tidak semua orang tinggal di "123 Main Street". Sangat tidak praktis untuk mencantumkan setiap
alamat jalan yang mungkin ada di resource PhraseSet
. Sebagai gantinya, Anda dapat menggunakan
class untuk menunjukkan bahwa nomor jalan harus dikenali, terlepas dari apa pun
angka itu sebenarnya. Dalam contoh ini, Speech-to-Text dapat mentranskripsikan frasa seperti "123 Main Street" dan "987 Grand Boulevard" dengan lebih akurat karena keduanya dikenali sebagai nomor alamat.
Token class
Untuk menggunakan class dalam adaptasi model, sertakan token class di
kolom phrases
dari resource PhraseSet
. Lihat daftar token class yang didukung untuk mengetahui token yang tersedia untuk bahasa Anda. Misalnya, untuk
meningkatkan transkripsi nomor alamat dari audio sumber, berikan
nilai $ADDRESSNUM
dalam frasa dalam PhraseSet.
Anda dapat menggunakan class sebagai item mandiri dalam array phrases
atau menyematkan
satu atau beberapa token class dalam frasa dengan beberapa kata yang lebih panjang. Misalnya, Anda dapat
menunjukkan nomor alamat dalam frasa yang lebih besar dengan menyertakan token class dalam
string: ["my address is $ADDRESSNUM"]
. Namun, frasa ini tidak akan membantu
jika audio berisi frasa yang serupa, tetapi tidak identik, seperti
"Saya di 123 Main Street". Untuk membantu pengenalan frasa serupa, penting
untuk menyertakan token class saja:
["my address is $ADDRESSNUM", "$ADDRESSNUM"]
. Jika Anda menggunakan token class yang tidak valid atau salah format, Speech-to-Text akan mengabaikan token tersebut tanpa memicu error, tetapi tetap menggunakan frasa lainnya untuk konteks.
Class kustom
Anda juga dapat membuat CustomClass
sendiri, class yang terdiri dari daftar kustom
item atau nilai terkait milik Anda sendiri. Misalnya, Anda mungkin ingin mentranskripsikan data audio yang mungkin menyertakan nama salah satu dari ratusan restoran di suatu wilayah. Nama restoran relatif jarang digunakan dalam ucapan umum, sehingga
cenderung tidak dipilih sebagai jawaban yang "benar" oleh model
pengenalan. Anda dapat membiaskan model pengenalan agar dapat mengidentifikasi nama-nama tersebut dengan benar saat muncul di audio Anda menggunakan class kustom.
Untuk menggunakan class kustom, buat resource
CustomClass
yang menyertakan setiap nama restoran sebagai ClassItem
. Class kustom berfungsi dengan cara yang sama seperti token class bawaan. phrase
dapat
menyertakan token class bawaan dan class kustom.
Menyesuaikan hasil transkripsi menggunakan penguatan
Secara default, adaptasi model memberikan efek yang relatif kecil, terutama untuk frasa satu kata. Fitur boost adaptasi model memungkinkan Anda meningkatkan bias model pengenalan dengan memberikan bobot yang lebih besar ke beberapa frasa daripada frasa lainnya. Sebaiknya terapkan peningkatan jika semua hal berikut terpenuhi:
- Anda telah mengimplementasikan adaptasi model.
- Anda ingin menyesuaikan lebih lanjut kekuatan efek adaptasi model pada hasil transkripsi. Untuk mengetahui apakah fitur boost tersedia untuk bahasa Anda atau tidak, lihat halaman dukungan bahasa.
Misalnya, Anda memiliki banyak rekaman orang yang menanyakan tentang "fare to get into the county fair" (tiket masuk ke pekan raya), di mana kata "fair"(pekan raya) muncul lebih sering daripada "fare" (tarif). Dalam hal ini, Anda dapat menggunakan adaptasi model untuk meningkatkan kemungkinan model mengenali "fair" dan "fare" dengan menambahkannya sebagai phrases
dalam resource PhraseSet
. Kode ini akan memberi tahu
Speech-to-Text untuk mengenali "fair" dan "fare" lebih sering daripada, misalnya, "hare" atau "lair".
Namun, "fair" harus dikenali lebih sering daripada "fare" karena kata ini muncul lebih sering dalam audio. Anda mungkin telah mentranskripsikan audio menggunakan Speech-to-Text API dan menemukan banyak error dalam mengenali kata yang benar ("fair"). Dalam hal ini, Anda dapat menggunakan fitur penguatan untuk menetapkan nilai peningkatan yang lebih tinggi untuk "fair" daripada "fare". Nilai berbobot yang lebih tinggi yang ditetapkan ke "fair" akan membuat Speech-to-Text API lebih sering memilih "fair" daripada "fare". Tanpa nilai penguatan, model pengenalan akan mengenali "fair" dan "fare" dengan probabilitas yang sama.
Dasar-dasar penguatan
Saat menggunakan penguatan, Anda menetapkan nilai berbobot ke item phrase
di resource PhraseSet
. Speech-to-Text mengacu pada
nilai berbobot ini saat memilih kemungkinan transkripsi untuk kata-kata dalam
data audio Anda. Semakin tinggi nilainya, semakin tinggi
kemungkinan Speech-to-Text memilih kata atau frasa tersebut dari
alternatif yang memungkinkan.
Jika Anda menetapkan nilai penguatan ke frasa yang terdiri dari beberapa kata, penguatan akan diterapkan ke
seluruh frasa dan hanya seluruh frasa. Misalnya, Anda ingin menetapkan nilai penguatan untuk frasa "My favorite exhibit
at the American Museum of Natural History is the blue whale" (Objek favorit saya di American Museum of Natural History adalah ikan paus biru). Jika Anda menambahkan frasa tersebut ke objek phrase
dan menetapkan nilai penguatan, model pengenalan akan lebih cenderung mengenali frasa tersebut secara keseluruhan, kata demi kata.
Jika Anda tidak mendapatkan hasil yang diinginkan dengan penguatan frasa multi-kata, sebaiknya tambahkan semua bigram (2 kata berurutan) yang membentuk frasa tersebut sebagai tambahan phrase
item dan tetapkan nilai penguatan ke setiap item. Melanjutkan contoh sebelumnya, Anda dapat menyelidiki penambahan bigram dan endgram tambahan (lebih dari dua kata), seperti "favorit saya", "pameran favorit saya", "pameran favorit", "pameran favorit saya di American Museum of Natural History", "American Museum of Natural History", dan "blue paus". Model pengenalan
STT lebih mungkin mengenali frasa terkait dalam
audio Anda yang berisi bagian dari frasa asli yang ditingkatkan, tetapi tidak mencocokkannya
kata demi kata.
Menetapkan nilai penguatan
Nilai penguatan harus berupa nilai float yang lebih besar dari 0. Batas maksimum praktis untuk nilai peningkatan adalah 20. Untuk mendapatkan hasil terbaik, lakukan eksperimen dengan hasil transkripsi dengan menaikkan atau menurunkan nilai penguatan sampai Anda mendapatkan hasil transkripsi yang akurat.
Nilai penguatan yang lebih tinggi dapat menghasilkan negatif palsu (NP) yang lebih sedikit, yang merupakan kasus ketika kata atau frasa muncul dalam audio, tetapi tidak dikenali dengan benar oleh Speech-to-Text. Namun, penguatan juga dapat meningkatkan kemungkinan positif palsu; yaitu, kasus saat kata atau frasa muncul dalam transkripsi meskipun tidak muncul dalam audio.
Contoh kasus penggunaan yang menggunakan adaptasi model
Contoh berikut memandu Anda dalam proses penggunaan adaptasi model untuk mentranskripsikan rekaman audio seseorang yang mengucapkan "The word is fare". Dalam hal ini, tanpa adaptasi ucapan, Speech-to-Text mengidentifikasi kata "fair" (adil). Penggunaan adaptasi ucapan Speech-to-Text dapat mengidentifikasi kata "fare" (tarif).
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Speech-to-Text.
-
Pastikan Anda memiliki peran berikut di project: Cloud Speech Administrator
Memeriksa peran
-
Di konsol Google Cloud, buka halaman IAM.
Buka IAM - Pilih project.
-
Di kolom Akun utama, cari baris yang berisi alamat email Anda.
Jika alamat email Anda tidak ada di kolom tersebut, berarti Anda tidak memiliki peran apa pun.
- Di kolom Peran untuk baris yang berisi alamat email Anda, periksa apakah daftar peran menyertakan peran yang diperlukan.
Memberikan peran
-
Di konsol Google Cloud, buka halaman IAM.
Buka IAM - Pilih project.
- Klik Berikan akses.
- Di kolom Akun utama baru, masukkan alamat email Anda.
- Di daftar Pilih peran, pilih peran.
- Untuk memberikan peran tambahan, klik Tambahkan peran lain, lalu tambahkan setiap peran tambahan.
- Klik Simpan.
-
- Menginstal Google Cloud CLI.
-
Untuk initialize gcloud CLI, jalankan perintah berikut:
gcloud init
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Speech-to-Text.
-
Pastikan Anda memiliki peran berikut di project: Cloud Speech Administrator
Memeriksa peran
-
Di konsol Google Cloud, buka halaman IAM.
Buka IAM - Pilih project.
-
Di kolom Akun utama, cari baris yang berisi alamat email Anda.
Jika alamat email Anda tidak ada di kolom tersebut, berarti Anda tidak memiliki peran apa pun.
- Di kolom Peran untuk baris yang berisi alamat email Anda, periksa apakah daftar peran menyertakan peran yang diperlukan.
Memberikan peran
-
Di konsol Google Cloud, buka halaman IAM.
Buka IAM - Pilih project.
- Klik Berikan akses.
- Di kolom Akun utama baru, masukkan alamat email Anda.
- Di daftar Pilih peran, pilih peran.
- Untuk memberikan peran tambahan, klik Tambahkan peran lain, lalu tambahkan setiap peran tambahan.
- Klik Simpan.
-
- Menginstal Google Cloud CLI.
-
Untuk initialize gcloud CLI, jalankan perintah berikut:
gcloud init
-
Buat kredensial autentikasi lokal untuk Akun Google Anda:
gcloud auth application-default login
Library klien dapat menggunakan Kredensial Default Aplikasi untuk dengan mudah melakukan autentikasi dengan Google API dan mengirim permintaan ke API tersebut. Dengan Kredensial Default Aplikasi, Anda dapat menguji aplikasi secara lokal dan men-deploy aplikasi tanpa mengubah kode yang mendasarinya. Untuk informasi selengkapnya, lihat Autentikasi untuk menggunakan library klien.
Pastikan juga Anda telah menginstal library klien.
Tingkatkan transkripsi menggunakan PhraseSet
- Contoh berikut membuat
PhraseSet
dengan frasa "fare" dan menambahkannya sebagaiinline_phrase_set
dalam permintaan pengenalan:
Python
- Contoh ini membuat resource
PhraseSet
dengan frasa yang sama, lalu mereferensikannya dalam permintaan pengenalan:
Python
Tingkatkan hasil transkripsi menggunakan CustomClass
- Contoh berikut membuat
CustomClass
dengan item "fare" dan nama "fare". Selanjutnya, kode ini akan merujuk keCustomClass
dalaminline_phrase_set
dalam permintaan pengenalan:
Python
- Contoh ini membuat resource
CustomClass
dengan item yang sama. Kemudian, tindakan ini akan membuat resourcePhraseSet
dengan frasa yang merujuk ke nama resourceCustomClass
. Kemudian, kode ini akan merujuk ke resourcePhraseSet
dalam permintaan pengenalan:
Python
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
-
Opsional: Cabut kredensial autentikasi yang Anda buat, dan hapus file kredensial lokal.
gcloud auth application-default revoke
-
Opsional: Cabut kredensial dari gcloud CLI.
gcloud auth revoke
Konsol
gcloud
Menghapus project Google Cloud:
gcloud projects delete PROJECT_ID
Langkah selanjutnya
- Tinjau daftar token class yang didukung.
- Berlatih mentranskripsikan file audio pendek.
- Pelajari cara mentranskripsikan audio streaming.
- Pelajari cara mentranskripsi file audio panjang.