- Referensi: Pengenal
- RecognitionConfig
- AutoDetectDecodingConfig
- ExplicitDecodingConfig
- AudioEncoding
- RecognitionFeatures
- MultiChannelMode
- SpeakerDiarizationConfig
- SpeechAdaptation
- AdaptationPhraseSet
- TranscriptNormalization
- Entri
- Status
- Metode
Resource: Pengenal
Pesan Pengenal. Menyimpan metadata dan konfigurasi pengenalan.
Representasi JSON |
---|
{ "name": string, "uid": string, "displayName": string, "model": string, "languageCodes": [ string ], "defaultRecognitionConfig": { object ( |
Kolom | |
---|---|
name |
Hanya output. ID. Nama resource Pengenal. Format |
uid |
Hanya output. ID unik yang ditetapkan sistem untuk Pengenal. |
displayName |
Nama yang dapat ditetapkan pengguna dan dapat dibaca manusia untuk Pengenal. Harus terdiri dari 63 karakter atau kurang. |
model |
Opsional. Kolom ini sekarang tidak digunakan lagi. Pilih kolom Model yang akan digunakan untuk permintaan pengenalan. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik. Panduan untuk memilih model yang akan digunakan dapat ditemukan di Dokumentasi Model Transkripsi dan model yang didukung di setiap wilayah dapat ditemukan di Daftar Model yang Didukung. |
languageCodes[] |
Opsional. Kolom ini sekarang tidak digunakan lagi. Pilih kolom Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Bahasa yang didukung untuk setiap model tercantum dalam Tabel Model yang Didukung. Jika bahasa tambahan disediakan, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi dalam audio. Saat Anda membuat atau memperbarui Pengenal, nilai ini disimpan dalam bentuk BCP-47 yang dinormalisasi. Misalnya, "en-us" disimpan sebagai "en-US". |
defaultRecognitionConfig |
Konfigurasi default yang akan digunakan untuk permintaan dengan Pengenal ini. Fungsi ini dapat ditimpa oleh konfigurasi inline di kolom |
annotations |
Memungkinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Kunci dan nilai masing-masing harus terdiri dari maksimal 63 karakter. Maksimal 100 anotasi. Objek yang berisi daftar pasangan |
state |
Hanya output. Status siklus proses Pengenal. |
createTime |
Hanya output. Waktu pembuatan. Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit pecahan. Contoh: |
updateTime |
Hanya output. Waktu terakhir Pengenal ini diubah. Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit pecahan. Contoh: |
deleteTime |
Hanya output. Waktu Pengenal ini diminta untuk dihapus. Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit pecahan. Contoh: |
expireTime |
Hanya output. Waktu saat Pengenal ini akan dihapus permanen. Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit pecahan. Contoh: |
etag |
Hanya output. Checksum ini dihitung oleh server berdasarkan nilai {i>field<i} lainnya. Permintaan ini dapat dikirim saat memperbarui, membatalkan penghapusan, dan menghapus permintaan untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
reconciling |
Hanya output. Apakah Pengenal ini sedang dalam proses pembaruan atau tidak. |
kmsKeyName |
Hanya output. Nama kunci KMS yang digunakan untuk mengenkripsi Pengenal. Format yang diharapkan adalah |
kmsKeyVersionName |
Hanya output. Nama versi kunci KMS yang digunakan untuk mengenkripsi Pengenal. Format yang diharapkan adalah |
RecognitionConfig
Memberikan informasi kepada Pengenal yang menentukan cara memproses permintaan pengenalan.
Representasi JSON |
---|
{ "model": string, "languageCodes": [ string ], "features": { object ( |
Kolom | |
---|---|
model |
Opsional. Model yang akan digunakan untuk permintaan pengenalan. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik. Panduan untuk memilih model yang akan digunakan dapat ditemukan di Dokumentasi Model Transkripsi dan model yang didukung di setiap wilayah dapat ditemukan di Daftar Model yang Didukung. |
languageCodes[] |
Opsional. Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Tag bahasa dinormalkan menjadi BCP-47 sebelum digunakan, misalnya "en-us" menjadi "en-US". Bahasa yang didukung untuk setiap model tercantum dalam Tabel Model yang Didukung. Jika bahasa tambahan disediakan, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi dalam audio. |
features |
Untuk mengaktifkan fitur pengenalan ucapan. |
adaptation |
Konteks adaptasi ucapan yang memberi bobot prediksi pengenal untuk kata dan frasa tertentu. |
transcriptNormalization |
Opsional. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingKenali, normalisasi ini hanya berlaku untuk transkrip parsial stabil (stabilitas > 0,8) dan transkrip akhir. |
Kolom union decoding_config . Parameter decoding untuk audio yang dikirimkan untuk pengenalan. decoding_config hanya ada berupa salah satu diantara berikut: |
|
autoDecodingConfig |
Mendeteksi parameter decoding secara otomatis. Lebih disarankan untuk format yang didukung. |
explicitDecodingConfig |
Parameter dekode yang ditentukan secara eksplisit. Wajib jika menggunakan audio PCM tanpa header (linear16, mulaw, alaw). |
AutoDetectDecodingConfig
Jenis ini tidak memiliki kolom.
Parameter dekode terdeteksi secara otomatis. Didukung untuk encoding berikut:
WAV_LINEAR16: Sampel PCM little-endian 16-bit yang ditandatangani dalam container WAV.
WAV_MULAW: Sampel mulaw bersama 8 bit dalam container WAV.
WAV_ALAW: Sampel alaw yang disertakan 8 bit dalam container WAV.
RFC4867_5_AMR: Frame AMR dengan header rfc4867.5.
RFC4867_5_AMRWB: Frame AMR-WB dengan header rfc4867.5.
FLAC: Frame FLAC dalam format penampung "FLAC native".
MP3: Frame audio MPEG dengan metadata ID3 opsional (diabaikan).
OGG_OPUS: Frame audio Opus dalam penampung Ogg.
WEBM_OPUS: Frame audio Opus dalam penampung WebM.
MP4_AAC: Frame audio AAC dalam container MP4.
M4A_AAC: Frame audio AAC dalam penampung M4A.
MOV_AAC: Frame audio AAC dalam penampung MOV.
ExplicitDecodingConfig
Parameter dekode yang ditentukan secara eksplisit.
Representasi JSON |
---|
{
"encoding": enum ( |
Kolom | |
---|---|
encoding |
Wajib. Encoding data audio yang dikirim untuk pengenalan. |
sampleRateHertz |
Frekuensi sampel data audio dalam Hertz yang dikirim untuk pengenalan. Nilai yang valid adalah: 8000-48000. 16.000 adalah nilai optimal. Untuk hasil terbaik, setel frekuensi pengambilan sampel sumber audio ke 16.000 Hz. Jika tidak memungkinkan, gunakan frekuensi sampel native sumber audio (bukan pengambilan ulang sampel). Didukung untuk encoding berikut:
|
audioChannelCount |
Jumlah channel yang ada dalam data audio yang dikirim untuk pengenalan. Didukung untuk encoding berikut:
Nilai maksimum yang diizinkan adalah 8. |
AudioEncoding
Encoding data audio yang didukung.
Enum | |
---|---|
AUDIO_ENCODING_UNSPECIFIED |
Nilai default. Nilai ini tidak digunakan. |
LINEAR16 |
Sampel PCM little-endian tanpa header 16-bit. |
MULAW |
Sampel mulaw dengan 8-bit tanpa header. |
ALAW |
Sampel alaw dengan 8-bit tanpa header. |
RecognitionFeatures
Fitur pengenalan yang tersedia.
Representasi JSON |
---|
{ "profanityFilter": boolean, "enableWordTimeOffsets": boolean, "enableWordConfidence": boolean, "enableAutomaticPunctuation": boolean, "enableSpokenPunctuation": boolean, "enableSpokenEmojis": boolean, "multiChannelMode": enum ( |
Kolom | |
---|---|
profanityFilter |
Jika disetel ke |
enableWordTimeOffsets |
Jika |
enableWordConfidence |
Jika |
enableAutomaticPunctuation |
Jika |
enableSpokenPunctuation |
Perilaku tanda baca yang diucapkan untuk panggilan. Jika |
enableSpokenEmojis |
Perilaku emoji lisan untuk panggilan. Jika |
multiChannelMode |
Mode untuk mengenali audio multi-channel. |
diarizationConfig |
Konfigurasi untuk mengaktifkan diarisasi speaker dan menyetel parameter tambahan agar diarisasi menjadi lebih cocok bagi aplikasi Anda. Jika ini diaktifkan, kami akan mengirimkan semua kata dari awal audio untuk alternatif teratas di setiap respons STREAMING berturut-turut. Hal ini dilakukan untuk meningkatkan kualitas tag pembicara seiring model kami belajar mengidentifikasi pembicara dalam percakapan dari waktu ke waktu. Untuk permintaan non-streaming, hasil diarisasi hanya akan diberikan di alternatif teratas dari FINAL SpeechRecognitionResult. |
maxAlternatives |
Jumlah maksimum hipotesis pengenalan yang akan ditampilkan. Server mungkin menampilkan kurang dari |
MultiChannelMode
Opsi untuk mengenali audio multi-channel.
Enum | |
---|---|
MULTI_CHANNEL_MODE_UNSPECIFIED |
Nilai default untuk mode multi-saluran. Jika audio berisi beberapa channel, hanya channel pertama yang akan ditranskripsikan; channel lain akan diabaikan. |
SEPARATE_RECOGNITION_PER_CHANNEL |
Jika dipilih, setiap saluran dalam audio yang disediakan ditranskripsikan secara independen. Opsi ini tidak dapat dipilih jika model yang dipilih adalah latest_short . |
SpeakerDiarizationConfig
Konfigurasi untuk mengaktifkan diarisasi speaker.
Representasi JSON |
---|
{ "minSpeakerCount": integer, "maxSpeakerCount": integer } |
Kolom | |
---|---|
minSpeakerCount |
Wajib. Jumlah minimum pembicara dalam percakapan. Rentang ini membuat Anda lebih fleksibel karena memungkinkan sistem menentukan jumlah speaker yang tepat secara otomatis. Untuk memperbaiki jumlah speaker yang terdeteksi dalam audio, setel |
maxSpeakerCount |
Wajib. Jumlah maksimum pembicara dalam percakapan. Nilai yang valid adalah: 1-6. Harus >= |
SpeechAdaptation
Memberikan "petunjuk" kepada pengenal ucapan untuk mendukung kata dan frasa tertentu dalam hasil. Frasa Set dapat ditetapkan sebagai resource inline, atau referensi ke resource frasaSet yang ada.
Representasi JSON |
---|
{ "phraseSets": [ { object ( |
Kolom | |
---|---|
phraseSets[] |
Daftar Set Frasa inline atau yang direferensikan. |
customClasses[] |
Daftar CustomClass inline. Resource CustomClass yang ada dapat direferensikan secara langsung di FrasaSet. |
AdaptationPhraseSet
FraseSet yang membias, yang dapat berupa string yang merujuk pada nama resource frasaSets yang ada, atau definisi inline dari frasaSet.
Representasi JSON |
---|
{ // Union field |
Kolom | |
---|---|
Kolom union
|
|
phraseSet |
Nama resource frasaSet yang ada. Pengguna harus memiliki akses baca ke resource dan tidak boleh dihapus. |
inlinePhraseSet |
Set Frasa yang ditentukan inline. |
TranscriptNormalization
Konfigurasi normalisasi transkripsi. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingKenali, normalisasi ini hanya berlaku untuk transkrip parsial stabil (stabilitas > 0,8) dan transkrip akhir.
Representasi JSON |
---|
{
"entries": [
{
object ( |
Kolom | |
---|---|
entries[] |
Daftar entri pengganti. Kami akan melakukan penggantian dengan satu entri dalam satu waktu. Misalnya, entri kedua dalam ["cat" => "dog", "mountain cat" => "mountain dog"] tidak akan pernah diterapkan karena kami akan selalu memproses entri pertama sebelumnya. Maksimal 100 entri. |
Entri
Konfigurasi penggantian tunggal.
Representasi JSON |
---|
{ "search": string, "replace": string, "caseSensitive": boolean } |
Kolom | |
---|---|
search |
Yang harus diganti. Panjang maksimal adalah 100 karakter. |
replace |
Apa yang akan diganti. Panjang maksimal adalah 100 karakter. |
caseSensitive |
Apakah penelusuran peka huruf besar/kecil. |
Negara bagian/Provinsi
Serangkaian status yang menentukan siklus proses Pengenal.
Enum | |
---|---|
STATE_UNSPECIFIED |
Nilai default. Nilai ini digunakan jika status dihilangkan. |
ACTIVE |
Pengenal aktif dan siap digunakan. |
DELETED |
Pengenal ini telah dihapus. |
Metode |
|
---|---|
|
Melakukan pengenalan ucapan asinkron batch: mengirim permintaan dengan file audio N dan menerima operasi yang berjalan lama yang dapat dilakukan polling untuk melihat saat transkripsi selesai. |
|
Membuat Recognizer . |
|
Menghapus Recognizer . |
|
Menampilkan Recognizer yang diminta. |
|
Mencantumkan Pengenal. |
|
Mengupdate Recognizer . |
|
Melakukan pengenalan ucapan sinkron: menerima hasil setelah semua audio dikirim dan diproses. |
|
Membatalkan penghapusan Recognizer . |