- Referensi: Pengenal
- RecognitionConfig
- AutoDetectDecodingConfig
- ExplicitDecodingConfig
- AudioEncoding
- RecognitionFeatures
- MultiChannelMode
- SpeakerDiarizationConfig
- SpeechAdaptation
- AdaptationPhraseSet
- TranscriptNormalization
- Entri
- Status
- Metode
Referensi: Pengenal
Pesan Pengenal. Menyimpan konfigurasi dan metadata pengenalan.
Representasi JSON |
---|
{ "name": string, "uid": string, "displayName": string, "model": string, "languageCodes": [ string ], "defaultRecognitionConfig": { object ( |
Kolom | |
---|---|
name |
Hanya output. Pengenal. Nama resource Pengenal. Format |
uid |
Hanya output. ID unik yang ditetapkan sistem untuk Pengenal. |
displayName |
Nama yang dapat ditetapkan pengguna dan dapat dibaca manusia untuk Pengenal. Harus terdiri dari 63 karakter atau kurang. |
model |
Opsional. Kolom ini sekarang tidak digunakan lagi. Pilih kolom Model yang akan digunakan untuk permintaan pengenalan. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik. Panduan untuk memilih model yang akan digunakan dapat ditemukan di Dokumentasi Model Transkripsi. Model yang didukung di setiap wilayah dapat ditemukan di Tabel Model yang Didukung. |
languageCodes[] |
Opsional. Kolom ini sekarang tidak digunakan lagi. Pilih kolom Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Bahasa yang didukung untuk setiap model tercantum dalam Tabel Model yang Didukung. Jika bahasa tambahan disediakan, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi pada audio. Saat Anda membuat atau memperbarui Pengenal, nilai ini akan disimpan dalam bentuk BCP-47 yang dinormalkan. Misalnya, "en-us" disimpan sebagai "en-US". |
defaultRecognitionConfig |
Konfigurasi default yang akan digunakan untuk permintaan dengan Pengenal ini. Ini dapat ditimpa oleh konfigurasi inline di kolom |
annotations |
Memungkinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Kunci dan nilai masing-masing harus terdiri dari 63 karakter atau kurang. Maksimal 100 anotasi. Objek yang berisi daftar pasangan |
state |
Hanya output. Status siklus proses Pengenal. |
createTime |
Hanya output. Waktu pembuatan. Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit fraksional. Contoh: |
updateTime |
Hanya output. Terakhir kali Pengenal ini diubah. Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit fraksional. Contoh: |
deleteTime |
Hanya output. Waktu saat Pengenal ini diminta untuk dihapus. Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit fraksional. Contoh: |
expireTime |
Hanya output. Waktu Pengenal ini akan dihapus permanen. Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit fraksional. Contoh: |
etag |
Hanya output. Checksum ini dihitung oleh server berdasarkan nilai {i>field<i} lain. Ini dapat dikirim pada saat permintaan pembaruan, pembatalan penghapusan, dan penghapusan untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
reconciling |
Hanya output. Apakah Pengenal ini sedang dalam proses diperbarui atau tidak. |
kmsKeyName |
Hanya output. Nama kunci KMS yang digunakan untuk mengenkripsi Pengenal. Format yang diharapkan adalah |
kmsKeyVersionName |
Hanya output. Nama versi kunci KMS yang digunakan untuk mengenkripsi Pengenal. Format yang diharapkan adalah |
RecognitionConfig
Memberikan informasi kepada Pengenal yang menentukan cara memproses permintaan pengenalan.
Representasi JSON |
---|
{ "model": string, "languageCodes": [ string ], "features": { object ( |
Kolom | |
---|---|
model |
Opsional. Model yang akan digunakan untuk permintaan pengenalan. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik. Panduan untuk memilih model yang akan digunakan dapat ditemukan di Dokumentasi Model Transkripsi. Model yang didukung di setiap wilayah dapat ditemukan di Tabel Model yang Didukung. |
languageCodes[] |
Opsional. Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Tag bahasa dinormalkan menjadi BCP-47 sebelum digunakan, misalnya "en-us" menjadi "en-US". Bahasa yang didukung untuk setiap model tercantum dalam Tabel Model yang Didukung. Jika bahasa tambahan disediakan, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi pada audio. |
features |
Fitur pengenalan ucapan untuk mengaktifkan. |
adaptation |
Konteks adaptasi ucapan yang memberikan bobot prediksi pengenal untuk kata dan frasa tertentu. |
transcriptNormalization |
Opsional. Gunakan normalisasi transkripsi untuk mengganti bagian transkrip secara otomatis dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial stabil (stabilitas > 0,8) dan transkrip akhir. |
Kolom union decoding_config . Parameter dekode untuk audio yang dikirim untuk pengenalan. decoding_config hanya ada berupa salah satu diantara berikut: |
|
autoDecodingConfig |
Mendeteksi parameter decoding secara otomatis. Lebih disarankan untuk format yang didukung. |
explicitDecodingConfig |
Parameter decoding yang ditentukan secara eksplisit. Wajib jika menggunakan audio PCM tanpa header (linear16, mulaw, alaw). |
AutoDetectDecodingConfig
Jenis ini tidak memiliki kolom.
Parameter decoding terdeteksi secara otomatis. Didukung untuk encoding berikut:
WAV_LINEAR16: Sampel PCM little-endian 16-bit yang ditandatangani dalam container WAV.
WAV_MULAW: Sampel mulaw yang digabungkan 8-bit dalam container WAV.
WAV_ALAW: Sampel alaw yang digabungkan 8-bit dalam penampung WAV.
RFC4867_5_AMR: Frame AMR dengan header rfc4867.5.
RFC4867_5_AMRWB: Frame AMR-WB dengan header rfc4867.5.
FLAC: Bingkai FLAC dalam format container "FLAC native".
MP3: Bingkai audio MPEG dengan metadata ID3 opsional (diabaikan).
OGG_OPUS: Bingkai audio Opus dalam penampung Ogg.
WEBM_OPUS: Bingkai audio Opus dalam penampung WebM.
M4A: Format audio M4A.
ExplicitDecodingConfig
Parameter decoding yang ditentukan secara eksplisit.
Representasi JSON |
---|
{
"encoding": enum ( |
Kolom | |
---|---|
encoding |
Wajib. Encoding data audio yang dikirim untuk pengenalan. |
sampleRateHertz |
Frekuensi sampel data audio dalam Hertz yang dikirim untuk pengenalan. Nilai yang valid adalah: 8000-48000. 16.000 sudah optimal. Untuk hasil terbaik, setel frekuensi sampling sumber audio ke 16.000 Hz. Jika tidak memungkinkan, gunakan frekuensi sampel native dari sumber audio (bukan pengambilan ulang sampel). Didukung untuk encoding berikut:
|
audioChannelCount |
Jumlah channel yang ada dalam data audio yang dikirim untuk pengenalan. Didukung untuk encoding berikut:
Nilai maksimum yang diizinkan adalah 8. |
AudioEncoding
Encoding data audio yang didukung.
Enum | |
---|---|
AUDIO_ENCODING_UNSPECIFIED |
Nilai default. Nilai ini tidak digunakan. |
LINEAR16 |
Sampel PCM kecil 16-bit tanpa header yang ditandatangani. |
MULAW |
Sampel mulaw yang digabungkan 8-bit header. |
ALAW |
Sampel alaw tanpa header 8-bit. |
RecognitionFeatures
Fitur pengenalan yang tersedia.
Representasi JSON |
---|
{ "profanityFilter": boolean, "enableWordTimeOffsets": boolean, "enableWordConfidence": boolean, "enableAutomaticPunctuation": boolean, "enableSpokenPunctuation": boolean, "enableSpokenEmojis": boolean, "multiChannelMode": enum ( |
Kolom | |
---|---|
profanityFilter |
Jika disetel ke |
enableWordTimeOffsets |
Jika |
enableWordConfidence |
Jika |
enableAutomaticPunctuation |
Jika |
enableSpokenPunctuation |
Perilaku tanda baca lisan untuk panggilan. Jika |
enableSpokenEmojis |
Perilaku emoji lisan untuk panggilan. Jika |
multiChannelMode |
Mode untuk mengenali audio multi-saluran. |
diarizationConfig |
Konfigurasi untuk mengaktifkan pemisahan pembicara dan menetapkan parameter tambahan agar diarisasi lebih sesuai untuk aplikasi Anda. Jika fitur ini diaktifkan, kami akan mengirimkan semua kata dari awal audio sebagai alternatif teratas dalam setiap respons STREAMING berturut-turut. Hal ini dilakukan untuk meningkatkan kualitas tag pembicara karena model kami belajar mengidentifikasi pembicara dalam percakapan dari waktu ke waktu. Untuk permintaan non-streaming, hasil diarisasi hanya akan diberikan di alternatif teratas FINAL SpeechRecognitionResult. |
maxAlternatives |
Jumlah maksimum hipotesis pengenalan yang akan ditampilkan. Server mungkin menampilkan kurang dari |
MultiChannelMode
Opsi cara mengenali audio multi-saluran.
Enum | |
---|---|
MULTI_CHANNEL_MODE_UNSPECIFIED |
Nilai default untuk mode multi-saluran. Jika audio berisi beberapa channel, hanya channel pertama yang akan ditranskripsikan; channel lain akan diabaikan. |
SEPARATE_RECOGNITION_PER_CHANNEL |
Jika dipilih, setiap saluran dalam audio yang disediakan akan ditranskripsikan secara terpisah. Opsi ini tidak dapat dipilih jika model yang dipilih adalah latest_short . |
SpeakerDiarizationConfig
Konfigurasi untuk mengaktifkan pemisahan pembicara.
Representasi JSON |
---|
{ "minSpeakerCount": integer, "maxSpeakerCount": integer } |
Kolom | |
---|---|
minSpeakerCount |
Wajib. Jumlah minimum pembicara dalam percakapan. Rentang ini memberi Anda lebih banyak fleksibilitas dengan memungkinkan sistem menentukan jumlah speaker yang tepat secara otomatis. Untuk memperbaiki jumlah speaker yang terdeteksi dalam audio, setel |
maxSpeakerCount |
Wajib. Jumlah maksimum pembicara dalam percakapan. Nilai yang valid adalah: 1-6. Harus >= |
SpeechAdaptation
Menyediakan "petunjuk" ke pengenal ucapan untuk mendukung kata dan frasa tertentu dalam hasil. PhraseSets dapat ditentukan sebagai resource inline, atau referensi ke resource PhraseSet yang ada.
Representasi JSON |
---|
{ "phraseSets": [ { object ( |
Kolom | |
---|---|
phraseSets[] |
Daftar PhraseSet inline atau referensi. |
customClasses[] |
Daftar CustomClass inline. Resource CustomClass yang ada dapat direferensikan langsung di PhraseSet. |
AdaptationPhraseSet
PhraseSet pembiasan, yang dapat berupa string yang merujuk nama resource PhraseSets yang ada, atau definisi inline PhraseSet.
Representasi JSON |
---|
{ // Union field |
Kolom | |
---|---|
Kolom union
|
|
phraseSet |
Nama resource PhraseSet yang ada. Pengguna harus memiliki akses baca ke resource dan resource tidak boleh dihapus. |
inlinePhraseSet |
PhraseSet yang ditentukan inline. |
TranscriptNormalization
Konfigurasi normalisasi transkripsi. Gunakan normalisasi transkripsi untuk mengganti bagian transkrip secara otomatis dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial stabil (stabilitas > 0,8) dan transkrip akhir.
Representasi JSON |
---|
{
"entries": [
{
object ( |
Kolom | |
---|---|
entries[] |
Daftar entri pengganti. Kami akan melakukan penggantian dengan satu entri pada satu waktu. Misalnya, entri kedua dalam ["cat" => "dog", "mountain cat" => "mountain dog"] tidak akan pernah diterapkan karena kita akan selalu memproses entri pertama sebelumnya. Maksimal 100 entri. |
Entri
Konfigurasi penggantian tunggal.
Representasi JSON |
---|
{ "search": string, "replace": string, "caseSensitive": boolean } |
Kolom | |
---|---|
search |
Apa yang harus diganti. Panjang maksimal adalah 100 karakter. |
replace |
Apa yang harus diganti. Panjang maksimal adalah 100 karakter. |
caseSensitive |
Apakah penelusuran peka huruf besar/kecil. |
Negara bagian/Provinsi
Kumpulan status yang menentukan siklus proses Pengenal.
Enum | |
---|---|
STATE_UNSPECIFIED |
Nilai default. Nilai ini digunakan jika status dihilangkan. |
ACTIVE |
Pengenal aktif dan siap digunakan. |
DELETED |
Pengenal ini telah dihapus. |
Metode |
|
---|---|
|
Melakukan pengenalan ucapan asinkron batch: mengirim permintaan dengan file N audio dan menerima operasi yang berjalan lama yang dapat di-polling untuk mengetahui kapan transkripsi selesai. |
|
Membuat Recognizer . |
|
Menghapus Recognizer . |
|
Menampilkan Recognizer yang diminta. |
|
Pengenal Daftar. |
|
Mengupdate Recognizer . |
|
Melakukan pengenalan Ucapan sinkron: menerima hasil setelah semua audio dikirim dan diproses. |
|
Membatalkan penghapusan Recognizer . |