REST Resource: projects.locations.recognizers

Resource: Pengenal

Pesan Pengenal. Menyimpan metadata dan konfigurasi pengenalan.

Representasi JSON
{
  "name": string,
  "uid": string,
  "displayName": string,
  "model": string,
  "languageCodes": [
    string
  ],
  "defaultRecognitionConfig": {
    object (RecognitionConfig)
  },
  "annotations": {
    string: string,
    ...
  },
  "state": enum (State),
  "createTime": string,
  "updateTime": string,
  "deleteTime": string,
  "expireTime": string,
  "etag": string,
  "reconciling": boolean,
  "kmsKeyName": string,
  "kmsKeyVersionName": string
}
Kolom
name

string

Hanya output. ID. Nama resource Pengenal. Format projects/{project}/locations/{location}/recognizers/{recognizer}.

uid

string

Hanya output. ID unik yang ditetapkan sistem untuk Pengenal.

displayName

string

Nama yang dapat ditetapkan pengguna dan dapat dibaca manusia untuk Pengenal. Harus terdiri dari 63 karakter atau kurang.

model
(deprecated)

string

Opsional. Kolom ini sekarang tidak digunakan lagi. Pilih kolom model di pesan RecognitionConfig.

Model yang akan digunakan untuk permintaan pengenalan. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik.

Panduan untuk memilih model yang akan digunakan dapat ditemukan di Dokumentasi Model Transkripsi dan model yang didukung di setiap wilayah dapat ditemukan di Daftar Model yang Didukung.

languageCodes[]
(deprecated)

string

Opsional. Kolom ini sekarang tidak digunakan lagi. Pilih kolom languageCodes di pesan RecognitionConfig.

Bahasa audio yang disediakan sebagai tag bahasa BCP-47.

Bahasa yang didukung untuk setiap model tercantum dalam Tabel Model yang Didukung.

Jika bahasa tambahan disediakan, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi dalam audio. Saat Anda membuat atau memperbarui Pengenal, nilai ini disimpan dalam bentuk BCP-47 yang dinormalisasi. Misalnya, "en-us" disimpan sebagai "en-US".

defaultRecognitionConfig

object (RecognitionConfig)

Konfigurasi default yang akan digunakan untuk permintaan dengan Pengenal ini. Fungsi ini dapat ditimpa oleh konfigurasi inline di kolom RecognizeRequest.config.

annotations

map (key: string, value: string)

Memungkinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Kunci dan nilai masing-masing harus terdiri dari maksimal 63 karakter. Maksimal 100 anotasi.

Objek yang berisi daftar pasangan "key": value. Contoh: { "name": "wrench", "mass": "1.3kg", "count": "3" }.

state

enum (State)

Hanya output. Status siklus proses Pengenal.

createTime

string (Timestamp format)

Hanya output. Waktu pembuatan.

Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit pecahan. Contoh: "2014-10-02T15:01:23Z" dan "2014-10-02T15:01:23.045123456Z".

updateTime

string (Timestamp format)

Hanya output. Waktu terakhir Pengenal ini diubah.

Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit pecahan. Contoh: "2014-10-02T15:01:23Z" dan "2014-10-02T15:01:23.045123456Z".

deleteTime

string (Timestamp format)

Hanya output. Waktu Pengenal ini diminta untuk dihapus.

Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit pecahan. Contoh: "2014-10-02T15:01:23Z" dan "2014-10-02T15:01:23.045123456Z".

expireTime

string (Timestamp format)

Hanya output. Waktu saat Pengenal ini akan dihapus permanen.

Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit pecahan. Contoh: "2014-10-02T15:01:23Z" dan "2014-10-02T15:01:23.045123456Z".

etag

string

Hanya output. Checksum ini dihitung oleh server berdasarkan nilai {i>field<i} lainnya. Permintaan ini dapat dikirim saat memperbarui, membatalkan penghapusan, dan menghapus permintaan untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan.

reconciling

boolean

Hanya output. Apakah Pengenal ini sedang dalam proses pembaruan atau tidak.

kmsKeyName

string

Hanya output. Nama kunci KMS yang digunakan untuk mengenkripsi Pengenal. Format yang diharapkan adalah projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}.

kmsKeyVersionName

string

Hanya output. Nama versi kunci KMS yang digunakan untuk mengenkripsi Pengenal. Format yang diharapkan adalah projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}.

RecognitionConfig

Memberikan informasi kepada Pengenal yang menentukan cara memproses permintaan pengenalan.

Representasi JSON
{
  "model": string,
  "languageCodes": [
    string
  ],
  "features": {
    object (RecognitionFeatures)
  },
  "adaptation": {
    object (SpeechAdaptation)
  },
  "transcriptNormalization": {
    object (TranscriptNormalization)
  },

  // Union field decoding_config can be only one of the following:
  "autoDecodingConfig": {
    object (AutoDetectDecodingConfig)
  },
  "explicitDecodingConfig": {
    object (ExplicitDecodingConfig)
  }
  // End of list of possible types for union field decoding_config.
}
Kolom
model

string

Opsional. Model yang akan digunakan untuk permintaan pengenalan. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik.

Panduan untuk memilih model yang akan digunakan dapat ditemukan di Dokumentasi Model Transkripsi dan model yang didukung di setiap wilayah dapat ditemukan di Daftar Model yang Didukung.

languageCodes[]

string

Opsional. Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Tag bahasa dinormalkan menjadi BCP-47 sebelum digunakan, misalnya "en-us" menjadi "en-US".

Bahasa yang didukung untuk setiap model tercantum dalam Tabel Model yang Didukung.

Jika bahasa tambahan disediakan, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi dalam audio.

features

object (RecognitionFeatures)

Untuk mengaktifkan fitur pengenalan ucapan.

adaptation

object (SpeechAdaptation)

Konteks adaptasi ucapan yang memberi bobot prediksi pengenal untuk kata dan frasa tertentu.

transcriptNormalization

object (TranscriptNormalization)

Opsional. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingKenali, normalisasi ini hanya berlaku untuk transkrip parsial stabil (stabilitas > 0,8) dan transkrip akhir.

Kolom union decoding_config. Parameter decoding untuk audio yang dikirimkan untuk pengenalan. decoding_config hanya ada berupa salah satu diantara berikut:
autoDecodingConfig

object (AutoDetectDecodingConfig)

Mendeteksi parameter decoding secara otomatis. Lebih disarankan untuk format yang didukung.

explicitDecodingConfig

object (ExplicitDecodingConfig)

Parameter dekode yang ditentukan secara eksplisit. Wajib jika menggunakan audio PCM tanpa header (linear16, mulaw, alaw).

AutoDetectDecodingConfig

Jenis ini tidak memiliki kolom.

Parameter dekode terdeteksi secara otomatis. Didukung untuk encoding berikut:

  • WAV_LINEAR16: Sampel PCM little-endian 16-bit yang ditandatangani dalam container WAV.

  • WAV_MULAW: Sampel mulaw bersama 8 bit dalam container WAV.

  • WAV_ALAW: Sampel alaw yang disertakan 8 bit dalam container WAV.

  • RFC4867_5_AMR: Frame AMR dengan header rfc4867.5.

  • RFC4867_5_AMRWB: Frame AMR-WB dengan header rfc4867.5.

  • FLAC: Frame FLAC dalam format penampung "FLAC native".

  • MP3: Frame audio MPEG dengan metadata ID3 opsional (diabaikan).

  • OGG_OPUS: Frame audio Opus dalam penampung Ogg.

  • WEBM_OPUS: Frame audio Opus dalam penampung WebM.

  • MP4_AAC: Frame audio AAC dalam container MP4.

  • M4A_AAC: Frame audio AAC dalam penampung M4A.

  • MOV_AAC: Frame audio AAC dalam penampung MOV.

ExplicitDecodingConfig

Parameter dekode yang ditentukan secara eksplisit.

Representasi JSON
{
  "encoding": enum (AudioEncoding),
  "sampleRateHertz": integer,
  "audioChannelCount": integer
}
Kolom
encoding

enum (AudioEncoding)

Wajib. Encoding data audio yang dikirim untuk pengenalan.

sampleRateHertz

integer

Frekuensi sampel data audio dalam Hertz yang dikirim untuk pengenalan. Nilai yang valid adalah: 8000-48000. 16.000 adalah nilai optimal. Untuk hasil terbaik, setel frekuensi pengambilan sampel sumber audio ke 16.000 Hz. Jika tidak memungkinkan, gunakan frekuensi sampel native sumber audio (bukan pengambilan ulang sampel). Didukung untuk encoding berikut:

  • LINEAR16: Sampel PCM little-endian tanpa header 16-bit.

  • MULAW: Sampel mulaw dengan 8-bit tanpa header.

  • ALAW: Sampel alaw yang disertai 8-bit tanpa header.

audioChannelCount

integer

Jumlah channel yang ada dalam data audio yang dikirim untuk pengenalan. Didukung untuk encoding berikut:

  • LINEAR16: Sampel PCM little-endian tanpa header 16-bit.

  • MULAW: Sampel mulaw dengan 8-bit tanpa header.

  • ALAW: Sampel alaw yang disertai 8-bit tanpa header.

Nilai maksimum yang diizinkan adalah 8.

AudioEncoding

Encoding data audio yang didukung.

Enum
AUDIO_ENCODING_UNSPECIFIED Nilai default. Nilai ini tidak digunakan.
LINEAR16 Sampel PCM little-endian tanpa header 16-bit.
MULAW Sampel mulaw dengan 8-bit tanpa header.
ALAW Sampel alaw dengan 8-bit tanpa header.

RecognitionFeatures

Fitur pengenalan yang tersedia.

Representasi JSON
{
  "profanityFilter": boolean,
  "enableWordTimeOffsets": boolean,
  "enableWordConfidence": boolean,
  "enableAutomaticPunctuation": boolean,
  "enableSpokenPunctuation": boolean,
  "enableSpokenEmojis": boolean,
  "multiChannelMode": enum (MultiChannelMode),
  "diarizationConfig": {
    object (SpeakerDiarizationConfig)
  },
  "maxAlternatives": integer
}
Kolom
profanityFilter

boolean

Jika disetel ke true, server akan mencoba memfilter kata-kata tidak sopan, dengan mengganti semua karakter kecuali karakter awal di setiap kata yang difilter dengan tanda bintang, misalnya, "f***". Jika ditetapkan ke false atau dihilangkan, kata-kata tidak sopan tidak akan difilter.

enableWordTimeOffsets

boolean

Jika true, hasil teratas akan menyertakan daftar kata serta offset waktu mulai dan berakhir (stempel waktu) untuk kata-kata tersebut. Jika false, tidak ada informasi selisih waktu tingkat kata yang ditampilkan. Defaultnya adalah false.

enableWordConfidence

boolean

Jika true, hasil teratas akan menyertakan daftar kata dan tingkat keyakinan untuk kata tersebut. Jika false, tidak ada informasi keyakinan tingkat kata yang ditampilkan. Defaultnya adalah false.

enableAutomaticPunctuation

boolean

Jika true, menambahkan tanda baca ke hipotesis hasil pengenalan. Fitur ini hanya tersedia dalam bahasa tertentu. Nilai false default tidak menambahkan tanda baca ke hipotesis hasil.

enableSpokenPunctuation

boolean

Perilaku tanda baca yang diucapkan untuk panggilan. Jika true, mengganti tanda baca lisan dengan simbol yang sesuai dalam permintaan. Misalnya, "bagaimana kabarmu" menjadi "kamu apa kabar?". Lihat https://cloud.google.com/speech-to-text/docs/spoken-punctuation untuk mendapatkan dukungan. Jika false, tanda baca yang diucapkan tidak diganti.

enableSpokenEmojis

boolean

Perilaku emoji lisan untuk panggilan. Jika true, menambahkan format emoji lisan untuk permintaan. Tindakan ini akan menggantikan emoji lisan dengan simbol Unicode yang sesuai dalam transkrip akhir. Jika false, emoji lisan tidak akan diganti.

multiChannelMode

enum (MultiChannelMode)

Mode untuk mengenali audio multi-channel.

diarizationConfig

object (SpeakerDiarizationConfig)

Konfigurasi untuk mengaktifkan diarisasi speaker dan menyetel parameter tambahan agar diarisasi menjadi lebih cocok bagi aplikasi Anda. Jika ini diaktifkan, kami akan mengirimkan semua kata dari awal audio untuk alternatif teratas di setiap respons STREAMING berturut-turut. Hal ini dilakukan untuk meningkatkan kualitas tag pembicara seiring model kami belajar mengidentifikasi pembicara dalam percakapan dari waktu ke waktu. Untuk permintaan non-streaming, hasil diarisasi hanya akan diberikan di alternatif teratas dari FINAL SpeechRecognitionResult.

maxAlternatives

integer

Jumlah maksimum hipotesis pengenalan yang akan ditampilkan. Server mungkin menampilkan kurang dari maxAlternatives. Nilai yang valid adalah 0-30. Nilai 0 atau 1 akan menampilkan maksimum satu. Jika dihilangkan, akan menampilkan maksimum satu.

MultiChannelMode

Opsi untuk mengenali audio multi-channel.

Enum
MULTI_CHANNEL_MODE_UNSPECIFIED Nilai default untuk mode multi-saluran. Jika audio berisi beberapa channel, hanya channel pertama yang akan ditranskripsikan; channel lain akan diabaikan.
SEPARATE_RECOGNITION_PER_CHANNEL Jika dipilih, setiap saluran dalam audio yang disediakan ditranskripsikan secara independen. Opsi ini tidak dapat dipilih jika model yang dipilih adalah latest_short.

SpeakerDiarizationConfig

Konfigurasi untuk mengaktifkan diarisasi speaker.

Representasi JSON
{
  "minSpeakerCount": integer,
  "maxSpeakerCount": integer
}
Kolom
minSpeakerCount

integer

Wajib. Jumlah minimum pembicara dalam percakapan. Rentang ini membuat Anda lebih fleksibel karena memungkinkan sistem menentukan jumlah speaker yang tepat secara otomatis.

Untuk memperbaiki jumlah speaker yang terdeteksi dalam audio, setel minSpeakerCount = maxSpeakerCount.

maxSpeakerCount

integer

Wajib. Jumlah maksimum pembicara dalam percakapan. Nilai yang valid adalah: 1-6. Harus >= minSpeakerCount. Rentang ini membuat Anda lebih fleksibel karena memungkinkan sistem menentukan jumlah speaker yang tepat secara otomatis.

SpeechAdaptation

Memberikan "petunjuk" kepada pengenal ucapan untuk mendukung kata dan frasa tertentu dalam hasil. Frasa Set dapat ditetapkan sebagai resource inline, atau referensi ke resource frasaSet yang ada.

Representasi JSON
{
  "phraseSets": [
    {
      object (AdaptationPhraseSet)
    }
  ],
  "customClasses": [
    {
      object (CustomClass)
    }
  ]
}
Kolom
phraseSets[]

object (AdaptationPhraseSet)

Daftar Set Frasa inline atau yang direferensikan.

customClasses[]

object (CustomClass)

Daftar CustomClass inline. Resource CustomClass yang ada dapat direferensikan secara langsung di FrasaSet.

AdaptationPhraseSet

FraseSet yang membias, yang dapat berupa string yang merujuk pada nama resource frasaSets yang ada, atau definisi inline dari frasaSet.

Representasi JSON
{

  // Union field value can be only one of the following:
  "phraseSet": string,
  "inlinePhraseSet": {
    object (PhraseSet)
  }
  // End of list of possible types for union field value.
}
Kolom

Kolom union value.

value hanya dapat berupa salah satu dari yang berikut:

phraseSet

string

Nama resource frasaSet yang ada. Pengguna harus memiliki akses baca ke resource dan tidak boleh dihapus.

inlinePhraseSet

object (PhraseSet)

Set Frasa yang ditentukan inline.

TranscriptNormalization

Konfigurasi normalisasi transkripsi. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingKenali, normalisasi ini hanya berlaku untuk transkrip parsial stabil (stabilitas > 0,8) dan transkrip akhir.

Representasi JSON
{
  "entries": [
    {
      object (Entry)
    }
  ]
}
Kolom
entries[]

object (Entry)

Daftar entri pengganti. Kami akan melakukan penggantian dengan satu entri dalam satu waktu. Misalnya, entri kedua dalam ["cat" => "dog", "mountain cat" => "mountain dog"] tidak akan pernah diterapkan karena kami akan selalu memproses entri pertama sebelumnya. Maksimal 100 entri.

Entri

Konfigurasi penggantian tunggal.

Representasi JSON
{
  "search": string,
  "replace": string,
  "caseSensitive": boolean
}
Kolom
search

string

Yang harus diganti. Panjang maksimal adalah 100 karakter.

replace

string

Apa yang akan diganti. Panjang maksimal adalah 100 karakter.

caseSensitive

boolean

Apakah penelusuran peka huruf besar/kecil.

Negara bagian/Provinsi

Serangkaian status yang menentukan siklus proses Pengenal.

Enum
STATE_UNSPECIFIED Nilai default. Nilai ini digunakan jika status dihilangkan.
ACTIVE Pengenal aktif dan siap digunakan.
DELETED Pengenal ini telah dihapus.

Metode

batchRecognize

Melakukan pengenalan ucapan asinkron batch: mengirim permintaan dengan file audio N dan menerima operasi yang berjalan lama yang dapat dilakukan polling untuk melihat saat transkripsi selesai.

create

Membuat Recognizer.

delete

Menghapus Recognizer.

get

Menampilkan Recognizer yang diminta.

list

Mencantumkan Pengenal.

patch

Mengupdate Recognizer.

recognize

Melakukan pengenalan ucapan sinkron: menerima hasil setelah semua audio dikirim dan diproses.

undelete

Membatalkan penghapusan Recognizer.