REST Resource: projects.locations.recognizers

Referensi: Pengenal

Pesan Pengenal. Menyimpan konfigurasi dan metadata pengenalan.

Representasi JSON
{
  "name": string,
  "uid": string,
  "displayName": string,
  "model": string,
  "languageCodes": [
    string
  ],
  "defaultRecognitionConfig": {
    object (RecognitionConfig)
  },
  "annotations": {
    string: string,
    ...
  },
  "state": enum (State),
  "createTime": string,
  "updateTime": string,
  "deleteTime": string,
  "expireTime": string,
  "etag": string,
  "reconciling": boolean,
  "kmsKeyName": string,
  "kmsKeyVersionName": string
}
Kolom
name

string

Hanya output. Pengenal. Nama resource Pengenal. Format projects/{project}/locations/{location}/recognizers/{recognizer}.

uid

string

Hanya output. ID unik yang ditetapkan sistem untuk Pengenal.

displayName

string

Nama yang dapat ditetapkan pengguna dan dapat dibaca manusia untuk Pengenal. Harus terdiri dari 63 karakter atau kurang.

model
(deprecated)

string

Opsional. Kolom ini sekarang tidak digunakan lagi. Pilih kolom model dalam pesan RecognitionConfig.

Model yang akan digunakan untuk permintaan pengenalan. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik.

Panduan untuk memilih model yang akan digunakan dapat ditemukan di Dokumentasi Model Transkripsi. Model yang didukung di setiap wilayah dapat ditemukan di Tabel Model yang Didukung.

languageCodes[]
(deprecated)

string

Opsional. Kolom ini sekarang tidak digunakan lagi. Pilih kolom languageCodes dalam pesan RecognitionConfig.

Bahasa audio yang disediakan sebagai tag bahasa BCP-47.

Bahasa yang didukung untuk setiap model tercantum dalam Tabel Model yang Didukung.

Jika bahasa tambahan disediakan, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi pada audio. Saat Anda membuat atau memperbarui Pengenal, nilai ini akan disimpan dalam bentuk BCP-47 yang dinormalkan. Misalnya, "en-us" disimpan sebagai "en-US".

defaultRecognitionConfig

object (RecognitionConfig)

Konfigurasi default yang akan digunakan untuk permintaan dengan Pengenal ini. Ini dapat ditimpa oleh konfigurasi inline di kolom RecognizeRequest.config.

annotations

map (key: string, value: string)

Memungkinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Kunci dan nilai masing-masing harus terdiri dari 63 karakter atau kurang. Maksimal 100 anotasi.

Objek yang berisi daftar pasangan "key": value. Contoh: { "name": "wrench", "mass": "1.3kg", "count": "3" }.

state

enum (State)

Hanya output. Status siklus proses Pengenal.

createTime

string (Timestamp format)

Hanya output. Waktu pembuatan.

Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit fraksional. Contoh: "2014-10-02T15:01:23Z" dan "2014-10-02T15:01:23.045123456Z".

updateTime

string (Timestamp format)

Hanya output. Terakhir kali Pengenal ini diubah.

Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit fraksional. Contoh: "2014-10-02T15:01:23Z" dan "2014-10-02T15:01:23.045123456Z".

deleteTime

string (Timestamp format)

Hanya output. Waktu saat Pengenal ini diminta untuk dihapus.

Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit fraksional. Contoh: "2014-10-02T15:01:23Z" dan "2014-10-02T15:01:23.045123456Z".

expireTime

string (Timestamp format)

Hanya output. Waktu Pengenal ini akan dihapus permanen.

Stempel waktu dalam format RFC3339 UTC "Zulu", dengan resolusi nanodetik dan maksimal sembilan digit fraksional. Contoh: "2014-10-02T15:01:23Z" dan "2014-10-02T15:01:23.045123456Z".

etag

string

Hanya output. Checksum ini dihitung oleh server berdasarkan nilai {i>field<i} lain. Ini dapat dikirim pada saat permintaan pembaruan, pembatalan penghapusan, dan penghapusan untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan.

reconciling

boolean

Hanya output. Apakah Pengenal ini sedang dalam proses diperbarui atau tidak.

kmsKeyName

string

Hanya output. Nama kunci KMS yang digunakan untuk mengenkripsi Pengenal. Format yang diharapkan adalah projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}.

kmsKeyVersionName

string

Hanya output. Nama versi kunci KMS yang digunakan untuk mengenkripsi Pengenal. Format yang diharapkan adalah projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}.

RecognitionConfig

Memberikan informasi kepada Pengenal yang menentukan cara memproses permintaan pengenalan.

Representasi JSON
{
  "model": string,
  "languageCodes": [
    string
  ],
  "features": {
    object (RecognitionFeatures)
  },
  "adaptation": {
    object (SpeechAdaptation)
  },
  "transcriptNormalization": {
    object (TranscriptNormalization)
  },

  // Union field decoding_config can be only one of the following:
  "autoDecodingConfig": {
    object (AutoDetectDecodingConfig)
  },
  "explicitDecodingConfig": {
    object (ExplicitDecodingConfig)
  }
  // End of list of possible types for union field decoding_config.
}
Kolom
model

string

Opsional. Model yang akan digunakan untuk permintaan pengenalan. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik.

Panduan untuk memilih model yang akan digunakan dapat ditemukan di Dokumentasi Model Transkripsi. Model yang didukung di setiap wilayah dapat ditemukan di Tabel Model yang Didukung.

languageCodes[]

string

Opsional. Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Tag bahasa dinormalkan menjadi BCP-47 sebelum digunakan, misalnya "en-us" menjadi "en-US".

Bahasa yang didukung untuk setiap model tercantum dalam Tabel Model yang Didukung.

Jika bahasa tambahan disediakan, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi pada audio.

features

object (RecognitionFeatures)

Fitur pengenalan ucapan untuk mengaktifkan.

adaptation

object (SpeechAdaptation)

Konteks adaptasi ucapan yang memberikan bobot prediksi pengenal untuk kata dan frasa tertentu.

transcriptNormalization

object (TranscriptNormalization)

Opsional. Gunakan normalisasi transkripsi untuk mengganti bagian transkrip secara otomatis dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial stabil (stabilitas > 0,8) dan transkrip akhir.

Kolom union decoding_config. Parameter dekode untuk audio yang dikirim untuk pengenalan. decoding_config hanya ada berupa salah satu diantara berikut:
autoDecodingConfig

object (AutoDetectDecodingConfig)

Mendeteksi parameter decoding secara otomatis. Lebih disarankan untuk format yang didukung.

explicitDecodingConfig

object (ExplicitDecodingConfig)

Parameter decoding yang ditentukan secara eksplisit. Wajib jika menggunakan audio PCM tanpa header (linear16, mulaw, alaw).

AutoDetectDecodingConfig

Jenis ini tidak memiliki kolom.

Parameter decoding terdeteksi secara otomatis. Didukung untuk encoding berikut:

  • WAV_LINEAR16: Sampel PCM little-endian 16-bit yang ditandatangani dalam container WAV.

  • WAV_MULAW: Sampel mulaw yang digabungkan 8-bit dalam container WAV.

  • WAV_ALAW: Sampel alaw yang digabungkan 8-bit dalam penampung WAV.

  • RFC4867_5_AMR: Frame AMR dengan header rfc4867.5.

  • RFC4867_5_AMRWB: Frame AMR-WB dengan header rfc4867.5.

  • FLAC: Bingkai FLAC dalam format container "FLAC native".

  • MP3: Bingkai audio MPEG dengan metadata ID3 opsional (diabaikan).

  • OGG_OPUS: Bingkai audio Opus dalam penampung Ogg.

  • WEBM_OPUS: Bingkai audio Opus dalam penampung WebM.

  • M4A: Format audio M4A.

ExplicitDecodingConfig

Parameter decoding yang ditentukan secara eksplisit.

Representasi JSON
{
  "encoding": enum (AudioEncoding),
  "sampleRateHertz": integer,
  "audioChannelCount": integer
}
Kolom
encoding

enum (AudioEncoding)

Wajib. Encoding data audio yang dikirim untuk pengenalan.

sampleRateHertz

integer

Frekuensi sampel data audio dalam Hertz yang dikirim untuk pengenalan. Nilai yang valid adalah: 8000-48000. 16.000 sudah optimal. Untuk hasil terbaik, setel frekuensi sampling sumber audio ke 16.000 Hz. Jika tidak memungkinkan, gunakan frekuensi sampel native dari sumber audio (bukan pengambilan ulang sampel). Didukung untuk encoding berikut:

  • LINEAR16: Sampel PCM kecil 16-bit tanpa header yang ditandatangani.

  • MULAW: Sampel mulaw yang digabungkan tanpa header 8-bit.

  • ALAW: Sampel alaw tanpa header 8-bit.

audioChannelCount

integer

Jumlah channel yang ada dalam data audio yang dikirim untuk pengenalan. Didukung untuk encoding berikut:

  • LINEAR16: Sampel PCM kecil 16-bit tanpa header yang ditandatangani.

  • MULAW: Sampel mulaw yang digabungkan tanpa header 8-bit.

  • ALAW: Sampel alaw tanpa header 8-bit.

Nilai maksimum yang diizinkan adalah 8.

AudioEncoding

Encoding data audio yang didukung.

Enum
AUDIO_ENCODING_UNSPECIFIED Nilai default. Nilai ini tidak digunakan.
LINEAR16 Sampel PCM kecil 16-bit tanpa header yang ditandatangani.
MULAW Sampel mulaw yang digabungkan 8-bit header.
ALAW Sampel alaw tanpa header 8-bit.

RecognitionFeatures

Fitur pengenalan yang tersedia.

Representasi JSON
{
  "profanityFilter": boolean,
  "enableWordTimeOffsets": boolean,
  "enableWordConfidence": boolean,
  "enableAutomaticPunctuation": boolean,
  "enableSpokenPunctuation": boolean,
  "enableSpokenEmojis": boolean,
  "multiChannelMode": enum (MultiChannelMode),
  "diarizationConfig": {
    object (SpeakerDiarizationConfig)
  },
  "maxAlternatives": integer
}
Kolom
profanityFilter

boolean

Jika disetel ke true, server akan mencoba memfilter kata-kata tidak sopan, mengganti semua kecuali karakter awal di setiap kata yang difilter dengan tanda bintang, misalnya, "f***". Jika ditetapkan ke false atau dihapus, kata-kata tidak sopan tidak akan difilter.

enableWordTimeOffsets

boolean

Jika true, hasil teratas akan menyertakan daftar kata serta offset waktu mulai dan berakhir (stempel waktu) untuk kata tersebut. Jika false, tidak ada informasi offset waktu tingkat kata yang ditampilkan. Defaultnya adalah false.

enableWordConfidence

boolean

Jika true, hasil teratas akan menyertakan daftar kata dan keyakinan untuk kata tersebut. Jika false, tidak ada informasi keyakinan tingkat kata yang ditampilkan. Defaultnya adalah false.

enableAutomaticPunctuation

boolean

Jika true, menambahkan tanda baca ke hipotesis hasil pengenalan. Fitur ini hanya tersedia dalam bahasa tertentu. Nilai false default tidak menambahkan tanda baca untuk menghasilkan hipotesis.

enableSpokenPunctuation

boolean

Perilaku tanda baca lisan untuk panggilan. Jika true, mengganti tanda baca lisan dengan simbol yang sesuai dalam permintaan. Misalnya, "bagaimana kamu tanya" menjadi "apa kabar?". Lihat https://cloud.google.com/speech-to-text/docs/spoken-punctuation untuk mendapatkan dukungan. Jika false, tanda baca lisan tidak diganti.

enableSpokenEmojis

boolean

Perilaku emoji lisan untuk panggilan. Jika true, menambahkan format emoji lisan untuk permintaan. Fitur ini akan menggantikan emoji lisan dengan simbol Unicode yang sesuai dalam transkrip akhir. Jika false, emoji lisan tidak akan diganti.

multiChannelMode

enum (MultiChannelMode)

Mode untuk mengenali audio multi-saluran.

diarizationConfig

object (SpeakerDiarizationConfig)

Konfigurasi untuk mengaktifkan pemisahan pembicara dan menetapkan parameter tambahan agar diarisasi lebih sesuai untuk aplikasi Anda. Jika fitur ini diaktifkan, kami akan mengirimkan semua kata dari awal audio sebagai alternatif teratas dalam setiap respons STREAMING berturut-turut. Hal ini dilakukan untuk meningkatkan kualitas tag pembicara karena model kami belajar mengidentifikasi pembicara dalam percakapan dari waktu ke waktu. Untuk permintaan non-streaming, hasil diarisasi hanya akan diberikan di alternatif teratas FINAL SpeechRecognitionResult.

maxAlternatives

integer

Jumlah maksimum hipotesis pengenalan yang akan ditampilkan. Server mungkin menampilkan kurang dari maxAlternatives. Nilai yang valid adalah 0-30. Nilai 0 atau 1 akan menampilkan maksimal satu. Jika dihilangkan, akan menampilkan maksimum satu.

MultiChannelMode

Opsi cara mengenali audio multi-saluran.

Enum
MULTI_CHANNEL_MODE_UNSPECIFIED Nilai default untuk mode multi-saluran. Jika audio berisi beberapa channel, hanya channel pertama yang akan ditranskripsikan; channel lain akan diabaikan.
SEPARATE_RECOGNITION_PER_CHANNEL Jika dipilih, setiap saluran dalam audio yang disediakan akan ditranskripsikan secara terpisah. Opsi ini tidak dapat dipilih jika model yang dipilih adalah latest_short.

SpeakerDiarizationConfig

Konfigurasi untuk mengaktifkan pemisahan pembicara.

Representasi JSON
{
  "minSpeakerCount": integer,
  "maxSpeakerCount": integer
}
Kolom
minSpeakerCount

integer

Wajib. Jumlah minimum pembicara dalam percakapan. Rentang ini memberi Anda lebih banyak fleksibilitas dengan memungkinkan sistem menentukan jumlah speaker yang tepat secara otomatis.

Untuk memperbaiki jumlah speaker yang terdeteksi dalam audio, setel minSpeakerCount = maxSpeakerCount.

maxSpeakerCount

integer

Wajib. Jumlah maksimum pembicara dalam percakapan. Nilai yang valid adalah: 1-6. Harus >= minSpeakerCount. Rentang ini memberi Anda lebih banyak fleksibilitas dengan memungkinkan sistem menentukan jumlah speaker yang tepat secara otomatis.

SpeechAdaptation

Menyediakan "petunjuk" ke pengenal ucapan untuk mendukung kata dan frasa tertentu dalam hasil. PhraseSets dapat ditentukan sebagai resource inline, atau referensi ke resource PhraseSet yang ada.

Representasi JSON
{
  "phraseSets": [
    {
      object (AdaptationPhraseSet)
    }
  ],
  "customClasses": [
    {
      object (CustomClass)
    }
  ]
}
Kolom
phraseSets[]

object (AdaptationPhraseSet)

Daftar PhraseSet inline atau referensi.

customClasses[]

object (CustomClass)

Daftar CustomClass inline. Resource CustomClass yang ada dapat direferensikan langsung di PhraseSet.

AdaptationPhraseSet

PhraseSet pembiasan, yang dapat berupa string yang merujuk nama resource PhraseSets yang ada, atau definisi inline PhraseSet.

Representasi JSON
{

  // Union field value can be only one of the following:
  "phraseSet": string,
  "inlinePhraseSet": {
    object (PhraseSet)
  }
  // End of list of possible types for union field value.
}
Kolom

Kolom union value.

value hanya dapat berupa salah satu dari yang berikut:

phraseSet

string

Nama resource PhraseSet yang ada. Pengguna harus memiliki akses baca ke resource dan resource tidak boleh dihapus.

inlinePhraseSet

object (PhraseSet)

PhraseSet yang ditentukan inline.

TranscriptNormalization

Konfigurasi normalisasi transkripsi. Gunakan normalisasi transkripsi untuk mengganti bagian transkrip secara otomatis dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial stabil (stabilitas > 0,8) dan transkrip akhir.

Representasi JSON
{
  "entries": [
    {
      object (Entry)
    }
  ]
}
Kolom
entries[]

object (Entry)

Daftar entri pengganti. Kami akan melakukan penggantian dengan satu entri pada satu waktu. Misalnya, entri kedua dalam ["cat" => "dog", "mountain cat" => "mountain dog"] tidak akan pernah diterapkan karena kita akan selalu memproses entri pertama sebelumnya. Maksimal 100 entri.

Entri

Konfigurasi penggantian tunggal.

Representasi JSON
{
  "search": string,
  "replace": string,
  "caseSensitive": boolean
}
Kolom
search

string

Apa yang harus diganti. Panjang maksimal adalah 100 karakter.

replace

string

Apa yang harus diganti. Panjang maksimal adalah 100 karakter.

caseSensitive

boolean

Apakah penelusuran peka huruf besar/kecil.

Negara bagian/Provinsi

Kumpulan status yang menentukan siklus proses Pengenal.

Enum
STATE_UNSPECIFIED Nilai default. Nilai ini digunakan jika status dihilangkan.
ACTIVE Pengenal aktif dan siap digunakan.
DELETED Pengenal ini telah dihapus.

Metode

batchRecognize

Melakukan pengenalan ucapan asinkron batch: mengirim permintaan dengan file N audio dan menerima operasi yang berjalan lama yang dapat di-polling untuk mengetahui kapan transkripsi selesai.

create

Membuat Recognizer.

delete

Menghapus Recognizer.

get

Menampilkan Recognizer yang diminta.

list

Pengenal Daftar.

patch

Mengupdate Recognizer.

recognize

Melakukan pengenalan Ucapan sinkron: menerima hasil setelah semua audio dikirim dan diproses.

undelete

Membatalkan penghapusan Recognizer.