- Risorsa: riconoscimento
- RecognitionConfig
- AutoDetectDecodingConfig
- ExplicitDecodingConfig
- AudioEncoding
- RecognitionFeatures
- MultiChannelMode
- SpeakerDiarizationConfig
- SpeechAdaptation
- AdaptationPhraseSet
- TranscriptNormalization
- Voce
- Stato
- Metodi
Risorsa: Riconoscimento
Un messaggio del riconoscimento. Archivia la configurazione del riconoscimento e i metadati.
Rappresentazione JSON |
---|
{ "name": string, "uid": string, "displayName": string, "model": string, "languageCodes": [ string ], "defaultRecognitionConfig": { object ( |
Campi | |
---|---|
name |
Solo output. Identificatore. Il nome della risorsa del riconoscimento. Formato: |
uid |
Solo output. Identificatore univoco assegnato dal sistema per il riconoscimento. |
displayName |
Nome leggibile e configurabile dall'utente per il riconoscimento. Deve avere una lunghezza massima di 63 caratteri. |
model |
Facoltativo. Questo campo è stato ritirato. Preferisci il campo Quale modello utilizzare per le richieste di riconoscimento. Seleziona il modello più adatto al tuo dominio per ottenere risultati ottimali. Le indicazioni per la scelta del modello da utilizzare sono disponibili nella documentazione sui modelli di trascrizione, mentre i modelli supportati in ogni regione sono disponibili nella tabella dei modelli supportati. |
languageCodes[] |
Facoltativo. Questo campo è stato ritirato. Preferisci il campo La lingua dell'audio fornito sotto forma di tag lingua BCP-47. Le lingue supportate per ogni modello sono elencate nella Tabella dei modelli supportati. Se vengono fornite altre lingue, il risultato del riconoscimento conterrà il riconoscimento nella lingua più probabile rilevata. Il risultato del riconoscimento includerà il tag della lingua rilevata nell'audio. Quando crei o aggiorni un riconoscimento, questi valori vengono memorizzati nel formato BCP-47 normalizzato. Ad esempio, "en-us" viene memorizzato come "en-US". |
defaultRecognitionConfig |
Configurazione predefinita da utilizzare per le richieste con questo riconoscimento. Può essere sovrascritta dalla configurazione incorporata nel campo |
annotations |
Consente agli utenti di archiviare piccole quantità di dati arbitrari. Sia la chiave che il valore devono contenere al massimo 63 caratteri ciascuno. Massimo 100 annotazioni. Un oggetto contenente un elenco di |
state |
Solo output. Lo stato del ciclo di vita del riconoscimento. |
createTime |
Solo output. Data/ora creazione. Un timestamp in formato "Zulu" RFC3339 UTC, con risoluzione in nanosecondi e fino a nove cifre frazionarie. Esempi: |
updateTime |
Solo output. L'ultima volta che questo riconoscimento è stato modificato. Un timestamp in formato "Zulu" RFC3339 UTC, con risoluzione in nanosecondi e fino a nove cifre frazionarie. Esempi: |
deleteTime |
Solo output. La data e l'ora in cui è stata richiesta l'eliminazione di questo riconoscimento. Un timestamp in formato "Zulu" RFC3339 UTC, con risoluzione in nanosecondi e fino a nove cifre frazionarie. Esempi: |
expireTime |
Solo output. La data in cui il riconoscimento verrà eliminato definitivamente. Un timestamp in formato "Zulu" RFC3339 UTC, con risoluzione in nanosecondi e fino a nove cifre frazionarie. Esempi: |
etag |
Solo output. Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere. |
reconciling |
Solo output. Indica se il riconoscimento è in fase di aggiornamento. |
kmsKeyName |
Solo output. Il nome della chiave KMS con cui è criptato il riconoscimento. Il formato previsto è |
kmsKeyVersionName |
Solo output. Il nome della versione della chiave KMS con cui è criptato il riconoscimento. Il formato previsto è |
RecognitionConfig
Fornisce al riconoscimento informazioni come elaborare la richiesta di riconoscimento.
Rappresentazione JSON |
---|
{ "model": string, "languageCodes": [ string ], "features": { object ( |
Campi | |
---|---|
model |
Facoltativo. Quale modello utilizzare per le richieste di riconoscimento. Seleziona il modello più adatto al tuo dominio per ottenere risultati ottimali. Le indicazioni per la scelta del modello da utilizzare sono disponibili nella documentazione sui modelli di trascrizione, mentre i modelli supportati in ogni regione sono disponibili nella tabella dei modelli supportati. |
languageCodes[] |
Facoltativo. La lingua dell'audio fornito sotto forma di tag lingua BCP-47. I tag della lingua sono normalizzati in BCP-47 prima di essere utilizzati, ad esempio "en-us" diventa "en-US". Le lingue supportate per ogni modello sono elencate nella Tabella dei modelli supportati. Se vengono fornite altre lingue, il risultato del riconoscimento conterrà il riconoscimento nella lingua più probabile rilevata. Il risultato del riconoscimento includerà il tag della lingua rilevata nell'audio. |
features |
Funzionalità di riconoscimento vocale da attivare. |
adaptation |
Contesto di adattamento vocale che valuta le previsioni del riconoscimento per parole e frasi specifiche. |
transcriptNormalization |
Facoltativo. Usa la normalizzazione della trascrizione per sostituire automaticamente parti della trascrizione con frasi di tua scelta. Per StreamingRiconoscimento, questa normalizzazione si applica solo alle trascrizioni parziali stabili (stabilità > 0,8) e alle trascrizioni finali. |
Campo di unione decoding_config . Decodifica dei parametri per l'audio inviato per il riconoscimento. decoding_config può essere solo uno dei seguenti: |
|
autoDecodingConfig |
Rileva automaticamente i parametri di decodifica. Preferito per i formati supportati. |
explicitDecodingConfig |
Parametri di decodifica specificati esplicitamente. Obbligatorio se utilizzi un audio PCM senza header (linear16, mulaw, alaw). |
AutoDetectDecodingConfig
Questo tipo non contiene campi.
Parametri di decodifica rilevati automaticamente. Supportate per le seguenti codifiche:
WAV_LINEAR16: campioni PCM small-endian con firma a 16 bit in un container WAV.
WAV_MULAW: campioni di mulaw combinati a 8 bit in un container WAV.
WAV_ALAW: campioni alaw compandati a 8 bit in un container WAV.
RFC4867_5_AMR: frame AMR con intestazione rfc4867.5.
RFC4867_5_AMRWB: frame AMR-WB con intestazione rfc4867.5.
FLAC: frame FLAC nel formato container "FLAC nativo".
MP3: frame audio MPEG con metadati ID3 facoltativi (ignorati).
OGG_OPUS: frame audio Opus in un container Ogg.
WEBM_OPUS: frame audio Opus in un contenitore WebM.
MP4_AAC: frame audio AAC in un contenitore MP4.
M4A_AAC: fotogrammi audio AAC in un container M4A.
MOV_AAC: frame audio AAC in un container MOV.
ExplicitDecodingConfig
Parametri di decodifica specificati esplicitamente.
Rappresentazione JSON |
---|
{
"encoding": enum ( |
Campi | |
---|---|
encoding |
Obbligatorio. Codifica dei dati audio inviati per il riconoscimento. |
sampleRateHertz |
Frequenza di campionamento in Hertz dei dati audio inviati per il riconoscimento. I valori validi sono: 8000-48000. 16.000 è ottimale. Per ottenere risultati ottimali, imposta la frequenza di campionamento della sorgente audio su 16000 Hz. Se non è possibile, utilizza la frequenza di campionamento nativa della sorgente audio (anziché il ricampionamento). Supportate per le seguenti codifiche:
|
audioChannelCount |
Numero di canali presenti nei dati audio inviati per il riconoscimento. Supportate per le seguenti codifiche:
Il valore massimo consentito è 8. |
AudioEncoding
Codifiche dei dati audio supportate.
Enum | |
---|---|
AUDIO_ENCODING_UNSPECIFIED |
Valore predefinito. Questo valore non è utilizzato. |
LINEAR16 |
Campioni PCM small-endian firmati a 16 bit senza intestazioni. |
MULAW |
Campioni di mulaw complessi a 8 bit senza intestazioni. |
ALAW |
Campioni alaw compandati a 8 bit senza intestazioni. |
RecognitionFeatures
Funzioni di riconoscimento disponibili.
Rappresentazione JSON |
---|
{ "profanityFilter": boolean, "enableWordTimeOffsets": boolean, "enableWordConfidence": boolean, "enableAutomaticPunctuation": boolean, "enableSpokenPunctuation": boolean, "enableSpokenEmojis": boolean, "multiChannelMode": enum ( |
Campi | |
---|---|
profanityFilter |
Se viene impostato su |
enableWordTimeOffsets |
Se |
enableWordConfidence |
Se |
enableAutomaticPunctuation |
Se |
enableSpokenPunctuation |
Il comportamento della punteggiatura pronunciata per la chiamata. Se |
enableSpokenEmojis |
Il comportamento delle emoji pronunciate per la chiamata. Se |
multiChannelMode |
Modalità per riconoscere l'audio multicanale. |
diarizationConfig |
Configurazione per abilitare la diarizzazione degli speaker e impostare parametri aggiuntivi per renderla più adatta alla tua applicazione. Quando questa opzione è abilitata, inviamo tutte le parole dall'inizio dell'audio per l'alternativa superiore in ogni risposta STREAMING consecutive. Ciò viene fatto per migliorare i nostri tag speaker man mano che i nostri modelli imparano a identificare i relatori nella conversazione nel corso del tempo. Per le richieste non in streaming, i risultati della diarizzazione saranno forniti solo nell'alternativa superiore di FINAL SpeechRecognitionResult. |
maxAlternatives |
Numero massimo di ipotesi di riconoscimento da restituire. Il server potrebbe restituire meno di |
MultiChannelMode
Opzioni per riconoscere l'audio multicanale.
Enum | |
---|---|
MULTI_CHANNEL_MODE_UNSPECIFIED |
Valore predefinito per la modalità multicanale. Se l'audio contiene più canali, verrà trascritto solo il primo canale; gli altri verranno ignorati. |
SEPARATE_RECOGNITION_PER_CHANNEL |
Se questa opzione è selezionata, ogni canale nell'audio fornito viene trascritto in modo indipendente. Questa opzione non può essere selezionata se il valore model selezionato è latest_short . |
SpeakerDiarizationConfig
Configurazione per abilitare la diarizzazione dello speaker.
Rappresentazione JSON |
---|
{ "minSpeakerCount": integer, "maxSpeakerCount": integer } |
Campi | |
---|---|
minSpeakerCount |
Obbligatorio. Numero minimo di partecipanti alla conversazione. Questo intervallo offre una maggiore flessibilità, consentendo al sistema di determinare automaticamente il numero corretto di speaker. Per correggere il numero di speaker rilevati nell'audio, imposta |
maxSpeakerCount |
Obbligatorio. Numero massimo di partecipanti alla conversazione. I valori validi sono: 1-6. Deve essere >= |
SpeechAdaptation
Fornisce "suggerimenti" al riconoscimento vocale per favorire parole e frasi specifiche nei risultati. I PhraseSet possono essere specificati come risorsa in linea o come riferimento a una risorsa PhraseSet esistente.
Rappresentazione JSON |
---|
{ "phraseSets": [ { object ( |
Campi | |
---|---|
phraseSets[] |
Un elenco di PhraseSet in linea o a cui fa riferimento. |
customClasses[] |
Un elenco di classi personalizzate in linea. È possibile fare riferimento direttamente alle risorse CustomClass esistenti in un PhraseSet. |
AdaptationPhraseSet
Un PhraseSet con differenziazione, che può essere una stringa che fa riferimento al nome di una risorsa PhraseSets esistente o una definizione in linea di un PhraseSet.
Rappresentazione JSON |
---|
{ // Union field |
Campi | |
---|---|
Campo di unione
|
|
phraseSet |
Il nome di una risorsa PhraseSet esistente. L'utente deve avere accesso in lettura alla risorsa e questa non deve essere eliminata. |
inlinePhraseSet |
Un PhraseSet definito in linea. |
TranscriptNormalization
Configurazione di normalizzazione della trascrizione. Usa la normalizzazione della trascrizione per sostituire automaticamente parti della trascrizione con frasi di tua scelta. Per StreamingRiconoscimento, questa normalizzazione si applica solo alle trascrizioni parziali stabili (stabilità > 0,8) e alle trascrizioni finali.
Rappresentazione JSON |
---|
{
"entries": [
{
object ( |
Campi | |
---|---|
entries[] |
Un elenco di voci sostitutive. Effettueremo la sostituzione con una voce alla volta. Ad esempio, la seconda voce in ["gatto" => "cane", "gatto di montagna" => "cane di montagna"] non verrà mai applicata perché elaboreremo sempre la prima voce precedente. Massimo 100 voci. |
Voce
Un'unica configurazione sostitutiva.
Rappresentazione JSON |
---|
{ "search": string, "replace": string, "caseSensitive": boolean } |
Campi | |
---|---|
search |
Cosa sostituire. La lunghezza massima è di 100 caratteri. |
replace |
Con cosa sostituire. La lunghezza massima è di 100 caratteri. |
caseSensitive |
Se la ricerca è sensibile alle maiuscole. |
Stato
Insieme di stati che definiscono il ciclo di vita di un riconoscimento.
Enum | |
---|---|
STATE_UNSPECIFIED |
Il valore predefinito. Questo valore viene utilizzato se lo stato viene omesso. |
ACTIVE |
Il riconoscimento è attivo e pronto per l'uso. |
DELETED |
Questo riconoscimento è stato eliminato. |
Metodi |
|
---|---|
|
Esegue il riconoscimento vocale asincrono in batch: invia una richiesta con N file audio e ricevi un'operazione a lunga esecuzione che può essere sottoposta a polling per vedere quando le trascrizioni sono terminate. |
|
Crea un Recognizer . |
|
Elimina Recognizer . |
|
Restituisce il valore Recognizer richiesto. |
|
Elenca i riconoscimenti. |
|
Aggiorna il Recognizer . |
|
Esegue il riconoscimento vocale sincrono: ricevi i risultati dopo che tutto l'audio è stato inviato ed elaborato. |
|
Annulla l'eliminazione di Recognizer . |