REST Resource: projects.locations.recognizers

Risorsa: Riconoscimento

Un messaggio del riconoscimento. Archivia la configurazione del riconoscimento e i metadati.

Rappresentazione JSON
{
  "name": string,
  "uid": string,
  "displayName": string,
  "model": string,
  "languageCodes": [
    string
  ],
  "defaultRecognitionConfig": {
    object (RecognitionConfig)
  },
  "annotations": {
    string: string,
    ...
  },
  "state": enum (State),
  "createTime": string,
  "updateTime": string,
  "deleteTime": string,
  "expireTime": string,
  "etag": string,
  "reconciling": boolean,
  "kmsKeyName": string,
  "kmsKeyVersionName": string
}
Campi
name

string

Solo output. Identificatore. Il nome della risorsa del riconoscimento. Formato: projects/{project}/locations/{location}/recognizers/{recognizer}.

uid

string

Solo output. Identificatore univoco assegnato dal sistema per il riconoscimento.

displayName

string

Nome leggibile e configurabile dall'utente per il riconoscimento. Deve avere una lunghezza massima di 63 caratteri.

model
(deprecated)

string

Facoltativo. Questo campo è stato ritirato. Preferisci il campo model al messaggio RecognitionConfig.

Quale modello utilizzare per le richieste di riconoscimento. Seleziona il modello più adatto al tuo dominio per ottenere risultati ottimali.

Le indicazioni per la scelta del modello da utilizzare sono disponibili nella documentazione sui modelli di trascrizione, mentre i modelli supportati in ogni regione sono disponibili nella tabella dei modelli supportati.

languageCodes[]
(deprecated)

string

Facoltativo. Questo campo è stato ritirato. Preferisci il campo languageCodes al messaggio RecognitionConfig.

La lingua dell'audio fornito sotto forma di tag lingua BCP-47.

Le lingue supportate per ogni modello sono elencate nella Tabella dei modelli supportati.

Se vengono fornite altre lingue, il risultato del riconoscimento conterrà il riconoscimento nella lingua più probabile rilevata. Il risultato del riconoscimento includerà il tag della lingua rilevata nell'audio. Quando crei o aggiorni un riconoscimento, questi valori vengono memorizzati nel formato BCP-47 normalizzato. Ad esempio, "en-us" viene memorizzato come "en-US".

defaultRecognitionConfig

object (RecognitionConfig)

Configurazione predefinita da utilizzare per le richieste con questo riconoscimento. Può essere sovrascritta dalla configurazione incorporata nel campo RecognizeRequest.config.

annotations

map (key: string, value: string)

Consente agli utenti di archiviare piccole quantità di dati arbitrari. Sia la chiave che il valore devono contenere al massimo 63 caratteri ciascuno. Massimo 100 annotazioni.

Un oggetto contenente un elenco di "key": value coppie. Esempio: { "name": "wrench", "mass": "1.3kg", "count": "3" }.

state

enum (State)

Solo output. Lo stato del ciclo di vita del riconoscimento.

createTime

string (Timestamp format)

Solo output. Data/ora creazione.

Un timestamp in formato "Zulu" RFC3339 UTC, con risoluzione in nanosecondi e fino a nove cifre frazionarie. Esempi: "2014-10-02T15:01:23Z" e "2014-10-02T15:01:23.045123456Z".

updateTime

string (Timestamp format)

Solo output. L'ultima volta che questo riconoscimento è stato modificato.

Un timestamp in formato "Zulu" RFC3339 UTC, con risoluzione in nanosecondi e fino a nove cifre frazionarie. Esempi: "2014-10-02T15:01:23Z" e "2014-10-02T15:01:23.045123456Z".

deleteTime

string (Timestamp format)

Solo output. La data e l'ora in cui è stata richiesta l'eliminazione di questo riconoscimento.

Un timestamp in formato "Zulu" RFC3339 UTC, con risoluzione in nanosecondi e fino a nove cifre frazionarie. Esempi: "2014-10-02T15:01:23Z" e "2014-10-02T15:01:23.045123456Z".

expireTime

string (Timestamp format)

Solo output. La data in cui il riconoscimento verrà eliminato definitivamente.

Un timestamp in formato "Zulu" RFC3339 UTC, con risoluzione in nanosecondi e fino a nove cifre frazionarie. Esempi: "2014-10-02T15:01:23Z" e "2014-10-02T15:01:23.045123456Z".

etag

string

Solo output. Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere.

reconciling

boolean

Solo output. Indica se il riconoscimento è in fase di aggiornamento.

kmsKeyName

string

Solo output. Il nome della chiave KMS con cui è criptato il riconoscimento. Il formato previsto è projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}.

kmsKeyVersionName

string

Solo output. Il nome della versione della chiave KMS con cui è criptato il riconoscimento. Il formato previsto è projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}.

RecognitionConfig

Fornisce al riconoscimento informazioni come elaborare la richiesta di riconoscimento.

Rappresentazione JSON
{
  "model": string,
  "languageCodes": [
    string
  ],
  "features": {
    object (RecognitionFeatures)
  },
  "adaptation": {
    object (SpeechAdaptation)
  },
  "transcriptNormalization": {
    object (TranscriptNormalization)
  },

  // Union field decoding_config can be only one of the following:
  "autoDecodingConfig": {
    object (AutoDetectDecodingConfig)
  },
  "explicitDecodingConfig": {
    object (ExplicitDecodingConfig)
  }
  // End of list of possible types for union field decoding_config.
}
Campi
model

string

Facoltativo. Quale modello utilizzare per le richieste di riconoscimento. Seleziona il modello più adatto al tuo dominio per ottenere risultati ottimali.

Le indicazioni per la scelta del modello da utilizzare sono disponibili nella documentazione sui modelli di trascrizione, mentre i modelli supportati in ogni regione sono disponibili nella tabella dei modelli supportati.

languageCodes[]

string

Facoltativo. La lingua dell'audio fornito sotto forma di tag lingua BCP-47. I tag della lingua sono normalizzati in BCP-47 prima di essere utilizzati, ad esempio "en-us" diventa "en-US".

Le lingue supportate per ogni modello sono elencate nella Tabella dei modelli supportati.

Se vengono fornite altre lingue, il risultato del riconoscimento conterrà il riconoscimento nella lingua più probabile rilevata. Il risultato del riconoscimento includerà il tag della lingua rilevata nell'audio.

features

object (RecognitionFeatures)

Funzionalità di riconoscimento vocale da attivare.

adaptation

object (SpeechAdaptation)

Contesto di adattamento vocale che valuta le previsioni del riconoscimento per parole e frasi specifiche.

transcriptNormalization

object (TranscriptNormalization)

Facoltativo. Usa la normalizzazione della trascrizione per sostituire automaticamente parti della trascrizione con frasi di tua scelta. Per StreamingRiconoscimento, questa normalizzazione si applica solo alle trascrizioni parziali stabili (stabilità > 0,8) e alle trascrizioni finali.

Campo di unione decoding_config. Decodifica dei parametri per l'audio inviato per il riconoscimento. decoding_config può essere solo uno dei seguenti:
autoDecodingConfig

object (AutoDetectDecodingConfig)

Rileva automaticamente i parametri di decodifica. Preferito per i formati supportati.

explicitDecodingConfig

object (ExplicitDecodingConfig)

Parametri di decodifica specificati esplicitamente. Obbligatorio se utilizzi un audio PCM senza header (linear16, mulaw, alaw).

AutoDetectDecodingConfig

Questo tipo non contiene campi.

Parametri di decodifica rilevati automaticamente. Supportate per le seguenti codifiche:

  • WAV_LINEAR16: campioni PCM small-endian con firma a 16 bit in un container WAV.

  • WAV_MULAW: campioni di mulaw combinati a 8 bit in un container WAV.

  • WAV_ALAW: campioni alaw compandati a 8 bit in un container WAV.

  • RFC4867_5_AMR: frame AMR con intestazione rfc4867.5.

  • RFC4867_5_AMRWB: frame AMR-WB con intestazione rfc4867.5.

  • FLAC: frame FLAC nel formato container "FLAC nativo".

  • MP3: frame audio MPEG con metadati ID3 facoltativi (ignorati).

  • OGG_OPUS: frame audio Opus in un container Ogg.

  • WEBM_OPUS: frame audio Opus in un contenitore WebM.

  • MP4_AAC: frame audio AAC in un contenitore MP4.

  • M4A_AAC: fotogrammi audio AAC in un container M4A.

  • MOV_AAC: frame audio AAC in un container MOV.

ExplicitDecodingConfig

Parametri di decodifica specificati esplicitamente.

Rappresentazione JSON
{
  "encoding": enum (AudioEncoding),
  "sampleRateHertz": integer,
  "audioChannelCount": integer
}
Campi
encoding

enum (AudioEncoding)

Obbligatorio. Codifica dei dati audio inviati per il riconoscimento.

sampleRateHertz

integer

Frequenza di campionamento in Hertz dei dati audio inviati per il riconoscimento. I valori validi sono: 8000-48000. 16.000 è ottimale. Per ottenere risultati ottimali, imposta la frequenza di campionamento della sorgente audio su 16000 Hz. Se non è possibile, utilizza la frequenza di campionamento nativa della sorgente audio (anziché il ricampionamento). Supportate per le seguenti codifiche:

  • LINEAR16: Campioni PCM small-endian senza intestazione a 16 bit firmati.

  • MULAW: campioni di mulaw companded senza intestazioni a 8 bit.

  • ALAW: campioni alaw compandati a 8 bit senza intestazioni.

audioChannelCount

integer

Numero di canali presenti nei dati audio inviati per il riconoscimento. Supportate per le seguenti codifiche:

  • LINEAR16: Campioni PCM small-endian senza intestazione a 16 bit firmati.

  • MULAW: campioni di mulaw companded senza intestazioni a 8 bit.

  • ALAW: campioni alaw compandati a 8 bit senza intestazioni.

Il valore massimo consentito è 8.

AudioEncoding

Codifiche dei dati audio supportate.

Enum
AUDIO_ENCODING_UNSPECIFIED Valore predefinito. Questo valore non è utilizzato.
LINEAR16 Campioni PCM small-endian firmati a 16 bit senza intestazioni.
MULAW Campioni di mulaw complessi a 8 bit senza intestazioni.
ALAW Campioni alaw compandati a 8 bit senza intestazioni.

RecognitionFeatures

Funzioni di riconoscimento disponibili.

Rappresentazione JSON
{
  "profanityFilter": boolean,
  "enableWordTimeOffsets": boolean,
  "enableWordConfidence": boolean,
  "enableAutomaticPunctuation": boolean,
  "enableSpokenPunctuation": boolean,
  "enableSpokenEmojis": boolean,
  "multiChannelMode": enum (MultiChannelMode),
  "diarizationConfig": {
    object (SpeakerDiarizationConfig)
  },
  "maxAlternatives": integer
}
Campi
profanityFilter

boolean

Se viene impostato su true, il server cercherà di escludere il linguaggio volgare, sostituendo con asterischi tutto il carattere iniziale di ogni parola filtrata, ad esempio "f***". Se il criterio viene impostato su false o se omesso, i contenuti in cui il linguaggio volgare non viene applicato non vengono filtrati.

enableWordTimeOffsets

boolean

Se true, il risultato principale include un elenco di parole e i relativi timestamp (timestamp) di inizio e di fine. Se false, non vengono restituite informazioni sullo offset temporale a livello di parola. Il valore predefinito è false.

enableWordConfidence

boolean

Se true, il risultato superiore include un elenco di parole e il livello di confidenza di queste parole. Se false, non vengono restituite informazioni di confidenza a livello di parola. Il valore predefinito è false.

enableAutomaticPunctuation

boolean

Se true, aggiunge la punteggiatura alle ipotesi dei risultati del riconoscimento. Questa funzionalità è disponibile solo in alcune lingue. Il valore predefinito di false non aggiunge punteggiatura alle ipotesi.

enableSpokenPunctuation

boolean

Il comportamento della punteggiatura pronunciata per la chiamata. Se true, sostituisce la punteggiatura pronunciata con i simboli corrispondenti nella richiesta. Ad esempio, "come fai a fare il punto interrogativo" diventa "come stai?". Per assistenza, visita la pagina https://cloud.google.com/speech-to-text/docs/spoken-punctuation. Se false, la punteggiatura pronunciata non viene sostituita.

enableSpokenEmojis

boolean

Il comportamento delle emoji pronunciate per la chiamata. Se true, aggiunge la formattazione di emoji pronunciate per la richiesta. Le emoji pronunciate verranno sostituite con i simboli Unicode corrispondenti nella trascrizione finale. Se false, le emoji pronunciate non vengono sostituite.

multiChannelMode

enum (MultiChannelMode)

Modalità per riconoscere l'audio multicanale.

diarizationConfig

object (SpeakerDiarizationConfig)

Configurazione per abilitare la diarizzazione degli speaker e impostare parametri aggiuntivi per renderla più adatta alla tua applicazione. Quando questa opzione è abilitata, inviamo tutte le parole dall'inizio dell'audio per l'alternativa superiore in ogni risposta STREAMING consecutive. Ciò viene fatto per migliorare i nostri tag speaker man mano che i nostri modelli imparano a identificare i relatori nella conversazione nel corso del tempo. Per le richieste non in streaming, i risultati della diarizzazione saranno forniti solo nell'alternativa superiore di FINAL SpeechRecognitionResult.

maxAlternatives

integer

Numero massimo di ipotesi di riconoscimento da restituire. Il server potrebbe restituire meno di maxAlternatives. I valori validi sono 0-30. Un valore 0 o 1 restituirà un massimo di uno. Se omesso, ne verrà restituito al massimo uno.

MultiChannelMode

Opzioni per riconoscere l'audio multicanale.

Enum
MULTI_CHANNEL_MODE_UNSPECIFIED Valore predefinito per la modalità multicanale. Se l'audio contiene più canali, verrà trascritto solo il primo canale; gli altri verranno ignorati.
SEPARATE_RECOGNITION_PER_CHANNEL Se questa opzione è selezionata, ogni canale nell'audio fornito viene trascritto in modo indipendente. Questa opzione non può essere selezionata se il valore model selezionato è latest_short.

SpeakerDiarizationConfig

Configurazione per abilitare la diarizzazione dello speaker.

Rappresentazione JSON
{
  "minSpeakerCount": integer,
  "maxSpeakerCount": integer
}
Campi
minSpeakerCount

integer

Obbligatorio. Numero minimo di partecipanti alla conversazione. Questo intervallo offre una maggiore flessibilità, consentendo al sistema di determinare automaticamente il numero corretto di speaker.

Per correggere il numero di speaker rilevati nell'audio, imposta minSpeakerCount = maxSpeakerCount.

maxSpeakerCount

integer

Obbligatorio. Numero massimo di partecipanti alla conversazione. I valori validi sono: 1-6. Deve essere >= minSpeakerCount. Questo intervallo offre una maggiore flessibilità, consentendo al sistema di determinare automaticamente il numero corretto di speaker.

SpeechAdaptation

Fornisce "suggerimenti" al riconoscimento vocale per favorire parole e frasi specifiche nei risultati. I PhraseSet possono essere specificati come risorsa in linea o come riferimento a una risorsa PhraseSet esistente.

Rappresentazione JSON
{
  "phraseSets": [
    {
      object (AdaptationPhraseSet)
    }
  ],
  "customClasses": [
    {
      object (CustomClass)
    }
  ]
}
Campi
phraseSets[]

object (AdaptationPhraseSet)

Un elenco di PhraseSet in linea o a cui fa riferimento.

customClasses[]

object (CustomClass)

Un elenco di classi personalizzate in linea. È possibile fare riferimento direttamente alle risorse CustomClass esistenti in un PhraseSet.

AdaptationPhraseSet

Un PhraseSet con differenziazione, che può essere una stringa che fa riferimento al nome di una risorsa PhraseSets esistente o una definizione in linea di un PhraseSet.

Rappresentazione JSON
{

  // Union field value can be only one of the following:
  "phraseSet": string,
  "inlinePhraseSet": {
    object (PhraseSet)
  }
  // End of list of possible types for union field value.
}
Campi

Campo di unione value.

value può essere solo uno dei seguenti:

phraseSet

string

Il nome di una risorsa PhraseSet esistente. L'utente deve avere accesso in lettura alla risorsa e questa non deve essere eliminata.

inlinePhraseSet

object (PhraseSet)

Un PhraseSet definito in linea.

TranscriptNormalization

Configurazione di normalizzazione della trascrizione. Usa la normalizzazione della trascrizione per sostituire automaticamente parti della trascrizione con frasi di tua scelta. Per StreamingRiconoscimento, questa normalizzazione si applica solo alle trascrizioni parziali stabili (stabilità > 0,8) e alle trascrizioni finali.

Rappresentazione JSON
{
  "entries": [
    {
      object (Entry)
    }
  ]
}
Campi
entries[]

object (Entry)

Un elenco di voci sostitutive. Effettueremo la sostituzione con una voce alla volta. Ad esempio, la seconda voce in ["gatto" => "cane", "gatto di montagna" => "cane di montagna"] non verrà mai applicata perché elaboreremo sempre la prima voce precedente. Massimo 100 voci.

Voce

Un'unica configurazione sostitutiva.

Rappresentazione JSON
{
  "search": string,
  "replace": string,
  "caseSensitive": boolean
}
Campi
search

string

Cosa sostituire. La lunghezza massima è di 100 caratteri.

replace

string

Con cosa sostituire. La lunghezza massima è di 100 caratteri.

caseSensitive

boolean

Se la ricerca è sensibile alle maiuscole.

Stato

Insieme di stati che definiscono il ciclo di vita di un riconoscimento.

Enum
STATE_UNSPECIFIED Il valore predefinito. Questo valore viene utilizzato se lo stato viene omesso.
ACTIVE Il riconoscimento è attivo e pronto per l'uso.
DELETED Questo riconoscimento è stato eliminato.

Metodi

batchRecognize

Esegue il riconoscimento vocale asincrono in batch: invia una richiesta con N file audio e ricevi un'operazione a lunga esecuzione che può essere sottoposta a polling per vedere quando le trascrizioni sono terminate.

create

Crea un Recognizer.

delete

Elimina Recognizer.

get

Restituisce il valore Recognizer richiesto.

list

Elenca i riconoscimenti.

patch

Aggiorna il Recognizer.

recognize

Esegue il riconoscimento vocale sincrono: ricevi i risultati dopo che tutto l'audio è stato inviato ed elaborato.

undelete

Annulla l'eliminazione di Recognizer.