Questa pagina è stata tradotta dall'API Cloud Translation.

REST Resource: projects.locations.recognizers

Risorsa: riconoscimento
- Rappresentazione JSON
RecognitionConfig
- Rappresentazione JSON
AutoDetectDecodingConfig
ExplicitDecodingConfig
- Rappresentazione JSON
AudioEncoding
RecognitionFeatures
- Rappresentazione JSON
MultiChannelMode
SpeakerDiarizationConfig
- Rappresentazione JSON
SpeechAdaptation
- Rappresentazione JSON
AdaptationPhraseSet
- Rappresentazione JSON
TranscriptNormalization
- Rappresentazione JSON
Voce
- Rappresentazione JSON
Stato
Metodi

Risorsa: Riconoscimento

Un messaggio del riconoscimento. Archivia la configurazione del riconoscimento e i metadati.

Rappresentazione JSON

Rappresentazione JSON
{ "name": string, "uid": string, "displayName": string, "model": string, "languageCodes": [ string ], "defaultRecognitionConfig": { object (`RecognitionConfig`) }, "annotations": { string: string, ... }, "state": enum (`State`), "createTime": string, "updateTime": string, "deleteTime": string, "expireTime": string, "etag": string, "reconciling": boolean, "kmsKeyName": string, "kmsKeyVersionName": string }

{
  "name": string,
  "uid": string,
  "displayName": string,
  "model": string,
  "languageCodes": [
    string
  ],
  "defaultRecognitionConfig": {
    object (RecognitionConfig)
  },
  "annotations": {
    string: string,
    ...
  },
  "state": enum (State),
  "createTime": string,
  "updateTime": string,
  "deleteTime": string,
  "expireTime": string,
  "etag": string,
  "reconciling": boolean,
  "kmsKeyName": string,
  "kmsKeyVersionName": string
}

Campi
`name`	`string` Solo output. Identificatore. Il nome della risorsa del riconoscimento. Formato: `projects/{project}/locations/{location}/recognizers/{recognizer}`.
`uid`	`string` Solo output. Identificatore univoco assegnato dal sistema per il riconoscimento.
`displayName`	`string` Nome leggibile e configurabile dall'utente per il riconoscimento. Deve avere una lunghezza massima di 63 caratteri.
`model (deprecated)`	`string` Questo elemento è obsoleto. Facoltativo. Questo campo è stato ritirato. Preferisci il campo `model` al messaggio `RecognitionConfig`. Quale modello utilizzare per le richieste di riconoscimento. Seleziona il modello più adatto al tuo dominio per ottenere risultati ottimali. Le indicazioni per la scelta del modello da utilizzare sono disponibili nella documentazione sui modelli di trascrizione, mentre i modelli supportati in ogni regione sono disponibili nella tabella dei modelli supportati.
`languageCodes[] (deprecated)`	`string` Questo elemento è obsoleto. Facoltativo. Questo campo è stato ritirato. Preferisci il campo `languageCodes` al messaggio `RecognitionConfig`. La lingua dell'audio fornito sotto forma di tag lingua BCP-47. Le lingue supportate per ogni modello sono elencate nella Tabella dei modelli supportati. Se vengono fornite altre lingue, il risultato del riconoscimento conterrà il riconoscimento nella lingua più probabile rilevata. Il risultato del riconoscimento includerà il tag della lingua rilevata nell'audio. Quando crei o aggiorni un riconoscimento, questi valori vengono memorizzati nel formato BCP-47 normalizzato. Ad esempio, "en-us" viene memorizzato come "en-US".
`defaultRecognitionConfig`	`object (RecognitionConfig)` Configurazione predefinita da utilizzare per le richieste con questo riconoscimento. Può essere sovrascritta dalla configurazione incorporata nel campo `RecognizeRequest.config`.
`annotations`	`map (key: string, value: string)` Consente agli utenti di archiviare piccole quantità di dati arbitrari. Sia la chiave che il valore devono contenere al massimo 63 caratteri ciascuno. Massimo 100 annotazioni. Un oggetto contenente un elenco di `"key": value` coppie. Esempio: `{ "name": "wrench", "mass": "1.3kg", "count": "3" }`.
`state`	`enum (State)` Solo output. Lo stato del ciclo di vita del riconoscimento.
`createTime`	`string (Timestamp format)` Solo output. Data/ora creazione. Un timestamp in formato "Zulu" RFC3339 UTC, con risoluzione in nanosecondi e fino a nove cifre frazionarie. Esempi: `"2014-10-02T15:01:23Z"` e `"2014-10-02T15:01:23.045123456Z"`.
`updateTime`	`string (Timestamp format)` Solo output. L'ultima volta che questo riconoscimento è stato modificato. Un timestamp in formato "Zulu" RFC3339 UTC, con risoluzione in nanosecondi e fino a nove cifre frazionarie. Esempi: `"2014-10-02T15:01:23Z"` e `"2014-10-02T15:01:23.045123456Z"`.
`deleteTime`	`string (Timestamp format)` Solo output. La data e l'ora in cui è stata richiesta l'eliminazione di questo riconoscimento. Un timestamp in formato "Zulu" RFC3339 UTC, con risoluzione in nanosecondi e fino a nove cifre frazionarie. Esempi: `"2014-10-02T15:01:23Z"` e `"2014-10-02T15:01:23.045123456Z"`.
`expireTime`	`string (Timestamp format)` Solo output. La data in cui il riconoscimento verrà eliminato definitivamente. Un timestamp in formato "Zulu" RFC3339 UTC, con risoluzione in nanosecondi e fino a nove cifre frazionarie. Esempi: `"2014-10-02T15:01:23Z"` e `"2014-10-02T15:01:23.045123456Z"`.
`etag`	`string` Solo output. Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere.
`reconciling`	`boolean` Solo output. Indica se il riconoscimento è in fase di aggiornamento.
`kmsKeyName`	`string` Solo output. Il nome della chiave KMS con cui è criptato il riconoscimento. Il formato previsto è `projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}`.
`kmsKeyVersionName`	`string` Solo output. Il nome della versione della chiave KMS con cui è criptato il riconoscimento. Il formato previsto è `projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}`.

RecognitionConfig

Fornisce al riconoscimento informazioni come elaborare la richiesta di riconoscimento.

Rappresentazione JSON

Rappresentazione JSON
{ "model": string, "languageCodes": [ string ], "features": { object (`RecognitionFeatures`) }, "adaptation": { object (`SpeechAdaptation`) }, "transcriptNormalization": { object (`TranscriptNormalization`) }, // Union field `decoding_config` can be only one of the following: "autoDecodingConfig": { object (`AutoDetectDecodingConfig`) }, "explicitDecodingConfig": { object (`ExplicitDecodingConfig`) } // End of list of possible types for union field `decoding_config`. }

{
  "model": string,
  "languageCodes": [
    string
  ],
  "features": {
    object (RecognitionFeatures)
  },
  "adaptation": {
    object (SpeechAdaptation)
  },
  "transcriptNormalization": {
    object (TranscriptNormalization)
  },

  // Union field decoding_config can be only one of the following:
  "autoDecodingConfig": {
    object (AutoDetectDecodingConfig)
  },
  "explicitDecodingConfig": {
    object (ExplicitDecodingConfig)
  }
  // End of list of possible types for union field decoding_config.
}

Campi
`model`	`string` Facoltativo. Quale modello utilizzare per le richieste di riconoscimento. Seleziona il modello più adatto al tuo dominio per ottenere risultati ottimali. Le indicazioni per la scelta del modello da utilizzare sono disponibili nella documentazione sui modelli di trascrizione, mentre i modelli supportati in ogni regione sono disponibili nella tabella dei modelli supportati.
`languageCodes[]`	`string` Facoltativo. La lingua dell'audio fornito sotto forma di tag lingua BCP-47. I tag della lingua sono normalizzati in BCP-47 prima di essere utilizzati, ad esempio "en-us" diventa "en-US". Le lingue supportate per ogni modello sono elencate nella Tabella dei modelli supportati. Se vengono fornite altre lingue, il risultato del riconoscimento conterrà il riconoscimento nella lingua più probabile rilevata. Il risultato del riconoscimento includerà il tag della lingua rilevata nell'audio.
`features`	`object (RecognitionFeatures)` Funzionalità di riconoscimento vocale da attivare.
`adaptation`	`object (SpeechAdaptation)` Contesto di adattamento vocale che valuta le previsioni del riconoscimento per parole e frasi specifiche.
`transcriptNormalization`	`object (TranscriptNormalization)` Facoltativo. Usa la normalizzazione della trascrizione per sostituire automaticamente parti della trascrizione con frasi di tua scelta. Per StreamingRiconoscimento, questa normalizzazione si applica solo alle trascrizioni parziali stabili (stabilità > 0,8) e alle trascrizioni finali.
Campo di unione `decoding_config`. Decodifica dei parametri per l'audio inviato per il riconoscimento. `decoding_config` può essere solo uno dei seguenti:
`autoDecodingConfig`	`object (AutoDetectDecodingConfig)` Rileva automaticamente i parametri di decodifica. Preferito per i formati supportati.
`explicitDecodingConfig`	`object (ExplicitDecodingConfig)` Parametri di decodifica specificati esplicitamente. Obbligatorio se utilizzi un audio PCM senza header (linear16, mulaw, alaw).

AutoDetectDecodingConfig

Questo tipo non contiene campi.

Parametri di decodifica rilevati automaticamente. Supportate per le seguenti codifiche:

WAV_LINEAR16: campioni PCM small-endian con firma a 16 bit in un container WAV.
WAV_MULAW: campioni di mulaw combinati a 8 bit in un container WAV.
WAV_ALAW: campioni alaw compandati a 8 bit in un container WAV.
RFC4867_5_AMR: frame AMR con intestazione rfc4867.5.
RFC4867_5_AMRWB: frame AMR-WB con intestazione rfc4867.5.
FLAC: frame FLAC nel formato container "FLAC nativo".
MP3: frame audio MPEG con metadati ID3 facoltativi (ignorati).
OGG_OPUS: frame audio Opus in un container Ogg.
WEBM_OPUS: frame audio Opus in un contenitore WebM.
MP4_AAC: frame audio AAC in un contenitore MP4.
M4A_AAC: fotogrammi audio AAC in un container M4A.
MOV_AAC: frame audio AAC in un container MOV.

ExplicitDecodingConfig

Parametri di decodifica specificati esplicitamente.

Rappresentazione JSON
{ "encoding": enum (`AudioEncoding`), "sampleRateHertz": integer, "audioChannelCount": integer }

Campi

Campi
`encoding`	`enum (AudioEncoding)` Obbligatorio. Codifica dei dati audio inviati per il riconoscimento.
`sampleRateHertz`	`integer` Frequenza di campionamento in Hertz dei dati audio inviati per il riconoscimento. I valori validi sono: 8000-48000. 16.000 è ottimale. Per ottenere risultati ottimali, imposta la frequenza di campionamento della sorgente audio su 16000 Hz. Se non è possibile, utilizza la frequenza di campionamento nativa della sorgente audio (anziché il ricampionamento). Supportate per le seguenti codifiche: LINEAR16: Campioni PCM small-endian senza intestazione a 16 bit firmati. MULAW: campioni di mulaw companded senza intestazioni a 8 bit. ALAW: campioni alaw compandati a 8 bit senza intestazioni.
`audioChannelCount`	`integer` Numero di canali presenti nei dati audio inviati per il riconoscimento. Supportate per le seguenti codifiche: LINEAR16: Campioni PCM small-endian senza intestazione a 16 bit firmati. MULAW: campioni di mulaw companded senza intestazioni a 8 bit. ALAW: campioni alaw compandati a 8 bit senza intestazioni. Il valore massimo consentito è 8.

encoding

enum (AudioEncoding)

Obbligatorio. Codifica dei dati audio inviati per il riconoscimento.

sampleRateHertz

integer

Frequenza di campionamento in Hertz dei dati audio inviati per il riconoscimento. I valori validi sono: 8000-48000. 16.000 è ottimale. Per ottenere risultati ottimali, imposta la frequenza di campionamento della sorgente audio su 16000 Hz. Se non è possibile, utilizza la frequenza di campionamento nativa della sorgente audio (anziché il ricampionamento). Supportate per le seguenti codifiche:

LINEAR16: Campioni PCM small-endian senza intestazione a 16 bit firmati.
MULAW: campioni di mulaw companded senza intestazioni a 8 bit.
ALAW: campioni alaw compandati a 8 bit senza intestazioni.

audioChannelCount

integer

Numero di canali presenti nei dati audio inviati per il riconoscimento. Supportate per le seguenti codifiche:

LINEAR16: Campioni PCM small-endian senza intestazione a 16 bit firmati.
MULAW: campioni di mulaw companded senza intestazioni a 8 bit.
ALAW: campioni alaw compandati a 8 bit senza intestazioni.

Il valore massimo consentito è 8.

AudioEncoding

Codifiche dei dati audio supportate.

Enum
`AUDIO_ENCODING_UNSPECIFIED`	Valore predefinito. Questo valore non è utilizzato.
`LINEAR16`	Campioni PCM small-endian firmati a 16 bit senza intestazioni.
`MULAW`	Campioni di mulaw complessi a 8 bit senza intestazioni.
`ALAW`	Campioni alaw compandati a 8 bit senza intestazioni.

RecognitionFeatures

Funzioni di riconoscimento disponibili.

Rappresentazione JSON

Rappresentazione JSON
{ "profanityFilter": boolean, "enableWordTimeOffsets": boolean, "enableWordConfidence": boolean, "enableAutomaticPunctuation": boolean, "enableSpokenPunctuation": boolean, "enableSpokenEmojis": boolean, "multiChannelMode": enum (`MultiChannelMode`), "diarizationConfig": { object (`SpeakerDiarizationConfig`) }, "maxAlternatives": integer }

{
  "profanityFilter": boolean,
  "enableWordTimeOffsets": boolean,
  "enableWordConfidence": boolean,
  "enableAutomaticPunctuation": boolean,
  "enableSpokenPunctuation": boolean,
  "enableSpokenEmojis": boolean,
  "multiChannelMode": enum (MultiChannelMode),
  "diarizationConfig": {
    object (SpeakerDiarizationConfig)
  },
  "maxAlternatives": integer
}

Campi
`profanityFilter`	`boolean` Se viene impostato su `true`, il server cercherà di escludere il linguaggio volgare, sostituendo con asterischi tutto il carattere iniziale di ogni parola filtrata, ad esempio "f***". Se il criterio viene impostato su `false` o se omesso, i contenuti in cui il linguaggio volgare non viene applicato non vengono filtrati.
`enableWordTimeOffsets`	`boolean` Se `true`, il risultato principale include un elenco di parole e i relativi timestamp (timestamp) di inizio e di fine. Se `false`, non vengono restituite informazioni sullo offset temporale a livello di parola. Il valore predefinito è `false`.
`enableWordConfidence`	`boolean` Se `true`, il risultato superiore include un elenco di parole e il livello di confidenza di queste parole. Se `false`, non vengono restituite informazioni di confidenza a livello di parola. Il valore predefinito è `false`.
`enableAutomaticPunctuation`	`boolean` Se `true`, aggiunge la punteggiatura alle ipotesi dei risultati del riconoscimento. Questa funzionalità è disponibile solo in alcune lingue. Il valore predefinito di `false` non aggiunge punteggiatura alle ipotesi.
`enableSpokenPunctuation`	`boolean` Il comportamento della punteggiatura pronunciata per la chiamata. Se `true`, sostituisce la punteggiatura pronunciata con i simboli corrispondenti nella richiesta. Ad esempio, "come fai a fare il punto interrogativo" diventa "come stai?". Per assistenza, visita la pagina https://cloud.google.com/speech-to-text/docs/spoken-punctuation. Se `false`, la punteggiatura pronunciata non viene sostituita.
`enableSpokenEmojis`	`boolean` Il comportamento delle emoji pronunciate per la chiamata. Se `true`, aggiunge la formattazione di emoji pronunciate per la richiesta. Le emoji pronunciate verranno sostituite con i simboli Unicode corrispondenti nella trascrizione finale. Se `false`, le emoji pronunciate non vengono sostituite.
`multiChannelMode`	`enum (MultiChannelMode)` Modalità per riconoscere l'audio multicanale.
`diarizationConfig`	`object (SpeakerDiarizationConfig)` Configurazione per abilitare la diarizzazione degli speaker e impostare parametri aggiuntivi per renderla più adatta alla tua applicazione. Quando questa opzione è abilitata, inviamo tutte le parole dall'inizio dell'audio per l'alternativa superiore in ogni risposta STREAMING consecutive. Ciò viene fatto per migliorare i nostri tag speaker man mano che i nostri modelli imparano a identificare i relatori nella conversazione nel corso del tempo. Per le richieste non in streaming, i risultati della diarizzazione saranno forniti solo nell'alternativa superiore di FINAL SpeechRecognitionResult.
`maxAlternatives`	`integer` Numero massimo di ipotesi di riconoscimento da restituire. Il server potrebbe restituire meno di `maxAlternatives`. I valori validi sono `0`-`30`. Un valore `0` o `1` restituirà un massimo di uno. Se omesso, ne verrà restituito al massimo uno.

MultiChannelMode

Opzioni per riconoscere l'audio multicanale.

Enum
`MULTI_CHANNEL_MODE_UNSPECIFIED`	Valore predefinito per la modalità multicanale. Se l'audio contiene più canali, verrà trascritto solo il primo canale; gli altri verranno ignorati.
`SEPARATE_RECOGNITION_PER_CHANNEL`	Se questa opzione è selezionata, ogni canale nell'audio fornito viene trascritto in modo indipendente. Questa opzione non può essere selezionata se il valore `model` selezionato è `latest_short`.

SpeakerDiarizationConfig

Configurazione per abilitare la diarizzazione dello speaker.

Rappresentazione JSON
{ "minSpeakerCount": integer, "maxSpeakerCount": integer }

Campi

Campi
`minSpeakerCount`	`integer` Obbligatorio. Numero minimo di partecipanti alla conversazione. Questo intervallo offre una maggiore flessibilità, consentendo al sistema di determinare automaticamente il numero corretto di speaker. Per correggere il numero di speaker rilevati nell'audio, imposta `minSpeakerCount` = `maxSpeakerCount`.
`maxSpeakerCount`	`integer` Obbligatorio. Numero massimo di partecipanti alla conversazione. I valori validi sono: 1-6. Deve essere >= `minSpeakerCount`. Questo intervallo offre una maggiore flessibilità, consentendo al sistema di determinare automaticamente il numero corretto di speaker.

minSpeakerCount

integer

Obbligatorio. Numero minimo di partecipanti alla conversazione. Questo intervallo offre una maggiore flessibilità, consentendo al sistema di determinare automaticamente il numero corretto di speaker.

Per correggere il numero di speaker rilevati nell'audio, imposta minSpeakerCount = maxSpeakerCount.

maxSpeakerCount

integer

Obbligatorio. Numero massimo di partecipanti alla conversazione. I valori validi sono: 1-6. Deve essere >= minSpeakerCount. Questo intervallo offre una maggiore flessibilità, consentendo al sistema di determinare automaticamente il numero corretto di speaker.

SpeechAdaptation

Fornisce "suggerimenti" al riconoscimento vocale per favorire parole e frasi specifiche nei risultati. I PhraseSet possono essere specificati come risorsa in linea o come riferimento a una risorsa PhraseSet esistente.

Rappresentazione JSON
{ "phraseSets": [ { object (`AdaptationPhraseSet`) } ], "customClasses": [ { object (`CustomClass`) } ] }

Campi

Campi
`phraseSets[]`	`object (AdaptationPhraseSet)` Un elenco di PhraseSet in linea o a cui fa riferimento.
`customClasses[]`	`object (CustomClass)` Un elenco di classi personalizzate in linea. È possibile fare riferimento direttamente alle risorse CustomClass esistenti in un PhraseSet.

phraseSets[]

object (AdaptationPhraseSet)

Un elenco di PhraseSet in linea o a cui fa riferimento.

customClasses[]

object (CustomClass)

Un elenco di classi personalizzate in linea. È possibile fare riferimento direttamente alle risorse CustomClass esistenti in un PhraseSet.

AdaptationPhraseSet

Un PhraseSet con differenziazione, che può essere una stringa che fa riferimento al nome di una risorsa PhraseSets esistente o una definizione in linea di un PhraseSet.

Rappresentazione JSON
{ // Union field `value` can be only one of the following: "phraseSet": string, "inlinePhraseSet": { object (`PhraseSet`) } // End of list of possible types for union field `value`. }

Campi

Campi
Campo di unione `value`. `value` può essere solo uno dei seguenti:
`phraseSet`	`string` Il nome di una risorsa PhraseSet esistente. L'utente deve avere accesso in lettura alla risorsa e questa non deve essere eliminata.
`inlinePhraseSet`	`object (PhraseSet)` Un PhraseSet definito in linea.

Campo di unione value.

value può essere solo uno dei seguenti:

phraseSet

string

Il nome di una risorsa PhraseSet esistente. L'utente deve avere accesso in lettura alla risorsa e questa non deve essere eliminata.

inlinePhraseSet

object (PhraseSet)

Un PhraseSet definito in linea.

TranscriptNormalization

Configurazione di normalizzazione della trascrizione. Usa la normalizzazione della trascrizione per sostituire automaticamente parti della trascrizione con frasi di tua scelta. Per StreamingRiconoscimento, questa normalizzazione si applica solo alle trascrizioni parziali stabili (stabilità > 0,8) e alle trascrizioni finali.

Rappresentazione JSON
{ "entries": [ { object (`Entry`) } ] }

Campi

Campi
`entries[]`	`object (Entry)` Un elenco di voci sostitutive. Effettueremo la sostituzione con una voce alla volta. Ad esempio, la seconda voce in ["gatto" => "cane", "gatto di montagna" => "cane di montagna"] non verrà mai applicata perché elaboreremo sempre la prima voce precedente. Massimo 100 voci.

entries[]

object (Entry)

Un elenco di voci sostitutive. Effettueremo la sostituzione con una voce alla volta. Ad esempio, la seconda voce in ["gatto" => "cane", "gatto di montagna" => "cane di montagna"] non verrà mai applicata perché elaboreremo sempre la prima voce precedente. Massimo 100 voci.

Voce

Un'unica configurazione sostitutiva.

Rappresentazione JSON
{ "search": string, "replace": string, "caseSensitive": boolean }

Campi

Campi
`search`	`string` Cosa sostituire. La lunghezza massima è di 100 caratteri.
`replace`	`string` Con cosa sostituire. La lunghezza massima è di 100 caratteri.
`caseSensitive`	`boolean` Se la ricerca è sensibile alle maiuscole.

search

string

Cosa sostituire. La lunghezza massima è di 100 caratteri.

replace

string

Con cosa sostituire. La lunghezza massima è di 100 caratteri.

caseSensitive

boolean

Se la ricerca è sensibile alle maiuscole.

Stato

Insieme di stati che definiscono il ciclo di vita di un riconoscimento.

Enum
`STATE_UNSPECIFIED`	Il valore predefinito. Questo valore viene utilizzato se lo stato viene omesso.
`ACTIVE`	Il riconoscimento è attivo e pronto per l'uso.
`DELETED`	Questo riconoscimento è stato eliminato.

Metodi
`batchRecognize`	Esegue il riconoscimento vocale asincrono in batch: invia una richiesta con N file audio e ricevi un'operazione a lunga esecuzione che può essere sottoposta a polling per vedere quando le trascrizioni sono terminate.
`create`	Crea un `Recognizer`.
`delete`	Elimina `Recognizer`.
`get`	Restituisce il valore `Recognizer` richiesto.
`list`	Elenca i riconoscimenti.
`patch`	Aggiorna il `Recognizer`.
`recognize`	Esegue il riconoscimento vocale sincrono: ricevi i risultati dopo che tutto l'audio è stato inviato ed elaborato.
`undelete`	Annulla l'eliminazione di `Recognizer`.

REST Resource: projects.locations.recognizers

Risorsa: Riconoscimento

RecognitionConfig

AutoDetectDecodingConfig

ExplicitDecodingConfig

AudioEncoding

RecognitionFeatures

MultiChannelMode

SpeakerDiarizationConfig

SpeechAdaptation

AdaptationPhraseSet

TranscriptNormalization

Voce

Stato

Metodi

`batchRecognize`

`create`

`delete`

`get`

`list`

`patch`

`recognize`

`undelete`