Package google.cloud.speech.v2

Indice

Parlato

Abilita la trascrizione vocale e la gestione delle risorse.

BatchRecognize

rpc BatchRecognize(BatchRecognizeRequest) returns (Operation)

Esegue il riconoscimento vocale asincrono in batch: invia una richiesta con N file audio e ricevi un'operazione a lunga esecuzione che può essere sottoposta a polling per vedere quando le trascrizioni sono terminate.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa recognizer:

  • speech.recognizers.recognize

Per ulteriori informazioni, consulta la documentazione IAM.

CreateCustomClass

rpc CreateCustomClass(CreateCustomClassRequest) returns (Operation)

Crea un CustomClass.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa parent:

  • speech.customClasses.create

Per ulteriori informazioni, consulta la documentazione IAM.

CreatePhraseSet

rpc CreatePhraseSet(CreatePhraseSetRequest) returns (Operation)

Crea un PhraseSet.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa parent:

  • speech.phraseSets.create

Per ulteriori informazioni, consulta la documentazione IAM.

CreateRecognizer

rpc CreateRecognizer(CreateRecognizerRequest) returns (Operation)

Crea un Recognizer.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa parent:

  • speech.recognizers.create

Per ulteriori informazioni, consulta la documentazione IAM.

DeleteCustomClass

rpc DeleteCustomClass(DeleteCustomClassRequest) returns (Operation)

Elimina CustomClass.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.customClasses.delete

Per ulteriori informazioni, consulta la documentazione IAM.

DeletePhraseSet

rpc DeletePhraseSet(DeletePhraseSetRequest) returns (Operation)

Elimina PhraseSet.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.phraseSets.delete

Per ulteriori informazioni, consulta la documentazione IAM.

DeleteRecognizer

rpc DeleteRecognizer(DeleteRecognizerRequest) returns (Operation)

Elimina Recognizer.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.recognizers.delete

Per ulteriori informazioni, consulta la documentazione IAM.

GetConfig

rpc GetConfig(GetConfigRequest) returns (Config)

Restituisce il valore Config richiesto.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.config.get

Per ulteriori informazioni, consulta la documentazione IAM.

GetCustomClass

rpc GetCustomClass(GetCustomClassRequest) returns (CustomClass)

Restituisce il valore CustomClass richiesto.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.customClasses.get

Per ulteriori informazioni, consulta la documentazione IAM.

GetPhraseSet

rpc GetPhraseSet(GetPhraseSetRequest) returns (PhraseSet)

Restituisce il valore PhraseSet richiesto.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.phraseSets.get

Per ulteriori informazioni, consulta la documentazione IAM.

GetRecognizer

rpc GetRecognizer(GetRecognizerRequest) returns (Recognizer)

Restituisce il valore Recognizer richiesto. Non riesce con NOT_FOUND se il riconoscimento richiesto non esiste.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.recognizers.get

Per ulteriori informazioni, consulta la documentazione IAM.

ListCustomClasses

rpc ListCustomClasses(ListCustomClassesRequest) returns (ListCustomClassesResponse)

Elenca le classi personalizzate.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa parent:

  • speech.customClasses.list

Per ulteriori informazioni, consulta la documentazione IAM.

ListPhraseSets

rpc ListPhraseSets(ListPhraseSetsRequest) returns (ListPhraseSetsResponse)

Elenca i PhraseSet.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa parent:

  • speech.phraseSets.list

Per ulteriori informazioni, consulta la documentazione IAM.

ListRecognizers

rpc ListRecognizers(ListRecognizersRequest) returns (ListRecognizersResponse)

Elenca i riconoscimenti.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa parent:

  • speech.recognizers.list

Per ulteriori informazioni, consulta la documentazione IAM.

Riconoscimento

rpc Recognize(RecognizeRequest) returns (RecognizeResponse)

Esegue il riconoscimento vocale sincrono: ricevi i risultati dopo che tutto l'audio è stato inviato ed elaborato.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa recognizer:

  • speech.recognizers.recognize

Per ulteriori informazioni, consulta la documentazione IAM.

StreamingRecognize

rpc StreamingRecognize(StreamingRecognizeRequest) returns (StreamingRecognizeResponse)

Esegue il riconoscimento vocale in streaming bidirezionale: ricevi risultati durante l'invio dell'audio. Questo metodo è disponibile solo tramite l'API gRPC (non REST).

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa recognizer:

  • speech.recognizers.recognize

Per ulteriori informazioni, consulta la documentazione IAM.

UndeleteCustomClass

rpc UndeleteCustomClass(UndeleteCustomClassRequest) returns (Operation)

Annulla l'eliminazione di CustomClass.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.customClasses.undelete

Per ulteriori informazioni, consulta la documentazione IAM.

UndeletePhraseSet

rpc UndeletePhraseSet(UndeletePhraseSetRequest) returns (Operation)

Annulla l'eliminazione di PhraseSet.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.phraseSets.undelete

Per ulteriori informazioni, consulta la documentazione IAM.

UndeleteRecognizer

rpc UndeleteRecognizer(UndeleteRecognizerRequest) returns (Operation)

Annulla l'eliminazione di Recognizer.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.recognizers.undelete

Per ulteriori informazioni, consulta la documentazione IAM.

UpdateConfig

rpc UpdateConfig(UpdateConfigRequest) returns (Config)

Aggiorna il Config.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.config.update

Per ulteriori informazioni, consulta la documentazione IAM.

UpdateCustomClass

rpc UpdateCustomClass(UpdateCustomClassRequest) returns (Operation)

Aggiorna il CustomClass.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.customClasses.update

Per ulteriori informazioni, consulta la documentazione IAM.

UpdatePhraseSet

rpc UpdatePhraseSet(UpdatePhraseSetRequest) returns (Operation)

Aggiorna il PhraseSet.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.phraseSets.update

Per ulteriori informazioni, consulta la documentazione IAM.

UpdateRecognizer

rpc UpdateRecognizer(UpdateRecognizerRequest) returns (Operation)

Aggiorna il Recognizer.

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la Panoramica dell'autenticazione.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM sulla risorsa name:

  • speech.recognizers.update

Per ulteriori informazioni, consulta la documentazione IAM.

AccessMetadata

I metadati di accesso per una determinata regione. Questa opzione può essere applicata se il criterio dell'organizzazione per il progetto specificato non consente una determinata regione.

Campi
constraint_type

ConstraintType

Descrive i diversi tipi di vincoli che vengono applicati.

ConstraintType

Descrive i diversi tipi di vincoli che possono essere applicati a una regione.

Enum
CONSTRAINT_TYPE_UNSPECIFIED Vincolo non specificato applicato.
RESOURCE_LOCATIONS_ORG_POLICY_CREATE_CONSTRAINT Il criterio dell'organizzazione del progetto non consente la regione specificata.

AutoDetectDecodingConfig

Questo tipo non contiene campi.

Parametri di decodifica rilevati automaticamente. Supportate per le seguenti codifiche:

  • WAV_LINEAR16: campioni PCM small-endian con firma a 16 bit in un container WAV.

  • WAV_MULAW: campioni di mulaw combinati a 8 bit in un container WAV.

  • WAV_ALAW: campioni alaw compandati a 8 bit in un container WAV.

  • RFC4867_5_AMR: frame AMR con intestazione rfc4867.5.

  • RFC4867_5_AMRWB: frame AMR-WB con intestazione rfc4867.5.

  • FLAC: frame FLAC nel formato container "FLAC nativo".

  • MP3: frame audio MPEG con metadati ID3 facoltativi (ignorati).

  • OGG_OPUS: frame audio Opus in un container Ogg.

  • WEBM_OPUS: frame audio Opus in un contenitore WebM.

  • M4A: formato audio M4A.

BatchRecognizeFileMetadata

Metadati relativi a un singolo file in un batch per BatchRecognition.

Campi
config

RecognitionConfig

Funzionalità e metadati audio da utilizzare per il riconoscimento vocale automatico. Questo campo, in combinazione con il campo config_mask, può essere utilizzato per eseguire l'override di parti del default_recognition_config della risorsa Riconoscimento e di config a livello di richiesta.

config_mask

FieldMask

L'elenco di campi in config che sostituiscono i valori nel default_recognition_config del riconoscimento durante la richiesta di riconoscimento. Se non viene fornita alcuna maschera, tutti i campi con valori non predefiniti in config sostituiscono i valori nel riconoscimento per questa richiesta di riconoscimento. Se viene fornita una maschera, solo i campi elencati nella maschera sostituiscono la configurazione nel riconoscimento per questa richiesta di riconoscimento. Se viene fornito un carattere jolly (*), config sostituisce completamente la configurazione nel riconoscimento per questa richiesta di riconoscimento e la sostituisce nel sistema di riconoscimento.

Campo di unione audio_source. L'origine audio, che è un URI di Google Cloud Storage. audio_source può essere solo uno dei seguenti:
uri

string

URI Cloud Storage del file audio.

BatchRecognizeFileResult

Risultati finali per un singolo file.

Campi
error

Status

Se ne è stato rilevato uno.

metadata

RecognitionResponseMetadata

uri
(deprecated)

string

Ritirato. Usa invece il criterio cloud_storage_result.native_format_uri.

transcript
(deprecated)

BatchRecognizeResults

Ritirato. Usa invece il criterio inline_result.transcript.

Campo di unione result.

result può essere solo uno dei seguenti:

cloud_storage_result

CloudStorageResult

Risultati del riconoscimento scritti in Cloud Storage. Questo campo viene compilato solo quando il criterio GcsOutputConfig è impostato in [RecognitionOutputConfig][google.cloud.speech.v2.RecognitionOutputConfig.

inline_result

InlineResult

Risultati del riconoscimento. Questo campo viene compilato solo quando il criterio InlineOutputConfig è impostato in [RecognitionOutputConfig][google.cloud.speech.v2.RecognitionOutputConfig.

BatchRecognizeMetadata

Metadati dell'operazione per BatchRecognize.

Campi
transcription_metadata

map<string, BatchRecognizeTranscriptionMetadata>

Mappa dal nome file fornito ai metadati della trascrizione per il file.

BatchRecognizeRequest

Messaggio di richiesta per il metodo BatchRecognize.

Campi
recognizer

string

Obbligatorio. Il nome del riconoscimento da utilizzare durante il riconoscimento. Il formato previsto è projects/{project}/locations/{location}/recognizers/{recognizer}. Il segmento {recognizer} può essere impostato su _ per utilizzare un Riconoscimento implicito vuoto.

config

RecognitionConfig

Funzionalità e metadati audio da utilizzare per il riconoscimento vocale automatico. Questo campo, in combinazione con il campo config_mask, può essere utilizzato per sostituire parti del default_recognition_config della risorsa Riconoscimento.

config_mask

FieldMask

L'elenco di campi in config che sostituiscono i valori nel default_recognition_config del riconoscimento durante la richiesta di riconoscimento. Se non viene fornita alcuna maschera, tutti i campi specificati in config sostituiscono i valori nel riconoscimento per questa richiesta di riconoscimento. Se viene fornita una maschera, solo i campi elencati nella maschera sostituiscono la configurazione nel riconoscimento per questa richiesta di riconoscimento. Se viene fornito un carattere jolly (*), config sostituisce completamente la configurazione nel riconoscimento per questa richiesta di riconoscimento e la sostituisce nel sistema di riconoscimento.

files[]

BatchRecognizeFileMetadata

File audio con metadati di file per ASR. Il numero massimo di file che è possibile specificare è 5.

recognition_output_config

RecognitionOutputConfig

Opzioni di configurazione per indicare dove eseguire l'output delle trascrizioni di ciascun file.

processing_strategy

ProcessingStrategy

Strategia di elaborazione da utilizzare per questa richiesta.

ProcessingStrategy

Possibili strategie di elaborazione per le richieste batch.

Enum
PROCESSING_STRATEGY_UNSPECIFIED Valore predefinito per la strategia di elaborazione. La richiesta viene elaborata non appena viene ricevuta.
DYNAMIC_BATCHING Se questa opzione è selezionata, la richiesta viene elaborata durante periodi di utilizzo inferiori per ottenere uno sconto sul prezzo. La richiesta viene soddisfatta entro 24 ore.

BatchRecognizeResponse

Messaggio di risposta per BatchRecognize pacchettizzato in un Operation a lunga esecuzione.

Campi
results

map<string, BatchRecognizeFileResult>

Mappa dal nome file al risultato finale per quel file.

total_billed_duration

Duration

Se disponibili, vengono fatturati i secondi audio per la richiesta corrispondente.

BatchRecognizeResults

Tipo di output per le trascrizioni Cloud Storage di BatchRiconoscimento. Anche se questo protocollo non viene restituito da nessuna parte in questa API, le trascrizioni di Cloud Storage saranno basate sul protocollo serializzato e dovrebbero essere analizzate come tali.

Campi
results[]

SpeechRecognitionResult

Elenco sequenziale dei risultati della trascrizione corrispondenti a parti sequenziali di audio.

metadata

RecognitionResponseMetadata

I metadati sul riconoscimento.

BatchRecognizeTranscriptionMetadata

Metadati sulla trascrizione di un singolo file (ad esempio, la percentuale di avanzamento).

Campi
progress_percent

int32

La percentuale del file trascritta finora.

error

Status

Se ne è stato rilevato uno.

uri

string

L'URI Cloud Storage in cui verranno scritti i risultati del riconoscimento.

CloudStorageResult

I risultati finali sono scritti in Cloud Storage.

Campi
uri

string

L'URI Cloud Storage in cui sono stati scritti i risultati del riconoscimento.

vtt_format_uri

string

L'URI Cloud Storage a cui sono stati scritti i risultati del riconoscimento come didascalie in formato VTT. Il campo viene compilato solo quando viene richiesto l'output VTT.

srt_format_uri

string

L'URI Cloud Storage a cui sono stati scritti i risultati del riconoscimento come didascalie in formato SRT. Il campo viene compilato solo quando viene richiesto l'output SRT.

Configurazione

Messaggio che rappresenta la configurazione dell'API Speech-to-Text. È inclusa una chiave KMS facoltativa con cui verranno criptati i dati in arrivo.

Campi
name

string

Solo output. Identificatore. Il nome della risorsa di configurazione. Esiste esattamente una risorsa di configurazione per progetto per località. Il formato previsto è projects/{project}/locations/{location}/config.

kms_key_name

string

Facoltativo. Un nome chiave KMS facoltativo che, se presente, verrà utilizzato per criptare le risorse at-rest di Speech-to-Text. L'aggiornamento di questa chiave non cripterà le risorse esistenti utilizzando questa chiave; solo le nuove risorse verranno criptate usando questa chiave. Il formato previsto è projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}.

update_time

Timestamp

Solo output. L'ultima volta che questa risorsa è stata modificata.

CreateCustomClassRequest

Messaggio di richiesta per il metodo CreateCustomClass.

Campi
custom_class

CustomClass

Obbligatorio. Il valore CustomClass da creare.

validate_only

bool

Se impostato, convalida la richiesta e visualizza l'anteprima del CustomClass, ma non crearlo effettivamente.

custom_class_id

string

L'ID da utilizzare per CustomClass, che diventerà il componente finale del nome della risorsa CustomClass.

Questo valore deve contenere da 4 a 63 caratteri, mentre i caratteri validi sono /[a-z][0-9]-/.

parent

string

Obbligatorio. Il progetto e la località in cui verrà creato il CustomClass. Il formato previsto è projects/{project}/locations/{location}.

CreatePhraseSetRequest

Messaggio di richiesta per il metodo CreatePhraseSet.

Campi
phrase_set

PhraseSet

Obbligatorio. Il set di frasi da creare.

validate_only

bool

Se impostato, convalida la richiesta e visualizza l'anteprima del PhraseSet, ma non crearlo effettivamente.

phrase_set_id

string

L'ID da utilizzare per PhraseSet, che diventerà il componente finale del nome della risorsa PhraseSet.

Questo valore deve contenere da 4 a 63 caratteri, mentre i caratteri validi sono /[a-z][0-9]-/.

parent

string

Obbligatorio. Il progetto e la località in cui verrà creato il PhraseSet. Il formato previsto è projects/{project}/locations/{location}.

CreateRecognizerRequest

Messaggio di richiesta per il metodo CreateRecognizer.

Campi
recognizer

Recognizer

Obbligatorio. Il riconoscimento per creare.

validate_only

bool

Se impostato, convalida la richiesta e visualizza l'anteprima del riconoscimento, ma non crearlo effettivamente.

recognizer_id

string

L'ID da utilizzare per il riconoscimento, che diventerà il componente finale del nome della risorsa del riconoscimento.

Questo valore deve contenere da 4 a 63 caratteri, mentre i caratteri validi sono /[a-z][0-9]-/.

parent

string

Obbligatorio. Il progetto e la località in cui verrà creato il riconoscimento. Il formato previsto è projects/{project}/locations/{location}.

CustomClass

CustomClass per la differenziazione nel riconoscimento vocale. Utilizzato per definire un insieme di parole o frasi che rappresenta un concetto o un tema comune che potrebbe essere visualizzato nell'audio, ad esempio un elenco di nomi di navi passeggeri.

Campi
name

string

Solo output. Identificatore. Il nome della risorsa del CustomClass. Formato: projects/{project}/locations/{location}/customClasses/{custom_class}.

uid

string

Solo output. Identificatore univoco assegnato dal sistema per CustomClass.

display_name

string

Facoltativo. Nome leggibile e configurabile dall'utente per CustomClass. Deve avere una lunghezza massima di 63 caratteri.

items[]

ClassItem

Una raccolta di elementi del corso.

state

State

Solo output. Lo stato del ciclo di vita di CustomClass.

create_time

Timestamp

Solo output. Data/ora creazione.

update_time

Timestamp

Solo output. L'ultima volta che questa risorsa è stata modificata.

delete_time

Timestamp

Solo output. L'ora in cui è stata richiesta l'eliminazione della risorsa.

expire_time

Timestamp

Solo output. L'ora in cui la risorsa verrà eliminata definitivamente.

annotations

map<string, string>

Facoltativo. Consente agli utenti di archiviare piccole quantità di dati arbitrari. Sia la chiave che il valore devono contenere al massimo 63 caratteri ciascuno. Massimo 100 annotazioni.

etag

string

Solo output. Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere.

reconciling

bool

Solo output. Se questo CustomClass è in fase di aggiornamento o meno.

kms_key_name

string

Solo output. Il nome della chiave KMS con cui è criptato CustomClass. Il formato previsto è projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}.

kms_key_version_name

string

Solo output. Il nome della versione della chiave KMS con cui è criptata la classe CustomClass. Il formato previsto è projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}.

ClassItem

Un elemento del corso.

Campi
value

string

Il valore dell'elemento del corso.

Stato

Insieme di stati che definiscono il ciclo di vita di un CustomClass.

Enum
STATE_UNSPECIFIED Stato non specificato. Questo viene usato/utile solo per distinguere i valori non impostati.
ACTIVE Lo stato normale e attivo.
DELETED Questa classe CustomClass è stata eliminata.

DeleteCustomClassRequest

Messaggio di richiesta per il metodo DeleteCustomClass.

Campi
name

string

Obbligatorio. Il nome del CustomClass da eliminare. Formato: projects/{project}/locations/{location}/customClasses/{custom_class}

validate_only

bool

Se impostato, convalida la richiesta e visualizza l'anteprima del CustomClass eliminato, ma non eliminarlo.

allow_missing

bool

Se il valore è impostato su true e la classe CustomClass non viene trovata, la richiesta andrà a buon fine e sarà inutilizzabile (in questo caso non viene registrata alcuna operazione).

etag

string

Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere.

DeletePhraseSetRequest

Messaggio di richiesta per il metodo DeletePhraseSet.

Campi
name

string

Obbligatorio. Il nome del PhraseSet da eliminare. Formato: projects/{project}/locations/{location}/phraseSets/{phrase_set}

validate_only

bool

Se impostato, convalida la richiesta e visualizza l'anteprima del PhraseSet eliminato, ma non eliminarlo.

allow_missing

bool

Se il criterio viene impostato su true e il PhraseSet non viene trovato, la richiesta andrà a buon fine e sarà innocua (in questo caso non viene registrata alcuna operazione).

etag

string

Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere.

DeleteRecognizerRequest

Messaggio di richiesta per il metodo DeleteRecognizer.

Campi
name

string

Obbligatorio. Il nome del riconoscimento da eliminare. Formato: projects/{project}/locations/{location}/recognizers/{recognizer}

validate_only

bool

Se impostato, convalida la richiesta e visualizza l'anteprima del riconoscimento eliminato, ma non eliminarlo.

allow_missing

bool

Se il valore è impostato su true e il riconoscimento non viene trovato, la richiesta andrà a buon fine e sarà inutilizzabile (in questo caso non viene registrata alcuna operazione).

etag

string

Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere.

ExplicitDecodingConfig

Parametri di decodifica specificati esplicitamente.

Campi
encoding

AudioEncoding

Obbligatorio. Codifica dei dati audio inviati per il riconoscimento.

sample_rate_hertz

int32

Frequenza di campionamento in Hertz dei dati audio inviati per il riconoscimento. I valori validi sono: 8000-48000. 16.000 è ottimale. Per ottenere risultati ottimali, imposta la frequenza di campionamento della sorgente audio su 16000 Hz. Se non è possibile, utilizza la frequenza di campionamento nativa della sorgente audio (anziché il ricampionamento). Supportate per le seguenti codifiche:

  • LINEAR16: Campioni PCM small-endian senza intestazione a 16 bit firmati.

  • MULAW: campioni di mulaw companded senza intestazioni a 8 bit.

  • ALAW: campioni alaw compandati a 8 bit senza intestazioni.

audio_channel_count

int32

Numero di canali presenti nei dati audio inviati per il riconoscimento. Supportate per le seguenti codifiche:

  • LINEAR16: Campioni PCM small-endian senza intestazione a 16 bit firmati.

  • MULAW: campioni di mulaw companded senza intestazioni a 8 bit.

  • ALAW: campioni alaw compandati a 8 bit senza intestazioni.

Il valore massimo consentito è 8.

AudioEncoding

Codifiche dei dati audio supportate.

Enum
AUDIO_ENCODING_UNSPECIFIED Valore predefinito. Questo valore non è utilizzato.
LINEAR16 Campioni PCM small-endian firmati a 16 bit senza intestazioni.
MULAW Campioni di mulaw complessi a 8 bit senza intestazioni.
ALAW Campioni alaw compandati a 8 bit senza intestazioni.

GcsOutputConfig

Configurazioni di output per Cloud Storage.

Campi
uri

string

Il prefisso dell'URI Cloud Storage con cui verranno scritti i risultati del riconoscimento.

GetConfigRequest

Messaggio di richiesta per il metodo GetConfig.

Campi
name

string

Obbligatorio. Il nome della configurazione da recuperare. Esiste esattamente una risorsa di configurazione per progetto per località. Il formato previsto è projects/{project}/locations/{location}/config.

GetCustomClassRequest

Messaggio di richiesta per il metodo GetCustomClass.

Campi
name

string

Obbligatorio. Il nome del CustomClass da recuperare. Il formato previsto è projects/{project}/locations/{location}/customClasses/{custom_class}.

GetPhraseSetRequest

Messaggio di richiesta per il metodo GetPhraseSet.

Campi
name

string

Obbligatorio. Il nome del PhraseSet da recuperare. Il formato previsto è projects/{project}/locations/{location}/phraseSets/{phrase_set}.

GetRecognizerRequest

Messaggio di richiesta per il metodo GetRecognizer.

Campi
name

string

Obbligatorio. Il nome del riconoscimento da recuperare. Il formato previsto è projects/{project}/locations/{location}/recognizers/{recognizer}.

InlineOutputConfig

Questo tipo non contiene campi.

Configurazioni di output per la risposta in linea.

InlineResult

I risultati finali sono stati restituiti in linea nella risposta del riconoscimento.

Campi
transcript

BatchRecognizeResults

La trascrizione del file audio.

vtt_captions

string

La trascrizione del file audio come sottotitoli codificati in formato VTT. Il campo viene compilato solo quando viene richiesto l'output VTT.

srt_captions

string

La trascrizione del file audio come sottotitoli codificati in formato SRT. Il campo viene compilato solo quando viene richiesto l'output SRT.

LanguageMetadata

I metadati sulle impostazioni internazionali disponibili in una determinata regione. Al momento si tratta solo dei modelli disponibili per ogni lingua

Campi
models

map<string, ModelMetadata>

Mappa di impostazioni internazionali (codice lingua) -> modelli

ListCustomClassesRequest

Messaggio di richiesta per il metodo ListCustomClasses.

Campi
parent

string

Obbligatorio. Il progetto e la località delle risorse CustomClass da elencare. Il formato previsto è projects/{project}/locations/{location}.

page_size

int32

Numero di risultati per richiesta. Un valore page_size valido va da 0 a 100 inclusi. Se page_size è pari a zero o non è specificato, verrà scelta una dimensione pagina pari a 5. Se le dimensioni della pagina superano 100, verrà ridotta a 100. Tieni presente che una chiamata potrebbe restituire un numero di risultati inferiore alle dimensioni della pagina richieste.

page_token

string

Un token di pagina, ricevuto da una chiamata ListCustomClasses precedente. Specifica questo valore per recuperare la pagina successiva.

Durante l'impaginazione, tutti gli altri parametri forniti a ListCustomClasses devono corrispondere alla chiamata che ha fornito il token della pagina.

show_deleted

bool

Indica se mostrare o meno le risorse che sono state eliminate.

ListCustomClassesResponse

Messaggio di risposta per il metodo ListCustomClasses.

Campi
custom_classes[]

CustomClass

L'elenco di CustomClass richieste.

next_page_token

string

Un token, che può essere inviato come page_token per recuperare la pagina successiva. Se questo campo viene omesso, non verranno visualizzate altre pagine. Questo token scade dopo 72 ore.

ListPhraseSetsRequest

Messaggio di richiesta per il metodo ListPhraseSets.

Campi
parent

string

Obbligatorio. Il progetto e la località delle risorse PhraseSet da elencare. Il formato previsto è projects/{project}/locations/{location}.

page_size

int32

Il numero massimo di PhraseSet da restituire. Il servizio potrebbe restituire un numero inferiore a questo valore. Se non specificati, verranno restituiti al massimo 5 PhraseSet. Il valore massimo è 100; i valori superiori a 100 verranno forzati a 100.

page_token

string

Un token di pagina, ricevuto da una chiamata ListPhraseSets precedente. Specifica questo valore per recuperare la pagina successiva.

Durante l'impaginazione, tutti gli altri parametri forniti a ListPhraseSets devono corrispondere alla chiamata che ha fornito il token della pagina.

show_deleted

bool

Indica se mostrare o meno le risorse che sono state eliminate.

ListPhraseSetsResponse

Messaggio di risposta per il metodo ListPhraseSets.

Campi
phrase_sets[]

PhraseSet

L'elenco di PhraseSet richiesti.

next_page_token

string

Un token, che può essere inviato come page_token per recuperare la pagina successiva. Se questo campo viene omesso, non verranno visualizzate altre pagine. Questo token scade dopo 72 ore.

ListRecognizersRequest

Messaggio di richiesta per il metodo ListRecognizers.

Campi
parent

string

Obbligatorio. Il progetto e la posizione dei Riconoscitori da elencare. Il formato previsto è projects/{project}/locations/{location}.

page_size

int32

Il numero massimo di riconoscimenti da restituire. Il servizio potrebbe restituire un numero inferiore a questo valore. Se non specificati, verranno restituiti al massimo 5 riconoscimenti. Il valore massimo è 100; i valori superiori a 100 verranno forzati a 100.

page_token

string

Un token di pagina, ricevuto da una chiamata ListRecognizers precedente. Specifica questo valore per recuperare la pagina successiva.

Durante l'impaginazione, tutti gli altri parametri forniti a ListRecognizers devono corrispondere alla chiamata che ha fornito il token della pagina.

show_deleted

bool

Indica se mostrare o meno le risorse che sono state eliminate.

ListRecognizersResponse

Messaggio di risposta per il metodo ListRecognizers.

Campi
recognizers[]

Recognizer

L'elenco dei riconoscimenti richiesti.

next_page_token

string

Un token, che può essere inviato come page_token per recuperare la pagina successiva. Se questo campo viene omesso, non verranno visualizzate altre pagine. Questo token scade dopo 72 ore.

LocationsMetadata

Metadati principali per l'API Places per STT V2. Attualmente, si tratta solo dei metadati relativi a impostazioni internazionali, modelli e caratteristiche

Campi
languages

LanguageMetadata

Informazioni su impostazioni internazionali, modelli e caratteristiche disponibili rappresentati nella struttura gerarchica delle impostazioni internazionali -> modelli -> caratteristiche

access_metadata

AccessMetadata

Informazioni sui metadati di accesso per la regione e il progetto specificato.

ModelFeature

Rappresenta una caratteristica singola di un modello. Se la funzionalità è recognizer, il valore release_state della funzionalità rappresenta il valore release_state del modello.

Campi
feature

string

Il nome dell'elemento (nota: la funzionalità può essere recognizer)

release_state

string

Lo stato della release della funzionalità

ModelFeatures

Rappresenta l'insieme di caratteristiche appartenenti a un modello

Campi
model_feature[]

ModelFeature

Campo ripetuto che contiene tutte le caratteristiche del modello

ModelMetadata

I metadati relativi ai modelli in una determinata regione per un'impostazione internazionale specifica. Attualmente queste sono solo le caratteristiche del modello

Campi
model_features

map<string, ModelFeatures>

Mappa del nome del modello -> caratteristiche del modello

NativeOutputFileFormatConfig

Questo tipo non contiene campi.

Configurazioni di output per i proto BatchRecognizeResults serializzati.

OperationMetadata

Rappresenta i metadati di un'operazione a lunga esecuzione.

Campi
create_time

Timestamp

L'ora di creazione dell'operazione.

update_time

Timestamp

L'ora dell'ultimo aggiornamento dell'operazione.

resource

string

Il percorso della risorsa per la destinazione dell'operazione.

method

string

Il metodo che ha attivato l'operazione.

kms_key_name

string

Il nome della chiave KMS con cui sono criptati i contenuti dell'operazione. Il formato previsto è projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}.

kms_key_version_name

string

Il nome della versione della chiave KMS con cui vengono criptati i contenuti dell'operazione. Il formato previsto è projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}.

progress_percent

int32

La percentuale di avanzamento dell'operazione. I valori possono essere compresi tra 0 e 100. Se il valore è 100, l'operazione è terminata.

Campo di unione request. La richiesta che ha dato vita all'operazione. request può essere solo uno dei seguenti:
batch_recognize_request

BatchRecognizeRequest

Il parametro BatchRecognizeRequest che ha dato vita all'operazione.

create_recognizer_request

CreateRecognizerRequest

La richiesta CreateRecognizerRequest che ha dato vita all'operazione.

update_recognizer_request

UpdateRecognizerRequest

L'oggetto UpdateRecognizerRequest che ha dato vita all'operazione.

delete_recognizer_request

DeleteRecognizerRequest

L'elemento DeleteRecognizerRequest che ha dato vita all'operazione.

undelete_recognizer_request

UndeleteRecognizerRequest

L'UndeleteRecognizerRequest che ha dato vita all'operazione.

create_custom_class_request

CreateCustomClassRequest

La richiesta CreateCustomClassRequest che ha dato vita all'operazione.

update_custom_class_request

UpdateCustomClassRequest

L'oggetto UpdateCustomClassRequest che ha dato vita all'operazione.

delete_custom_class_request

DeleteCustomClassRequest

L'elemento DeleteCustomClassRequest che ha dato vita all'operazione.

undelete_custom_class_request

UndeleteCustomClassRequest

L'elemento UndeleteCustomClassRequest che ha dato vita all'operazione.

create_phrase_set_request

CreatePhraseSetRequest

L'elemento CreatePhraseSetRequest che ha dato vita all'operazione.

update_phrase_set_request

UpdatePhraseSetRequest

La sezione UpdatePhraseSetRequest che ha dato vita all'operazione.

delete_phrase_set_request

DeletePhraseSetRequest

Il valore DeletePhraseSetRequest che ha dato vita all'operazione.

undelete_phrase_set_request

UndeletePhraseSetRequest

L'elemento UndeletePhraseSetRequest che ha dato vita all'operazione.

update_config_request
(deprecated)

UpdateConfigRequest

La richiesta UpdateConfigRequest che ha dato vita all'operazione.

Campo di unione metadata. Metadati specifici per RPC. metadata può essere solo uno dei seguenti:
batch_recognize_metadata

BatchRecognizeMetadata

Metadati specifici del metodo BatchRecognition.

OutputFormatConfig

Configurazione per il formato dei risultati archiviati in output.

Campi
native

NativeOutputFileFormatConfig

Configurazione per il formato di output nativo. Se questo campo è impostato o se non è impostato nessun altro campo di formato di output, le trascrizioni verranno scritte nel sink nel formato nativo.

vtt

VttOutputFileFormatConfig

Configurazione per il formato di output VTT. Se questo campo viene impostato, le trascrizioni verranno scritte nel sink nel formato VTT.

srt

SrtOutputFileFormatConfig

Configurazione per il formato di output SRT. Se questo campo viene impostato, le trascrizioni verranno scritte nel sink in formato SRT.

PhraseSet

frase impostata per la differenziazione nel riconoscimento vocale. Un PhraseSet viene utilizzato per fornire "suggerimenti" al riconoscimento vocale per favorire parole e frasi specifiche nei risultati.

Campi
name

string

Solo output. Identificatore. Il nome della risorsa del PhraseSet. Formato: projects/{project}/locations/{location}/phraseSets/{phrase_set}.

uid

string

Solo output. Identificatore univoco assegnato dal sistema per PhraseSet.

phrases[]

Phrase

Un elenco di parole e frasi.

boost

float

Suggerimento: Un valore positivo aumenta la probabilità che una frase specifica venga riconosciuta rispetto ad altre frasi simili. Più alta è la spinta, maggiore è anche la possibilità di ottenere un riconoscimento di falsi positivi. I valori boost validi sono compresi tra 0 (escluso) e 20. Ti consigliamo di utilizzare un approccio di ricerca binaria per trovare il valore ottimale per il tuo caso d'uso e di aggiungere frasi sia con che senza booster alle tue richieste.

display_name

string

Nome leggibile e configurabile dall'utente per PhraseSet. Deve avere una lunghezza massima di 63 caratteri.

state

State

Solo output. Lo stato del ciclo di vita di PhraseSet.

create_time

Timestamp

Solo output. Data/ora creazione.

update_time

Timestamp

Solo output. L'ultima volta che questa risorsa è stata modificata.

delete_time

Timestamp

Solo output. L'ora in cui è stata richiesta l'eliminazione della risorsa.

expire_time

Timestamp

Solo output. L'ora in cui la risorsa verrà eliminata definitivamente.

annotations

map<string, string>

Consente agli utenti di archiviare piccole quantità di dati arbitrari. Sia la chiave che il valore devono contenere al massimo 63 caratteri ciascuno. Massimo 100 annotazioni.

etag

string

Solo output. Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere.

reconciling

bool

Solo output. Indica se il PhraseSet è in fase di aggiornamento.

kms_key_name

string

Solo output. Il nome della chiave KMS con cui è criptato il PhraseSet. Il formato previsto è projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}.

kms_key_version_name

string

Solo output. Il nome della versione della chiave KMS con cui è criptato il set PhraseSet. Il formato previsto è projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}.

Frase

Una frase contiene parole e "suggerimenti" per consentire al riconoscimento vocale di riconoscerli con maggiore probabilità. Questa funzionalità può essere utilizzata per migliorare l'accuratezza di parole e frasi specifiche, ad esempio se l'utente generalmente pronuncia comandi specifici. In questo modo puoi anche aggiungere altre parole al vocabolario del riconoscimento.

Le voci di elenco possono anche includere riferimenti CustomClass contenenti gruppi di parole che rappresentano concetti comuni che si verificano nel linguaggio naturale.

Campi
value

string

La frase stessa.

boost

float

Suggerimento: Esegue l'override del booster impostato al livello della frase. Un valore positivo aumenta la probabilità che una frase specifica venga riconosciuta rispetto ad altre frasi simili. Più alta è la spinta, maggiore è anche la possibilità di ottenere un riconoscimento di falsi positivi. Valori di boost negativi corrispondono ad anti-biasing. L'anti-bias non è abilitato, quindi i valori di boost negativi restituiranno un errore. I valori di boost devono essere compresi tra 0 e 20. I valori al di fuori di questo intervallo restituiranno un errore. Ti consigliamo di utilizzare un approccio di ricerca binaria per trovare il valore ottimale per il tuo caso d'uso e di aggiungere frasi sia con che senza booster alle tue richieste.

Stato

Insieme di stati che definiscono il ciclo di vita di un PhraseSet.

Enum
STATE_UNSPECIFIED Stato non specificato. Questo viene usato/utile solo per distinguere i valori non impostati.
ACTIVE Lo stato normale e attivo.
DELETED Questo PhraseSet è stato eliminato.

RecognitionConfig

Fornisce al riconoscimento informazioni come elaborare la richiesta di riconoscimento.

Campi
model

string

Facoltativo. Quale modello utilizzare per le richieste di riconoscimento. Seleziona il modello più adatto al tuo dominio per ottenere risultati ottimali.

Le indicazioni per la scelta del modello da utilizzare sono disponibili nella documentazione sui modelli di trascrizione, mentre i modelli supportati in ogni regione sono disponibili nella tabella dei modelli supportati.

language_codes[]

string

Facoltativo. La lingua dell'audio fornito sotto forma di tag lingua BCP-47. I tag della lingua sono normalizzati in BCP-47 prima di essere utilizzati, ad esempio "en-us" diventa "en-US".

Le lingue supportate per ogni modello sono elencate nella Tabella dei modelli supportati.

Se vengono fornite altre lingue, il risultato del riconoscimento conterrà il riconoscimento nella lingua più probabile rilevata. Il risultato del riconoscimento includerà il tag della lingua rilevata nell'audio.

features

RecognitionFeatures

Funzionalità di riconoscimento vocale da attivare.

adaptation

SpeechAdaptation

Contesto di adattamento vocale che valuta le previsioni del riconoscimento per parole e frasi specifiche.

transcript_normalization

TranscriptNormalization

Facoltativo. Usa la normalizzazione della trascrizione per sostituire automaticamente parti della trascrizione con frasi di tua scelta. Per StreamingRiconoscimento, questa normalizzazione si applica solo alle trascrizioni parziali stabili (stabilità > 0,8) e alle trascrizioni finali.

Campo di unione decoding_config. Decodifica dei parametri per l'audio inviato per il riconoscimento. decoding_config può essere solo uno dei seguenti:
auto_decoding_config

AutoDetectDecodingConfig

Rileva automaticamente i parametri di decodifica. Preferito per i formati supportati.

explicit_decoding_config

ExplicitDecodingConfig

Parametri di decodifica specificati esplicitamente. Obbligatorio se utilizzi un audio PCM senza header (linear16, mulaw, alaw).

RecognitionFeatures

Funzioni di riconoscimento disponibili.

Campi
profanity_filter

bool

Se viene impostato su true, il server cercherà di escludere il linguaggio volgare, sostituendo con asterischi tutto il carattere iniziale di ogni parola filtrata, ad esempio "f***". Se il criterio viene impostato su false o se omesso, i contenuti in cui il linguaggio volgare non viene applicato non vengono filtrati.

enable_word_time_offsets

bool

Se true, il risultato principale include un elenco di parole e i relativi timestamp (timestamp) di inizio e di fine. Se false, non vengono restituite informazioni sullo offset temporale a livello di parola. Il valore predefinito è false.

enable_word_confidence

bool

Se true, il risultato superiore include un elenco di parole e il livello di confidenza di queste parole. Se false, non vengono restituite informazioni di confidenza a livello di parola. Il valore predefinito è false.

enable_automatic_punctuation

bool

Se true, aggiunge la punteggiatura alle ipotesi dei risultati del riconoscimento. Questa funzionalità è disponibile solo in alcune lingue. Il valore predefinito di false non aggiunge punteggiatura alle ipotesi.

enable_spoken_punctuation

bool

Il comportamento della punteggiatura pronunciata per la chiamata. Se true, sostituisce la punteggiatura pronunciata con i simboli corrispondenti nella richiesta. Ad esempio, "come fai a fare il punto interrogativo" diventa "come stai?". Per assistenza, visita la pagina https://cloud.google.com/speech-to-text/docs/spoken-punctuation. Se false, la punteggiatura pronunciata non viene sostituita.

enable_spoken_emojis

bool

Il comportamento delle emoji pronunciate per la chiamata. Se true, aggiunge la formattazione di emoji pronunciate per la richiesta. Le emoji pronunciate verranno sostituite con i simboli Unicode corrispondenti nella trascrizione finale. Se false, le emoji pronunciate non vengono sostituite.

multi_channel_mode

MultiChannelMode

Modalità per riconoscere l'audio multicanale.

diarization_config

SpeakerDiarizationConfig

Configurazione per abilitare la diarizzazione degli speaker e impostare parametri aggiuntivi per renderla più adatta alla tua applicazione. Quando questa opzione è abilitata, inviamo tutte le parole dall'inizio dell'audio per l'alternativa superiore in ogni risposta STREAMING consecutive. Ciò viene fatto per migliorare i nostri tag speaker man mano che i nostri modelli imparano a identificare i relatori nella conversazione nel corso del tempo. Per le richieste non in streaming, i risultati della diarizzazione saranno forniti solo nell'alternativa superiore di FINAL SpeechRecognitionResult.

max_alternatives

int32

Numero massimo di ipotesi di riconoscimento da restituire. Il server potrebbe restituire meno di max_alternatives. I valori validi sono 0-30. Un valore 0 o 1 restituirà un massimo di uno. Se omesso, ne verrà restituito al massimo uno.

MultiChannelMode

Opzioni per riconoscere l'audio multicanale.

Enum
MULTI_CHANNEL_MODE_UNSPECIFIED Valore predefinito per la modalità multicanale. Se l'audio contiene più canali, verrà trascritto solo il primo canale; gli altri verranno ignorati.
SEPARATE_RECOGNITION_PER_CHANNEL Se questa opzione è selezionata, ogni canale nell'audio fornito viene trascritto in modo indipendente. Questa opzione non può essere selezionata se il valore model selezionato è latest_short.

RecognitionOutputConfig

Opzioni di configurazione per gli output del riconoscimento.

Campi
output_format_config

OutputFormatConfig

Facoltativo. Configurazione per il formato dei risultati archiviati in output. Se le trascrizioni non specificate saranno scritte solo nel formato NATIVE.

Campo di unione output.

output può essere solo uno dei seguenti:

gcs_output_config

GcsOutputConfig

Se questo messaggio viene compilato, i risultati del riconoscimento vengono scritti nell'URI di Google Cloud Storage fornito.

inline_response_config

InlineOutputConfig

Se questo messaggio viene compilato, i risultati del riconoscimento vengono forniti nel messaggio BatchRecognizeResponse dell'operazione al termine dell'operazione. Questa funzionalità è supportata soltanto se si chiama BatchRecognize con un solo file audio.

RecognitionResponseMetadata

Metadati relativi alla richiesta e alla risposta di riconoscimento.

Campi
total_billed_duration

Duration

Se disponibili, vengono fatturati i secondi audio per la richiesta corrispondente.

RecognizeRequest

Messaggio di richiesta per il metodo Recognize. È necessario specificare content o uri. Se fornisci entrambi o nessuno dei due resi INVALID_ARGUMENT, Vedi Limiti per i contenuti.

Campi
recognizer

string

Obbligatorio. Il nome del riconoscimento da utilizzare durante il riconoscimento. Il formato previsto è projects/{project}/locations/{location}/recognizers/{recognizer}. Il segmento {recognizer} può essere impostato su _ per utilizzare un Riconoscimento implicito vuoto.

config

RecognitionConfig

Funzionalità e metadati audio da utilizzare per il riconoscimento vocale automatico. Questo campo, in combinazione con il campo config_mask, può essere utilizzato per sostituire parti del default_recognition_config della risorsa Riconoscimento.

config_mask

FieldMask

L'elenco di campi in config che sostituiscono i valori nel default_recognition_config del riconoscimento durante la richiesta di riconoscimento. Se non viene fornita alcuna maschera, tutti i campi con valori non predefiniti in config sostituiscono i valori nel riconoscimento per questa richiesta di riconoscimento. Se viene fornita una maschera, solo i campi elencati nella maschera sostituiscono la configurazione nel riconoscimento per questa richiesta di riconoscimento. Se viene fornito un carattere jolly (*), config sostituisce completamente la configurazione nel riconoscimento per questa richiesta di riconoscimento e la sostituisce nel sistema di riconoscimento.

Campo di unione audio_source. L'origine audio, che è un contenuto in linea o un URI di Google Cloud Storage. audio_source può essere solo uno dei seguenti:
content

bytes

I byte dei dati audio codificati come specificato in RecognitionConfig. Come per tutti i campi di byte, i buffer dei proto utilizzano una rappresentazione binaria pura, mentre le rappresentazioni JSON usano il formato base64.

uri

string

URI che rimanda a un file contenente byte di dati audio come specificato in RecognitionConfig. Il file non deve essere compresso (ad esempio, gzip). Al momento sono supportati solo gli URI di Google Cloud Storage, che devono essere specificati nel seguente formato: gs://bucket_name/object_name (altri formati URI restituiscono INVALID_ARGUMENT). Per ulteriori informazioni, consulta la sezione URI delle richieste.

RecognizeResponse

Messaggio di risposta per il metodo Recognize.

Campi
results[]

SpeechRecognitionResult

Elenco sequenziale dei risultati della trascrizione corrispondenti a parti sequenziali di audio.

metadata

RecognitionResponseMetadata

I metadati sul riconoscimento.

Riconoscimento

Un messaggio del riconoscimento. Archivia la configurazione del riconoscimento e i metadati.

Campi
name

string

Solo output. Identificatore. Il nome della risorsa del riconoscimento. Formato: projects/{project}/locations/{location}/recognizers/{recognizer}.

uid

string

Solo output. Identificatore univoco assegnato dal sistema per il riconoscimento.

display_name

string

Nome leggibile e configurabile dall'utente per il riconoscimento. Deve avere una lunghezza massima di 63 caratteri.

model
(deprecated)

string

Facoltativo. Questo campo è stato ritirato. Preferisci il campo model al messaggio RecognitionConfig.

Quale modello utilizzare per le richieste di riconoscimento. Seleziona il modello più adatto al tuo dominio per ottenere risultati ottimali.

Le indicazioni per la scelta del modello da utilizzare sono disponibili nella documentazione sui modelli di trascrizione, mentre i modelli supportati in ogni regione sono disponibili nella tabella dei modelli supportati.

language_codes[]
(deprecated)

string

Facoltativo. Questo campo è stato ritirato. Preferisci il campo language_codes al messaggio RecognitionConfig.

La lingua dell'audio fornito sotto forma di tag lingua BCP-47.

Le lingue supportate per ogni modello sono elencate nella Tabella dei modelli supportati.

Se vengono fornite altre lingue, il risultato del riconoscimento conterrà il riconoscimento nella lingua più probabile rilevata. Il risultato del riconoscimento includerà il tag della lingua rilevata nell'audio. Quando crei o aggiorni un riconoscimento, questi valori vengono memorizzati nel formato BCP-47 normalizzato. Ad esempio, "en-us" viene memorizzato come "en-US".

default_recognition_config

RecognitionConfig

Configurazione predefinita da utilizzare per le richieste con questo riconoscimento. Può essere sovrascritta dalla configurazione incorporata nel campo RecognizeRequest.config.

annotations

map<string, string>

Consente agli utenti di archiviare piccole quantità di dati arbitrari. Sia la chiave che il valore devono contenere al massimo 63 caratteri ciascuno. Massimo 100 annotazioni.

state

State

Solo output. Lo stato del ciclo di vita del riconoscimento.

create_time

Timestamp

Solo output. Data/ora creazione.

update_time

Timestamp

Solo output. L'ultima volta che questo riconoscimento è stato modificato.

delete_time

Timestamp

Solo output. La data e l'ora in cui è stata richiesta l'eliminazione di questo riconoscimento.

expire_time

Timestamp

Solo output. La data in cui il riconoscimento verrà eliminato definitivamente.

etag

string

Solo output. Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere.

reconciling

bool

Solo output. Indica se il riconoscimento è in fase di aggiornamento.

kms_key_name

string

Solo output. Il nome della chiave KMS con cui è criptato il riconoscimento. Il formato previsto è projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}.

kms_key_version_name

string

Solo output. Il nome della versione della chiave KMS con cui è criptato il riconoscimento. Il formato previsto è projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}.

Stato

Insieme di stati che definiscono il ciclo di vita di un riconoscimento.

Enum
STATE_UNSPECIFIED Il valore predefinito. Questo valore viene utilizzato se lo stato viene omesso.
ACTIVE Il riconoscimento è attivo e pronto per l'uso.
DELETED Questo riconoscimento è stato eliminato.

SpeakerDiarizationConfig

Configurazione per abilitare la diarizzazione dello speaker.

Campi
min_speaker_count

int32

Obbligatorio. Numero minimo di partecipanti alla conversazione. Questo intervallo offre una maggiore flessibilità, consentendo al sistema di determinare automaticamente il numero corretto di speaker.

Per correggere il numero di speaker rilevati nell'audio, imposta min_speaker_count = max_speaker_count.

max_speaker_count

int32

Obbligatorio. Numero massimo di partecipanti alla conversazione. I valori validi sono: 1-6. Deve essere >= min_speaker_count. Questo intervallo offre una maggiore flessibilità, consentendo al sistema di determinare automaticamente il numero corretto di speaker.

SpeechAdaptation

Fornisce "suggerimenti" al riconoscimento vocale per favorire parole e frasi specifiche nei risultati. I PhraseSet possono essere specificati come risorsa in linea o come riferimento a una risorsa PhraseSet esistente.

Campi
phrase_sets[]

AdaptationPhraseSet

Un elenco di PhraseSet in linea o a cui fa riferimento.

custom_classes[]

CustomClass

Un elenco di classi personalizzate in linea. È possibile fare riferimento direttamente alle risorse CustomClass esistenti in un PhraseSet.

AdaptationPhraseSet

Un PhraseSet con differenziazione, che può essere una stringa che fa riferimento al nome di una risorsa PhraseSets esistente o una definizione in linea di un PhraseSet.

Campi

Campo di unione value.

value può essere solo uno dei seguenti:

phrase_set

string

Il nome di una risorsa PhraseSet esistente. L'utente deve avere accesso in lettura alla risorsa e questa non deve essere eliminata.

inline_phrase_set

PhraseSet

Un PhraseSet definito in linea.

SpeechRecognitionAlternative

Ipotesi alternative (ovvero elenco n-best).

Campi
transcript

string

Testo della trascrizione che rappresenta le parole pronunciate dall'utente.

confidence

float

La stima di confidenza è compresa tra 0,0 e 1,0. Un numero più alto indica una stima maggiore probabilità che le parole riconosciute siano corrette. Questo campo è impostato solo per l'alternativa superiore di un risultato non di streaming o di un risultato di streaming in cui is_final è impostato su true. Non è garantito che questo campo sia preciso e gli utenti non devono farvi affidamento per essere fornito sempre. Il valore predefinito 0,0 è un valore sentinel che indica che confidence non è stato impostato.

words[]

WordInfo

Un elenco di informazioni specifiche di ogni parola riconosciuta. Una volta impostato SpeakerDiarizationConfig, vedrai tutte le parole dall'inizio dell'audio.

SpeechRecognitionResult

Un risultato di riconoscimento vocale corrispondente a una parte dell'audio.

Campi
alternatives[]

SpeechRecognitionAlternative

Può contenere una o più ipotesi di riconoscimento. Queste alternative vengono ordinate in termini di precisione, dove la migliore (la prima) alternativa è la più probabile, in base alla classificazione del riconoscimento.

channel_tag

int32

Per l'audio multicanale, si tratta del numero del canale corrispondente al risultato riconosciuto per l'audio proveniente da quel canale. Per audio_channel_count = N, i valori di output possono variare da 1 a N.

result_end_offset

Duration

Offset temporale della fine di questo risultato rispetto all'inizio dell'audio.

language_code

string

Solo output. Il tag della lingua BCP-47 per la lingua in questo risultato. È stato rilevato che questo codice lingua ha maggiori probabilità di essere pronunciato nell'audio.

SrtOutputFileFormatConfig

Questo tipo non contiene campi.

File di sottotitoli in formato SubRip Text per le configurazioni di output.

StreamingRecognitionConfig

Fornisce informazioni di configurazione per la richiesta StreamingRecognition.

Campi
config

RecognitionConfig

Obbligatorio. Funzionalità e metadati audio da utilizzare per il riconoscimento vocale automatico. Questo campo, in combinazione con il campo config_mask, può essere utilizzato per sostituire parti del default_recognition_config della risorsa Riconoscimento.

config_mask

FieldMask

L'elenco di campi in config che sostituiscono i valori nel default_recognition_config del riconoscimento durante la richiesta di riconoscimento. Se non viene fornita alcuna maschera, tutti i campi con valori non predefiniti in config sostituiscono i valori nel riconoscimento per questa richiesta di riconoscimento. Se viene fornita una maschera, solo i campi elencati nella maschera sostituiscono la configurazione nel riconoscimento per questa richiesta di riconoscimento. Se viene fornito un carattere jolly (*), config sostituisce completamente la configurazione nel riconoscimento per questa richiesta di riconoscimento e la sostituisce nel sistema di riconoscimento.

streaming_features

StreamingRecognitionFeatures

Funzionalità di riconoscimento vocale per consentire specifiche richieste di riconoscimento audio in streaming.

StreamingRecognitionFeatures

Funzioni di riconoscimento disponibili specifiche per le richieste di riconoscimento dello streaming.

Campi
enable_voice_activity_events

bool

Se true, le risposte con eventi vocali relativi ad attività vocale verranno restituite non appena vengono rilevate.

interim_results

bool

Se trasmettere o meno i risultati provvisori al cliente. Se è impostato su true, i risultati provvisori verranno trasmessi al client. In caso contrario, verrà riprodotta in streaming solo la risposta finale.

voice_activity_timeout

VoiceActivityTimeout

Se questa impostazione è impostata, il server chiuderà automaticamente lo stream una volta trascorso il periodo di tempo specificato dopo l'invio dell'ultimo evento vocale VOICE_ACTIVITY. Anche il campo voice_activity_events deve essere impostato su true.

VoiceActivityTimeout

Eventi per i quali è possibile impostare un timeout per l'attività vocale.

Campi
speech_start_timeout

Duration

Durata della timeout dello stream se non inizia alcun discorso. Se il criterio è impostato e non viene rilevato alcun parlato in questa durata all'inizio dello stream, il server chiuderà lo stream.

speech_end_timeout

Duration

Durata per timeout dello stream al termine della voce. Se questa impostazione è impostata e non viene rilevato alcun parlato in questo periodo di tempo dopo il rilevamento, il server chiude lo stream.

StreamingRecognitionResult

Un risultato di riconoscimento vocale in streaming corrispondente a una parte dell'audio attualmente in fase di elaborazione.

Campi
alternatives[]

SpeechRecognitionAlternative

Può contenere una o più ipotesi di riconoscimento. Queste alternative vengono ordinate in termini di precisione, dove la migliore (la prima) alternativa è la più probabile, in base alla classificazione del riconoscimento.

is_final

bool

Se false, questo StreamingRecognitionResult rappresenta un risultato temporaneo che potrebbe cambiare. Se true, questa è l'ultima volta che il servizio vocale restituisce questo StreamingRecognitionResult specifico, il riconoscimento non restituirà altre ipotesi per questa parte della trascrizione e l'audio corrispondente.

stability

float

Una stima della probabilità che il riconoscimento non modifichi la sua ipotesi su questo risultato temporaneo. I valori vanno da 0.0 (completamente instabile) a 1.0 (completamente stabile). Questo campo è fornito solo per i risultati provvisori (is_final=false). Il valore predefinito 0,0 è un valore sentinel che indica che stability non è stato impostato.

result_end_offset

Duration

Offset temporale della fine di questo risultato rispetto all'inizio dell'audio.

channel_tag

int32

Per l'audio multicanale, si tratta del numero del canale corrispondente al risultato riconosciuto per l'audio proveniente da quel canale. Per audio_channel_count = N, i valori di output possono variare da 1 a N.

language_code

string

Solo output. Il tag della lingua BCP-47 per la lingua in questo risultato. È stato rilevato che questo codice lingua ha maggiori probabilità di essere pronunciato nell'audio.

StreamingRecognizeRequest

Messaggio di richiesta per il metodo StreamingRecognize. Più messaggi di StreamingRecognizeRequest vengono inviati in una sola chiamata.

Se il Recognizer a cui fa riferimento recognizer contiene una configurazione di richiesta completamente specificata, il flusso può contenere solo messaggi con solo audio impostato.

In caso contrario, il primo messaggio deve contenere un messaggio recognizer e un messaggio streaming_config che specifichino in modo completo la configurazione della richiesta e non devono contenere audio. Per tutti i messaggi successivi deve essere impostato solo audio.

Campi
recognizer

string

Obbligatorio. Il nome del riconoscimento da utilizzare durante il riconoscimento. Il formato previsto è projects/{project}/locations/{location}/recognizers/{recognizer}. Il segmento {recognizer} può essere impostato su _ per utilizzare un Riconoscimento implicito vuoto.

Campo di unione streaming_request.

streaming_request può essere solo uno dei seguenti:

streaming_config

StreamingRecognitionConfig

StreamingRecognitionConfig da utilizzare in questo tentativo di riconoscimento. Se fornito, questo sostituirà il valore RecognitionConfig predefinito memorizzato nel riconoscimento.

audio

bytes

Byte audio in linea da riconoscere. La dimensione massima di questo campo è 15 kB per richiesta.

StreamingRecognizeResponse

StreamingRecognizeResponse è l'unico messaggio restituito al client da StreamingRecognize. Una serie di zero o più messaggi StreamingRecognizeResponse viene riprodotta in streaming al client. Se non esiste un audio riconoscibile, i messaggi non vengono trasmessi nuovamente al client.

Di seguito sono riportati alcuni esempi di StreamingRecognizeResponse che potrebbero essere restituiti durante l'elaborazione dell'audio:

  1. results { alternatives { transcript: "tube" } stability: 0.01 }

  2. results { alternatives { transcript: "to be a" } stability: 0.01 }

  3. results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }

  4. results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }

  5. results { alternatives { transcript: " that's" } stability: 0.01 }

  6. results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }

  7. results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }

Note

  • Solo due delle precedenti risposte 4 e 7 contengono risultati finali; sono indicate da is_final: true. La concatenazione di questi elementi genera la trascrizione completa: "essere o non essere questa è la domanda".

  • Gli altri contengono results provvisori. Il numero 3 e il numero 6 contengono due results provvisori: la prima parte ha un'elevata stabilità e ha meno probabilità di cambiare; la seconda ha una stabilità bassa ed è molto probabile che cambi. Un progettista UI potrebbe scegliere di mostrare solo results ad alta stabilità.

  • I valori specifici di stability e confidence mostrati sopra sono solo a scopo illustrativo. I valori effettivi possono variare.

  • In ogni risposta, verrà impostato solo uno di questi campi: error, speech_event_type o uno o più results (ripetuti).

Campi
results[]

StreamingRecognitionResult

Questo elenco ripetuto contiene zero o più risultati corrispondenti a parti consecutive dell'audio attualmente in fase di elaborazione. Contiene zero o un risultato is_final=true (la parte appena liquidata), seguiti da zero o più risultati is_final=false (i risultati provvisori).

speech_event_type

SpeechEventType

Indica il tipo di evento vocale.

speech_event_offset

Duration

Differenza temporale tra l'inizio dell'audio e l'emissione dell'evento.

metadata

RecognitionResponseMetadata

I metadati sul riconoscimento.

SpeechEventType

Indica il tipo di evento vocale.

Enum
SPEECH_EVENT_TYPE_UNSPECIFIED Nessun evento vocale specificato.
END_OF_SINGLE_UTTERANCE Questo evento indica che il server ha rilevato la fine delle frasi vocali dell'utente e non si aspetta ulteriori comandi vocali. Di conseguenza, il server non elaborerà audio aggiuntivo e chiuderà lo stream bidirezionale gRPC. Questo evento viene inviato solo se si è verificato un interruzione forzata dovuta al rilevamento anticipato del silenzio. Questo evento è disponibile solo tramite il latest_short model.
SPEECH_ACTIVITY_BEGIN Questo evento indica che il server ha rilevato l'inizio dell'attività vocale umana nello stream. Questo evento può essere restituito più volte se la voce inizia e si interrompe ripetutamente durante lo stream. Questo evento viene inviato solo se il criterio voice_activity_events è impostato su true.
SPEECH_ACTIVITY_END Questo evento indica che il server ha rilevato la fine dell'attività vocale umana nello stream. Questo evento può essere restituito più volte se la voce inizia e si interrompe ripetutamente durante lo stream. Questo evento viene inviato solo se il criterio voice_activity_events è impostato su true.

TranscriptNormalization

Configurazione di normalizzazione della trascrizione. Usa la normalizzazione della trascrizione per sostituire automaticamente parti della trascrizione con frasi di tua scelta. Per StreamingRiconoscimento, questa normalizzazione si applica solo alle trascrizioni parziali stabili (stabilità > 0,8) e alle trascrizioni finali.

Campi
entries[]

Entry

Un elenco di voci sostitutive. Effettueremo la sostituzione con una voce alla volta. Ad esempio, la seconda voce in ["gatto" => "cane", "gatto di montagna" => "cane di montagna"] non verrà mai applicata perché elaboreremo sempre la prima voce precedente. Massimo 100 voci.

Voce

Un'unica configurazione sostitutiva.

Campi
search

string

Cosa sostituire. La lunghezza massima è di 100 caratteri.

replace

string

Con cosa sostituire. La lunghezza massima è di 100 caratteri.

case_sensitive

bool

Se la ricerca è sensibile alle maiuscole.

UndeleteCustomClassRequest

Messaggio di richiesta per il metodo UndeleteCustomClass.

Campi
name

string

Obbligatorio. Il nome del CustomClass di cui annullare l'eliminazione. Formato: projects/{project}/locations/{location}/customClasses/{custom_class}

validate_only

bool

Se impostato, convalida la richiesta e visualizza l'anteprima del CustomClass non eliminato, ma non annullarlo effettivamente.

etag

string

Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere.

UndeletePhraseSetRequest

Messaggio di richiesta per il metodo UndeletePhraseSet.

Campi
name

string

Obbligatorio. Il nome del PhraseSet di cui annullare l'eliminazione. Formato: projects/{project}/locations/{location}/phraseSets/{phrase_set}

validate_only

bool

Se impostato, convalida la richiesta e visualizza l'anteprima del PhraseSet non eliminato, ma non annullarne l'eliminazione.

etag

string

Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere.

UndeleteRecognizerRequest

Messaggio di richiesta per il metodo UndeleteRecognizer.

Campi
name

string

Obbligatorio. Il nome del riconoscimento di cui annullare l'eliminazione. Formato: projects/{project}/locations/{location}/recognizers/{recognizer}

validate_only

bool

Se impostato, convalida la richiesta e visualizza l'anteprima del riconoscimento non eliminato, ma non annullarne l'eliminazione.

etag

string

Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere.

UpdateConfigRequest

Messaggio di richiesta per il metodo UpdateConfig.

Campi
config

Config

Obbligatorio. La configurazione da aggiornare.

Il campo name della configurazione viene utilizzato per identificare la configurazione da aggiornare. Il formato previsto è projects/{project}/locations/{location}/config.

update_mask

FieldMask

L'elenco dei campi da aggiornare.

UpdateCustomClassRequest

Messaggio di richiesta per il metodo UpdateCustomClass.

Campi
custom_class

CustomClass

Obbligatorio. Il valore CustomClass da aggiornare.

Il campo name del CustomClass viene utilizzato per identificare il CustomClass da aggiornare. Formato: projects/{project}/locations/{location}/customClasses/{custom_class}.

update_mask

FieldMask

L'elenco dei campi da aggiornare. Se è vuoto, tutti i campi vengono presi in considerazione per l'aggiornamento.

validate_only

bool

Se impostato, convalida la richiesta e visualizza l'anteprima del CustomClass aggiornato, ma non aggiornarlo effettivamente.

UpdatePhraseSetRequest

Messaggio di richiesta per il metodo UpdatePhraseSet.

Campi
phrase_set

PhraseSet

Obbligatorio. Il valore PhraseSet da aggiornare.

Il campo name di PhraseSet viene utilizzato per identificare il set di frasi da aggiornare. Formato: projects/{project}/locations/{location}/phraseSets/{phrase_set}.

update_mask

FieldMask

L'elenco di campi da aggiornare. Se sono vuoti, tutti i campi con valori non predefiniti vengono presi in considerazione per l'aggiornamento. Usa * per aggiornare l'intera risorsa PhraseSet.

validate_only

bool

Se impostato, convalida la richiesta e visualizza l'anteprima del PhraseSet aggiornato, ma non aggiornarlo effettivamente.

UpdateRecognizerRequest

Messaggio di richiesta per il metodo UpdateRecognizer.

Campi
recognizer

Recognizer

Obbligatorio. Il riconoscimento da aggiornare.

Il campo name del riconoscimento viene utilizzato per identificare il riconoscimento da aggiornare. Formato: projects/{project}/locations/{location}/recognizers/{recognizer}.

update_mask

FieldMask

L'elenco di campi da aggiornare. Se sono vuoti, tutti i campi con valori non predefiniti vengono presi in considerazione per l'aggiornamento. Usa * per aggiornare l'intera risorsa Riconoscimento.

validate_only

bool

Se impostato, convalida la richiesta e visualizza l'anteprima del riconoscimento aggiornato, ma non aggiornarlo effettivamente.

VttOutputFileFormatConfig

Questo tipo non contiene campi.

Configurazioni di output per il file dei sottotitoli in formato WebVTT.

WordInfo

Informazioni specifiche di una parola per le parole riconosciute.

Campi
start_offset

Duration

Differenza temporale rispetto all'inizio dell'audio e corrispondente all'inizio del parlato. Questo campo viene impostato solo se enable_word_time_offsets è true e solo nell'ipotesi superiore. Questa è una funzionalità sperimentale e la precisione della offset temporale può variare.

end_offset

Duration

Differenza temporale rispetto all'inizio dell'audio e corrispondente alla fine del parlato. Questo campo viene impostato solo se enable_word_time_offsets è true e solo nell'ipotesi superiore. Questa è una funzionalità sperimentale e la precisione della offset temporale può variare.

word

string

La parola corrispondente a questo insieme di informazioni.

confidence

float

La stima di confidenza è compresa tra 0,0 e 1,0. Un numero più alto indica una stima maggiore probabilità che le parole riconosciute siano corrette. Questo campo è impostato solo per l'alternativa superiore di un risultato non di streaming o di un risultato di streaming in cui is_final è impostato su true. Non è garantito che questo campo sia preciso e gli utenti non devono farvi affidamento per essere fornito sempre. Il valore predefinito 0,0 è un valore sentinel che indica che confidence non è stato impostato.

speaker_label

string

Viene assegnata un'etichetta distinta a ogni persona che parla nell'audio. Questo campo specifica quale di questi interlocutori è stato rilevato che ha pronunciato questa parola. speaker_label viene impostato se viene specificato SpeakerDiarizationConfig e solo nell'alternativa superiore.