Puoi specificare che Speech-to-Text indichi un valore di accuratezza o livello di confidenza per le singole parole di una trascrizione.
Affidabilità a livello di parola
Quando la funzionalità di conversione della voce in testo trascribe un clip audio, misura anche il grado di accuratezza della risposta. La risposta inviato da Speech-to-Text indica il livello di confidenza l'intera richiesta di trascrizione sotto forma di numero compreso tra 0,0 e 1,0. Il seguente esempio di codice mostra un esempio del livello di confidenza restituito da Speech-to-Text.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.96748614 } ] } ] }
Oltre al livello di confidenza dell'intera trascrizione,
Speech-to-Text può anche fornire il livello di confidenza delle singole parole all'interno della trascrizione. La risposta quindi
include i dettagli di WordInfo
nella trascrizione,
che indica il livello di confidenza delle singole parole, come mostrato
dall'esempio seguente.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startOffset": "0s", "endOffset": "0.300s", "word": "how", "confidence": SOME NUMBER }, ... ] } ] } ] }
Attivare la sicurezza a livello di parola in una richiesta
Il seguente snippet di codice illustra come attivare l'impostazione a livello di parola affidabilità di una richiesta di trascrizione a Speech-to-Text utilizzando file locali e remoti.
Utilizzare un file locale
Protocollo
Per informazioni dettagliate, consulta l'endpoint dell'API speech:recognize
.
Per eseguire il riconoscimento vocale sincrono, effettua una richiesta POST
e fornisci il
corpo della richiesta appropriato. Di seguito è riportato un esempio di richiesta POST
mediante curl
. L'esempio utilizza Google Cloud CLI per generare un
token di accesso. Per istruzioni sull'installazione di gcloud CLI, consulta la guida rapida.
L'esempio seguente mostra come inviare una richiesta POST
utilizzando curl
,
dove il corpo della richiesta consente l'affidabilità a livello di parola.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v2/projects/{project}/locations/global/recognizers/{recognizers}:recognize \ --data '{ "config": { "features": { "enableWordTimeOffsets": true, "enableWordConfidence": true } }, "uri": "gs://cloud-samples-tests/speech/brooklyn.flac" }' > word-level-confidence.txt
Se la richiesta riesce, il server restituisce un HTTP 200 OK
codice di stato e la risposta in formato JSON, salvati in un file
denominato word-level-confidence.txt
.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startTime": "0s", "endTime": "0.300s", "word": "how", "confidence": 0.98762906 }, { "startTime": "0.300s", "endTime": "0.600s", "word": "old", "confidence": 0.96929157 }, { "startTime": "0.600s", "endTime": "0.800s", "word": "is", "confidence": 0.98271006 }, { "startTime": "0.800s", "endTime": "0.900s", "word": "the", "confidence": 0.98271006 }, { "startTime": "0.900s", "endTime": "1.100s", "word": "Brooklyn", "confidence": 0.98762906 }, { "startTime": "1.100s", "endTime": "1.500s", "word": "Bridge", "confidence": 0.98762906 } ] } ], "languageCode": "en-us" } ] }
Python
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta API Python Speech-to-Text documentazione di riferimento.
Per eseguire l'autenticazione a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.