Puoi specificare che Speech-to-Text indica un valore di accuratezza, o livello di confidenza, per singole parole in una trascrizione.
Affidabilità a livello di parola
Quando Speech-to-Text trascrive un clip audio, misura il grado di accuratezza della risposta. La risposta inviato da Speech-to-Text indica il livello di confidenza l'intera richiesta di trascrizione sotto forma di numero compreso tra 0,0 e 1,0. Il seguente esempio di codice mostra un esempio del livello di confidenza restituito da Speech-to-Text.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.96748614 } ] } ] }
Oltre al livello di confidenza dell'intera trascrizione,
Speech-to-Text può inoltre fornire il livello di confidenza
singole parole nella trascrizione. La risposta quindi
include i dettagli di WordInfo
nella trascrizione,
che indica il livello di confidenza delle singole parole, come mostrato
dall'esempio seguente.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startOffset": "0s", "endOffset": "0.300s", "word": "how", "confidence": SOME NUMBER }, ... ] } ] } ] }
Attivare l'affidabilità a livello di parola in una richiesta
Il seguente snippet di codice illustra come attivare l'impostazione a livello di parola affidabilità di una richiesta di trascrizione a Speech-to-Text utilizzando file locali e remoti.
Utilizza un file locale
Protocollo
Consulta le speech:recognize
Endpoint API per i dettagli completi.
Per eseguire il riconoscimento vocale sincrono, effettua una richiesta POST
e fornisci il
corpo della richiesta appropriato. Di seguito è riportato un esempio di richiesta POST
che utilizza
curl
. L'esempio utilizza Google Cloud CLI per generare un accesso
di accesso. Per istruzioni sull'installazione di gcloud CLI,
consulta la guida rapida.
L'esempio seguente mostra come inviare una richiesta POST
utilizzando curl
,
dove il corpo della richiesta consente l'affidabilità a livello di parola.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v2/projects/{project}/locations/global/recognizers/{recognizers}:recognize \ --data '{ "config": { "features": { "enableWordTimeOffsets": true, "enableWordConfidence": true } }, "uri": "gs://cloud-samples-tests/speech/brooklyn.flac" }' > word-level-confidence.txt
Se la richiesta riesce, il server restituisce un HTTP 200 OK
codice di stato e la risposta in formato JSON, salvati in un file
denominato word-level-confidence.txt
.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startTime": "0s", "endTime": "0.300s", "word": "how", "confidence": 0.98762906 }, { "startTime": "0.300s", "endTime": "0.600s", "word": "old", "confidence": 0.96929157 }, { "startTime": "0.600s", "endTime": "0.800s", "word": "is", "confidence": 0.98271006 }, { "startTime": "0.800s", "endTime": "0.900s", "word": "the", "confidence": 0.98271006 }, { "startTime": "0.900s", "endTime": "1.100s", "word": "Brooklyn", "confidence": 0.98762906 }, { "startTime": "1.100s", "endTime": "1.500s", "word": "Bridge", "confidence": 0.98762906 } ] } ], "languageCode": "en-us" } ] }
Python
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta API Python di Speech-to-Text documentazione di riferimento.
Per eseguire l'autenticazione a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.