Vous pouvez indiquer à Speech-to-Text de définir une valeur de précision ou un niveau de confiance pour les mots individuels d'une transcription.
Confiance au niveau du mot
Lorsque Speech-to-Text transcrit un extrait audio, il mesure également le degré de précision de la réponse. La réponse envoyée par Speech-to-Text indique le niveau de confiance pour l'ensemble de la requête de transcription sous la forme d'un nombre compris entre 0,0 et 1,0. L'exemple de code ci-dessous illustre l'affichage d'une valeur de niveau de confiance par Speech-to-Text.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.96748614 } ] } ] }
En plus du niveau de confiance portant sur l'ensemble de la transcription, Speech-to-Text peut également fournir le niveau de confiance associé à des mots individuels de la transcription. La réponse inclut ensuite les détails WordInfo
de la transcription indiquant le niveau de confiance associé à chaque mot, comme illustré dans l'exemple suivant.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startOffset": "0s", "endOffset": "0.300s", "word": "how", "confidence": SOME NUMBER }, ... ] } ] } ] }
Activer la confiance au niveau du mot dans une requête
L'extrait de code suivant montre comment activer la confiance au niveau du mot dans une requête de transcription envoyée à Speech-to-Text à l'aide de fichiers locaux et distants.
Utiliser un fichier local
Protocole
Reportez-vous au point de terminaison speech:recognize
de l'API pour obtenir des informations complètes.
Pour réaliser une reconnaissance vocale synchrone, exécutez une requête POST
en fournissant le corps de requête approprié. Voici un exemple de requête POST
utilisant curl
. L'exemple utilise Google Cloud CLI pour générer un jeton d'accès. Pour obtenir des instructions sur l'installation de gcloud CLI, consultez le guide de démarrage rapide.
L'exemple suivant montre comment exécuter une requête POST
en utilisant curl
, dont le corps de la requête active la confiance au niveau du mot.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v2/projects/{project}/locations/global/recognizers/{recognizers}:recognize \ --data '{ "config": { "features": { "enableWordTimeOffsets": true, "enableWordConfidence": true } }, "uri": "gs://cloud-samples-tests/speech/brooklyn.flac" }' > word-level-confidence.txt
Si la requête aboutit, le serveur renvoie un code d'état HTTP 200 OK
et la réponse au format JSON, enregistrée dans un fichier nommé word-level-confidence.txt
.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startTime": "0s", "endTime": "0.300s", "word": "how", "confidence": 0.98762906 }, { "startTime": "0.300s", "endTime": "0.600s", "word": "old", "confidence": 0.96929157 }, { "startTime": "0.600s", "endTime": "0.800s", "word": "is", "confidence": 0.98271006 }, { "startTime": "0.800s", "endTime": "0.900s", "word": "the", "confidence": 0.98271006 }, { "startTime": "0.900s", "endTime": "1.100s", "word": "Brooklyn", "confidence": 0.98762906 }, { "startTime": "1.100s", "endTime": "1.500s", "word": "Bridge", "confidence": 0.98762906 } ] } ], "languageCode": "en-us" } ] }
Python
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Python.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.