Vous pouvez indiquer à Speech-to-Text de définir une valeur de précision ou un niveau de confiance pour les mots individuels d'une transcription.
Confiance au niveau du mot
Lorsque Speech-to-Text transcrit un extrait audio, il mesure également le degré de précision de la réponse. La réponse envoyée par Speech-to-Text indique le niveau de confiance pour l'ensemble de la requête de transcription sous la forme d'un nombre compris entre 0,0 et 1,0. L'exemple de code ci-dessous illustre l'affichage d'une valeur de niveau de confiance par Speech-to-Text.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.96748614 } ] } ] }
En plus du niveau de confiance portant sur l'ensemble de la transcription, Speech-to-Text peut également fournir le niveau de confiance associé à des mots individuels de la transcription. La réponse inclut ensuite les détails WordInfo
de la transcription indiquant le niveau de confiance associé à chaque mot, comme illustré dans l'exemple suivant.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startTime": "0s", "endTime": "0.300s", "word": "how", "confidence": SOME NUMBER }, ... ] } ] } ] }
Activer la confiance au niveau du mot dans une requête
L'extrait de code suivant montre comment activer la confiance au niveau du mot dans une requête de transcription envoyée à Speech-to-Text à l'aide de fichiers locaux et distants.
Utiliser un fichier local
Protocole
Reportez-vous au point de terminaison speech:recognize
de l'API pour obtenir des informations complètes.
Pour réaliser une reconnaissance vocale synchrone, exécutez une requête POST
en fournissant le corps de requête approprié. Voici un exemple de requête POST
utilisant curl
. Cet exemple fait intervenir le jeton d'accès associé à un compte de service configuré pour le projet à l'aide de Google Cloud CLI. Pour obtenir des instructions sur l'installation de la CLI gcloud, la configuration d'un projet avec un compte de service et l'obtention d'un jeton d'accès, consultez le guide de démarrage rapide.
L'exemple suivant montre comment exécuter une requête POST
en utilisant curl
, dont le corps de la requête active la confiance au niveau du mot.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1p1beta1/speech:recognize \ --data '{ "config": { "encoding": "FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": true, "enableWordConfidence": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/brooklyn.flac" } }' > word-level-confidence.txt
Si la requête aboutit, le serveur renvoie un code d'état HTTP 200 OK
et la réponse au format JSON, enregistrée dans un fichier nommé word-level-confidence.txt
.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startTime": "0s", "endTime": "0.300s", "word": "how", "confidence": 0.98762906 }, { "startTime": "0.300s", "endTime": "0.600s", "word": "old", "confidence": 0.96929157 }, { "startTime": "0.600s", "endTime": "0.800s", "word": "is", "confidence": 0.98271006 }, { "startTime": "0.800s", "endTime": "0.900s", "word": "the", "confidence": 0.98271006 }, { "startTime": "0.900s", "endTime": "1.100s", "word": "Brooklyn", "confidence": 0.98762906 }, { "startTime": "1.100s", "endTime": "1.500s", "word": "Bridge", "confidence": 0.98762906 } ] } ], "languageCode": "en-us" } ] }
Java
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Utiliser un fichier distant
Java
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.