您可以指定 Speech-to-Text 为转录文本中的每个字词指示准确度(置信度)值。
字词级置信度
在 Speech-to-Text 转写音频片段时,也会测量响应的准确度。Speech-to-Text 发送的响应以介于 0.0 与 1.0 之间的数值表示整个转录请求的置信度。 以下代码示例展示了 Speech-to-Text 返回的一个示例置信度值。
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.96748614 } ] } ] }
除了整个转录的置信度之外,Speech-to-Text 还可以提供转录内各个字词的置信度。在这种情况下,响应会在转录中包含 WordInfo
详细信息,表明各个字词的置信度,如以下示例所示。
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startOffset": "0s", "endOffset": "0.300s", "word": "how", "confidence": SOME NUMBER }, ... ] } ] } ] }
在请求中启用字词级置信度
以下代码段演示了如何使用本地和远程文件在发送给 Speech-to-Text 的转录请求中启用字词级置信度功能。
使用本地文件
协议
如需了解完整的详细信息,请参阅 speech:recognize
API 端点。
如需执行同步语音识别,请发出 POST
请求并提供相应的请求正文。以下示例展示了一个使用 curl
发出的 POST
请求。该示例使用 Google Cloud CLI 生成访问令牌。如需了解如何安装 gcloud CLI,请参阅快速入门。
以下示例展示了如何使用 curl
发送 POST
请求,其中请求正文启用了字词级置信度。
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v2/projects/{project}/locations/global/recognizers/{recognizers}:recognize \ --data '{ "config": { "features": { "enableWordTimeOffsets": true, "enableWordConfidence": true } }, "uri": "gs://cloud-samples-tests/speech/brooklyn.flac" }' > word-level-confidence.txt
如果请求成功,服务器将返回一个 200 OK
HTTP 状态代码以及 JSON 格式的响应(该响应会保存到名为 word-level-confidence.txt
的文件中)。
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startTime": "0s", "endTime": "0.300s", "word": "how", "confidence": 0.98762906 }, { "startTime": "0.300s", "endTime": "0.600s", "word": "old", "confidence": 0.96929157 }, { "startTime": "0.600s", "endTime": "0.800s", "word": "is", "confidence": 0.98271006 }, { "startTime": "0.800s", "endTime": "0.900s", "word": "the", "confidence": 0.98271006 }, { "startTime": "0.900s", "endTime": "1.100s", "word": "Brooklyn", "confidence": 0.98762906 }, { "startTime": "1.100s", "endTime": "1.500s", "word": "Bridge", "confidence": 0.98762906 } ] } ], "languageCode": "en-us" } ] }
Python
如需了解如何安装和使用 Speech-to-Text 客户端库,请参阅 Speech-to-Text 客户端库。 如需了解详情,请参阅 Speech-to-Text Python API 参考文档。
如需向 Speech-to-Text 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。