É possível solicitar que a Cloud Speech-to-Text indique um valor de acurácia ou um nível de confiança para palavras individuais em uma transcrição.
Nível de confiança por palavra
Ao transcrever um clipe de áudio, a Cloud Speech-to-Text também mede o nível de acurácia da resposta. O nível de confiança da solicitação de transcrição completa é indicado como um número entre 0,0 e 1,0 na resposta enviada pela Cloud STT. Confira a seguir um exemplo de código com um nível de confiança retornado pela Cloud STT.
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.96748614
}
]
}
]
}
Além do nível de confiança da transcrição
completa, a Cloud STT também pode indicar
o nível de confiança por palavra na transcrição. Nesse caso, a resposta
inclui os detalhes WordInfo na transcrição,
indicando o nível de confiança por palavra, conforme mostrado no
exemplo a seguir.
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98360395,
"words": [
{
"startOffset": "0s",
"endOffset": "0.300s",
"word": "how",
"confidence": SOME NUMBER
},
...
]
}
]
}
]
}
Ativar o nível de confiança por palavra em uma solicitação
O snippet de código a seguir demonstra como ativar o nível de confiança por palavra em uma solicitação de transcrição feita à Cloud Speech-to-Text usando arquivos locais e remotos.
Usar um arquivo local
REST
Consulte o endpoint de API speech:recognize
para saber todos os detalhes.
Para realizar o reconhecimento de fala síncrono, faça uma solicitação POST e forneça o
corpo de solicitação apropriado. Confira a seguir um exemplo de uma solicitação POST que usa
curl. O exemplo usa a CLI do Google Cloud para gerar um token
de acesso. Para saber como instalar a gcloud CLI,
consulte o guia de início rápido.
O exemplo a seguir mostra como enviar uma solicitação POST usando curl,
em que o corpo da solicitação ativa o nível de confiança por palavra.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v2/projects/{project}/locations/global/recognizers/{recognizers}:recognize \ --data '{ "config": { "features": { "enableWordTimeOffsets": true, "enableWordConfidence": true } }, "uri": "gs://cloud-samples-tests/speech/brooklyn.flac" }' > word-level-confidence.txt
Quando a solicitação é bem-sucedida, o servidor retorna um código de status HTTP 200 OK
e a resposta no formato JSON, e ambos são
salvos em um arquivo chamado word-level-confidence.txt.
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98360395,
"words": [
{
"startOffset": "0s",
"endOffset": "0.300s",
"word": "how",
"confidence": 0.98762906
},
{
"startOffset": "0.300s",
"endOffset": "0.600s",
"word": "old",
"confidence": 0.96929157
},
{
"startOffset": "0.600s",
"endOffset": "0.800s",
"word": "is",
"confidence": 0.98271006
},
{
"startOffset": "0.800s",
"endOffset": "0.900s",
"word": "the",
"confidence": 0.98271006
},
{
"startOffset": "0.900s",
"endOffset": "1.100s",
"word": "Brooklyn",
"confidence": 0.98762906
},
{
"startOffset": "1.100s",
"endOffset": "1.500s",
"word": "Bridge",
"confidence": 0.98762906
}
]
}
],
"languageCode": "en-us"
}
]
}
Python
Para saber como instalar e usar a biblioteca de cliente da Cloud STT, consulte Bibliotecas de cliente da Cloud STT. Saiba mais na documentação de referência da API Cloud STT para Python.
Para se autenticar na Cloud STT, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.