É possível especificar que o Speech-to-Text indique um valor de precisão ou nível de confiança para palavras individuais em uma transcrição.
Nível de confiança por palavra
Ao transcrever um clipe de áudio, o Speech-to-Text também mede o grau de precisão da resposta. O nível de confiança da solicitação de transcrição completa é indicado como um número entre 0,0 e 1,0 na resposta enviada pela API. Veja na amostra de código a seguir um exemplo do nível de confiança retornado pela Speech-to-Text.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.96748614 } ] } ] }
Além do nível de confiança da transcrição completa, a Speech-to-Text também pode indicar o nível de confiança de palavras individuais dentro da transcrição. Nesse caso, a resposta
inclui os detalhes WordInfo
na transcrição,
indicando o nível de confiança de palavras individuais, conforme podemos ver no
exemplo a seguir.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startOffset": "0s", "endOffset": "0.300s", "word": "how", "confidence": SOME NUMBER }, ... ] } ] } ] }
Ativar o nível de confiança por palavra em uma solicitação
O snippet de código a seguir demonstra como ativar a confiança em nível de palavra em uma solicitação de transcrição para Speech-to-Text usando arquivos locais e remotos.
Usar um arquivo local
Protocolo
Consulte o endpoint da API speech:recognize
para ver todos os detalhes.
Para executar o reconhecimento de fala síncrono, faça uma solicitação POST
e forneça o corpo apropriado a ela. Veja a seguir um exemplo de uma solicitação POST
usando curl
. O exemplo usa a CLI do Google Cloud para gerar um token de acesso. Para instruções sobre como instalar a gcloud CLI,
consulte o guia de início rápido.
O exemplo a seguir mostra como enviar uma solicitação POST
usando curl
,
onde o corpo da solicitação habilita a confiança em nível de palavra.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v2/projects/{project}/locations/global/recognizers/{recognizers}:recognize \ --data '{ "config": { "features": { "enableWordTimeOffsets": true, "enableWordConfidence": true } }, "uri": "gs://cloud-samples-tests/speech/brooklyn.flac" }' > word-level-confidence.txt
Quando a solicitação é bem-sucedida, o servidor retorna um código de status HTTP 200 OK
e a resposta no formato JSON, salvos em um arquivo
chamado word-level-confidence.txt
.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startTime": "0s", "endTime": "0.300s", "word": "how", "confidence": 0.98762906 }, { "startTime": "0.300s", "endTime": "0.600s", "word": "old", "confidence": 0.96929157 }, { "startTime": "0.600s", "endTime": "0.800s", "word": "is", "confidence": 0.98271006 }, { "startTime": "0.800s", "endTime": "0.900s", "word": "the", "confidence": 0.98271006 }, { "startTime": "0.900s", "endTime": "1.100s", "word": "Brooklyn", "confidence": 0.98762906 }, { "startTime": "1.100s", "endTime": "1.500s", "word": "Bridge", "confidence": 0.98762906 } ] } ], "languageCode": "en-us" } ] }
Python
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Python.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.