Transcrever voz em texto usando a API
Veja nesta página como enviar uma solicitação de reconhecimento de fala para a Speech-to-Text usando a interface REST e o comando curl
.
A Speech-to-Text permite a fácil integração das tecnologias de reconhecimento de fala do Google nos aplicativos do desenvolvedor. Você pode enviar dados de áudio para a API Speech-to-Text, que em seguida retorna uma transcrição de texto desse arquivo de áudio. Para mais informações sobre o serviço, consulte Princípios básicos da Speech-to-Text.
Antes de começar
Antes de enviar uma solicitação para a API Speech-to-Text, é necessário concluir as ações a seguir. Consulte a página antes de começar para ver os detalhes.
- Ativar o Speech-to-Text em um projeto do GCP.
- Verificar se o faturamento está ativado para o Speech-to-Text.
-
Install the Google Cloud CLI, then initialize it by running the following command:
gcloud init
- (Opcional) Criar um novo bucket do Google Cloud Storage para armazenar dados de áudio.
Fazer uma solicitação de transcrição de áudio
Use o Speech-to-Text para transcrever um arquivo de áudio para texto. Use a amostra de código a seguir para enviar uma
recognize
solicitação REST para a API Speech-to-Text.
-
Crie um arquivo de solicitação JSON com o seguinte texto e salve-o como um arquivo de texto simples
sync-request.json
:{ "config": { "encoding":"FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
Este snippet JSON indica que o arquivo de áudio tem um formato de codificação FLAC, uma taxa de amostragem de 16.000 Hz e está armazenado no Google Cloud Storage no URI fornecido. O arquivo de áudio é de acesso público. Portanto, você não precisará de credenciais de autenticação para acessá-lo.
-
Use
curl
para fazer uma solicitaçãospeech:recognize
, passando para ela o nome de arquivo da solicitação JSON que você configurou na etapa 1:O comando de amostra
curl
usa o comandogcloud auth print-access-token
para receber um token de autenticação.curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ https://speech.googleapis.com/v1/speech:recognize \ -d @sync-request.json
Para passar o nome do arquivo ao
curl
use a opção-d
(de "dados") e coloque o sinal@
na frente do nome do arquivo. Este arquivo deve estar no mesmo diretório em que você executa o comandocurl
.Uma resposta semelhante a esta será exibida:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
Parabéns! Você enviou sua primeira solicitação para o Speech-to-Text.
Se você receber um erro ou uma resposta vazia do Speech to Text, analise as etapas de solução de problemas e de eliminação de erros.
Limpar
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
- Se você não precisar do projeto, use o console do Google Cloud para excluí-lo.
A seguir
- Pratique a transcrição de arquivos de áudio curtos.
- Saiba como agrupar arquivos de áudio longos para reconhecimento de fala.
- Aprenda a transcrever o streaming de áudio, como de um microfone.
- Dê os primeiros passos com a Speech-to-Text no idioma de sua preferência usando uma biblioteca de cliente da Speech-to-Text.
- Trabalhe com os aplicativos de amostra.
- Para ter o melhor desempenho e precisão e ver outras dicas, consulte a documentação sobre práticas recomendadas.