Transcrever voz em texto usando a API
Nesta página, você aprende a enviar uma solicitação de reconhecimento de fala à
Cloud Speech-to-Text usando a interface REST
e o comando curl.
A Cloud Speech-to-Text permite a fácil integração das tecnologias de reconhecimento de fala do Google nos aplicativos do desenvolvedor. Você pode enviar dados de áudio à API Cloud Speech-to-Text e ela retorna uma transcrição em texto do arquivo de áudio. Para saber mais sobre o serviço, consulte Noções básicas da Cloud STT.
Antes de começar
Antes de enviar uma solicitação à API Cloud Speech-to-Text, realize as ações abaixo. Consulte a página Antes de começar para saber mais.
- Ative a Cloud Speech-to-Text em um projeto do Google Cloud .
- Verifique se o faturamento está ativado para a Cloud Speech-to-Text.
- Verifique se você tem as permissões necessárias para realizar este guia. Se você criou um projeto para este guia, já tem as permissões necessárias.
-
Instale a CLI do Google Cloud. Após a instalação, inicialize a CLI do Google Cloud executando o seguinte comando:
gcloud initAo usar um provedor de identidade (IdP) externo, primeiro faça login na gcloud CLI com sua identidade federada.
- (Opcional) Criar um bucket do Google Cloud Storage para armazenar dados de áudio.
Papéis necessários
Para receber as permissões necessárias
para transcrever voz em texto,
peça ao administrador para conceder a você o
papel do IAM de Consumidor do Service Usage (roles/serviceusage.serviceUsageConsumer)
no projeto.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Fazer uma solicitação de transcrição de áudio
Agora é possível usar a Cloud STT para transcrever um arquivo de áudio
em texto. Use o exemplo de código a seguir para enviar
uma solicitação REST recognize à API Cloud Speech-to-Text.
-
Crie um arquivo de solicitação JSON com o seguinte texto e salve-o como um arquivo de texto simples
sync-request.json:{ "config": { "encoding":"FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }Este snippet JSON indica que o arquivo de áudio tem um formato de codificação FLAC, uma taxa de amostragem de 16.000 Hz e está armazenado no Google Cloud Storage no URI fornecido. O arquivo de áudio é de acesso público. Portanto, você não precisa de credenciais de autenticação para acessá-lo.
-
Use
curlpara fazer uma solicitaçãospeech:recognize, passando para ela o nome de arquivo da solicitação JSON que você configurou na etapa 1:O comando de amostra
curlusa o comandogcloud auth print-access-tokenpara receber um token de autenticação.curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ https://speech.googleapis.com/v1/speech:recognize \ -d @sync-request.jsonPara transmitir um nome de arquivo ao
curl, use a opção-d(de dados) e coloque o sinal@na frente do nome do arquivo. Este arquivo deve estar no mesmo diretório em que você executa o comandocurl.Uma resposta semelhante a esta será exibida:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
Parabéns! Você enviou sua primeira solicitação à Cloud STT.
Se você receber um erro ou uma resposta vazia da Cloud STT, analise as etapas de solução de problemas e mitigação de erros.
Limpeza
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga as etapas abaixo.
- Use o Google Cloud console para excluir o projeto, se você não precisar mais dele.
A seguir
- Pratique a transcrição de arquivos de áudio curtos.
- Saiba como agrupar arquivos de áudio longos para reconhecimento de fala.
- Aprenda a transcrever áudios de streaming, por exemplo, de um microfone.
- Comece a usar a Cloud STT no seu idioma preferencial com uma biblioteca de cliente da Cloud STT.
- Trabalhe com os aplicativos de amostra.
- Consulte a documentação de práticas recomendadas para ter melhor desempenho e acurácia e conferir outras dicas.