Transcreva voz em texto através da API
Esta página mostra como enviar um pedido de reconhecimento de voz para o serviço
Speech-to-Text através da interface REST
e do comando curl
.
A conversão de voz em texto permite a integração fácil das tecnologias de reconhecimento de voz da Google nas aplicações dos programadores. Pode enviar dados de áudio para a API Speech-to-Text, que devolve uma transcrição de texto desse ficheiro de áudio. Para mais informações acerca do serviço, consulte o artigo Noções básicas de conversão de voz em texto.
Antes de começar
Antes de poder enviar um pedido para a API Speech-to-Text, tem de ter concluído as seguintes ações. Consulte a página antes de começar para ver detalhes.
- Ative a conversão de voz em texto num Google Cloud projeto.
- Certifique-se de que a faturação está ativada para o Speech-to-Text.
- Valide que tem as autorizações necessárias para concluir este guia. Se criou um novo projeto para este guia, já tem as autorizações necessárias.
-
Instale a CLI Google Cloud. Após a instalação, inicialize a CLI gcloud executando o seguinte comando:
gcloud init
Se estiver a usar um fornecedor de identidade (IdP) externo, primeiro tem de iniciar sessão na CLI gcloud com a sua identidade federada.
- (Opcional) Crie um novo contentor do Google Cloud Storage para armazenar os seus dados de áudio.
Funções necessárias
Para receber as autorizações de que
precisa para transcrever voz em texto,
peça ao seu administrador para lhe conceder a
função de IAM Consumidor de utilização de serviços (roles/serviceusage.serviceUsageConsumer
)
no seu projeto.
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.
Faça um pedido de transcrição de áudio
Agora, pode usar a conversão de voz em texto para transcrever um ficheiro de áudio
em texto. Use o seguinte exemplo de código para enviar um pedido REST recognize
à API Speech-to-Text.
-
Crie um ficheiro de pedido JSON com o seguinte texto e guarde-o como um
sync-request.json
ficheiro de texto simples:{ "config": { "encoding":"FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
Este fragmento JSON indica que o ficheiro de áudio tem um formato de codificação FLAC, uma taxa de amostragem de 16 000 Hz e que o ficheiro de áudio está armazenado no Google Cloud Storage no URI indicado. O ficheiro de áudio está acessível publicamente, pelo que não precisa de credenciais de autenticação para aceder ao ficheiro.
-
Use
curl
para fazer um pedidospeech:recognize
, transmitindo-lhe o nome do ficheiro do pedido JSON que configurou no passo 1:O comando
curl
de exemplo usa o comandogcloud auth print-access-token
para obter um token de autenticação.curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ https://speech.googleapis.com/v1/speech:recognize \ -d @sync-request.json
Tenha em atenção que, para transmitir um nome de ficheiro para
curl
, usa a opção-d
(para "data") e precede o nome de ficheiro com um sinal@
. Este ficheiro deve estar no mesmo diretório em que executa o comandocurl
.Deve ver uma resposta semelhante à seguinte:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
Parabéns! Enviou o seu primeiro pedido de conversão de voz em texto.
Se receber um erro ou uma resposta vazia do serviço Speech-to-Text, consulte os passos de resolução de problemas e mitigação de erros.
Limpar
Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.
- Use o Google Cloud console para eliminar o projeto se não precisar dele.
O que se segue?
- Pratique a transcrição de ficheiros de áudio curtos.
- Saiba como processar em lote ficheiros de áudio longos para reconhecimento de voz.
- Saiba como transcrever áudio em streaming, como o de um microfone.
- Comece a usar a conversão de voz em texto no idioma à sua escolha através de uma biblioteca de cliente de conversão de voz em texto.
- Trabalhe com as aplicações de exemplo.
- Para o melhor desempenho, precisão e outras sugestões, consulte a documentação de práticas recomendadas.