Neste tutorial, veja como transcrever a gravação de áudio de um smartphone usando o Speech-to-Text.
Os arquivos de áudio podem ter várias origens diferentes. Os dados de áudio podem vir de um smartphone (como um correio de voz) ou de uma trilha sonora incluída em um arquivo de vídeo.
No Speech-to-Text, é possível usar um dos vários modelos de machine learning para transcrever o arquivo de áudio, com a finalidade de conseguir a melhor correspondência com a fonte original do áudio. Especifique a fonte do áudio original para conseguir melhores resultados na transcrição do áudio. Dessa maneira, o Speech-to-Text processa os arquivos de áudio usando um modelo de machine learning treinado para dados similares aos contidos no arquivo de áudio.
Objetivos
- Enviar uma solicitação de transcrição de áudio para o áudio gravado de um smartphone (como um correio de voz) ao Speech-to-Text.
- Solicitar um modelo aprimorado de reconhecimento de fala para uma solicitação de transcrição de áudio.
Custos
Este tutorial usa componentes faturáveis do Cloud Platform, incluindo:
- Speech-to-Text
Use a calculadora de preços para gerar uma estimativa
de custo com base no uso previsto.
Antes de começar
Os pré-requisitos para este tutorial são:
- Ter configurado um projeto do Speech-to-Text no console do Google Cloud ;
- Ter configurado seu ambiente usando o Application Default Credentials no console do Google Cloud ;
- Ter configurado o ambiente de desenvolvimento para a linguagem de programação escolhida;
- Ter instalado a biblioteca de cliente do Google Cloud referente à linguagem de programação escolhida.
Enviar uma solicitação
Para transcrever melhor o áudio capturado em um smartphone, como em uma ligação ou um correio
de voz, defina o campo model
no payload RecognitionConfig
como
phone_call
. O campo model
informa à API Speech-to-Text qual
modelo de reconhecimento de fala usar para a solicitação de transcrição.
Você pode melhorar os resultados da transcrição de áudio de smartphone usando
um modelo aprimorado. Para usar um modelo avançado
, defina o campo useEnhanced
como true
no seu
payload RecognitionConfig
.
Os exemplos de código a seguir demonstram como selecionar um modelo de transcrição específico ao chamar o Speech-to-Text.
Protocolo
Consulte o endpoint da API speech:recognize
para todos os detalhes.
Para realizar o reconhecimento de fala síncrono, faça uma solicitação POST
e forneça o corpo apropriado
a ela. Confira a seguir um exemplo de uma solicitação POST
usando
curl
. O exemplo usa a CLI do Google Cloud para gerar um token
de acesso. Para instruções sobre como instalar a gcloud CLI,
consulte o guia de início rápido.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
Consulte a documentação de referência RecognitionConfig
para mais informações sobre como
configurar o corpo da solicitação.
Quando a solicitação é bem-sucedida, o servidor retorna um código de status
HTTP 200 OK
e a resposta no formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.", "confidence": 0.8930228 } ], "resultEndTime": "5.640s" }, { "alternatives": [ { "transcript": " Certainly, which color would you like? We are blue black and red.", "confidence": 0.9101991 } ], "resultEndTime": "10.220s" }, { "alternatives": [ { "transcript": " Let's go with the black one.", "confidence": 0.8818244 } ], "resultEndTime": "13.870s" }, { "alternatives": [ { "transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?", "confidence": 0.94733626 } ], "resultEndTime": "18.460s" }, { "alternatives": [ { "transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?", "confidence": 0.9519095 } ], "resultEndTime": "25.930s" }, { "alternatives": [ { "transcript": " Express, please.", "confidence": 0.9101229 } ], "resultEndTime": "28.260s" }, { "alternatives": [ { "transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.", "confidence": 0.9321616 } ], "resultEndTime": "34.150s" } ] }
Go
Para aprender a instalar e usar a biblioteca de cliente do Speech-to-Text, consulte Bibliotecas de cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Go.
Para se autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para aprender a instalar e usar a biblioteca de cliente do Speech-to-Text, consulte Bibliotecas de cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Java.
Para se autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para aprender a instalar e usar a biblioteca de cliente do Speech-to-Text, consulte Bibliotecas de cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Node.js.
Para se autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para aprender a instalar e usar a biblioteca de cliente do Speech-to-Text, consulte Bibliotecas de cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Python.
Para se autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Linguagens adicionais
C#: siga as instruções de configuração do C# na página das bibliotecas de cliente e, em seguida, acesse a documentação de referência do Speech-to-Text para .NET.
PHP: siga as instruções de configuração do PHP na página das bibliotecas de cliente e, em seguida, acesse a documentação de referência do Speech-to-Text para PHP.
Ruby: siga as instruções de configuração do Ruby na página das bibliotecas de cliente e, em seguida, acesse a documentação de referência do Speech-to-Text para Ruby.
Limpeza
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
Excluir o projeto
O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.
Para excluir o projeto:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Excluir instâncias
Para excluir uma instância do Compute Engine:
- In the Google Cloud console, go to the VM instances page.
- Select the checkbox for the instance that you want to delete.
- To delete the instance, click More actions, click Delete, and then follow the instructions.
Excluir as regras de firewall da rede padrão
Para excluir uma regra de firewall:
- In the Google Cloud console, go to the Firewall page.
- Select the checkbox for the firewall rule that you want to delete.
- To delete the firewall rule, click Delete.