Este tutorial mostra como transcrever o áudio gravado a partir de um telemóvel usando a API Speech-to-Text.
Os ficheiros de áudio podem ser provenientes de muitas origens diferentes. Os dados de áudio podem ser provenientes de um telemóvel (como correio de voz) ou de uma banda sonora incluída num ficheiro de vídeo.
A funcionalidade de conversão de voz em texto pode usar um de vários modelos de aprendizagem automática para transcrever o seu ficheiro de áudio, de modo a corresponder melhor à fonte original do áudio. Pode obter melhores resultados da transcrição de voz especificando a origem do áudio original. Isto permite que a funcionalidade de conversão de voz em texto processe os seus ficheiros de áudio através de um modelo de aprendizagem automática preparado para dados semelhantes aos do seu ficheiro de áudio.
Objetivos
- Enviar um pedido de transcrição de áudio para áudio gravado a partir de um telemóvel (como correio de voz) para o Speech-to-Text.
- Especifique um modelo de reconhecimento de voz melhorado para um pedido de transcrição de áudio.
Custos
Este tutorial usa componentes faturáveis da Cloud Platform, incluindo:
- Conversão de voz em texto
Use a calculadora de preços para gerar uma estimativa de custo com base na sua utilização prevista.
Antes de começar
Este tutorial tem vários pré-requisitos:
- Configurou um projeto de conversão de voz em texto na Google Cloud consola.
- Configurou o seu ambiente através das credenciais padrão da aplicação na Google Cloud consola.
- Configurou o ambiente de programação para a linguagem de programação escolhida.
- Instalou a biblioteca cliente do Google Cloud para a linguagem de programação escolhida.
Envie uma solicitação
Para transcrever da melhor forma o áudio captado num telemóvel, como uma chamada telefónica ou um correio de voz, pode definir o campo model
na sua carga útil RecognitionConfig
como phone_call
. O campo model
indica à API Speech-to-Text que modelo de reconhecimento de voz usar para o pedido de transcrição.
Pode melhorar os resultados da transcrição de áudio do telefone usando um modelo melhorado. Para usar um modelo melhorado, defina o campo useEnhanced
como true
na carga útil RecognitionConfig
.
Os exemplos de código seguintes demonstram como selecionar um modelo de transcrição específico quando chama o Speech-to-Text.
Protocolo
Consulte o ponto final da API speech:recognize
para ver os detalhes completos.
Para realizar o reconhecimento de voz síncrono, faça um pedido POST
e forneça o corpo do pedido adequado. O exemplo seguinte mostra um pedido POST
com curl
. O exemplo usa a Google Cloud CLI para gerar um token de acesso. Para ver instruções sobre a instalação da CLI gcloud,
consulte o início rápido.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
Consulte a documentação de referência RecognitionConfig
para obter mais informações sobre a configuração do corpo do pedido.
Se o pedido for bem-sucedido, o servidor devolve um código de estado HTTP 200 OK
e a resposta no formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.", "confidence": 0.8930228 } ], "resultEndTime": "5.640s" }, { "alternatives": [ { "transcript": " Certainly, which color would you like? We are blue black and red.", "confidence": 0.9101991 } ], "resultEndTime": "10.220s" }, { "alternatives": [ { "transcript": " Let's go with the black one.", "confidence": 0.8818244 } ], "resultEndTime": "13.870s" }, { "alternatives": [ { "transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?", "confidence": 0.94733626 } ], "resultEndTime": "18.460s" }, { "alternatives": [ { "transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?", "confidence": 0.9519095 } ], "resultEndTime": "25.930s" }, { "alternatives": [ { "transcript": " Express, please.", "confidence": 0.9101229 } ], "resultEndTime": "28.260s" }, { "alternatives": [ { "transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.", "confidence": 0.9321616 } ], "resultEndTime": "34.150s" } ] }
Go
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Go Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Java Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Node.js Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Python Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Idiomas adicionais
C#: Siga as instruções de configuração do C# na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para .NET.
PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para PHP.
Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para Ruby.
Limpar
Para evitar incorrer em custos na sua conta do Google Cloud pelos recursos usados neste tutorial, elimine o projeto que contém os recursos ou mantenha o projeto e elimine os recursos individuais.
Elimine o projeto
A forma mais fácil de eliminar a faturação é eliminar o projeto que criou para o tutorial.
Para eliminar o projeto:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Elimine instâncias
Para eliminar uma instância do Compute Engine:
- In the Google Cloud console, go to the VM instances page.
- Select the checkbox for the instance that you want to delete.
- To delete the instance, click More actions, click Delete, and then follow the instructions.
Elimine as regras de firewall da rede predefinida
Para eliminar uma regra de firewall:
- In the Google Cloud console, go to the Firewall page.
- Select the checkbox for the firewall rule that you want to delete.
- To delete the firewall rule, click Delete.