Esta página demonstra como transcrever um ficheiro de áudio curto para texto usando o reconhecimento de voz síncrono.
O reconhecimento de voz síncrono devolve o texto reconhecido para áudio curto (menos de 60 segundos). Para processar um pedido de reconhecimento de voz para áudio com mais de 60 segundos, use o reconhecimento de voz assíncrono.
O conteúdo de áudio pode ser enviado diretamente para o Speech-to-Text a partir de um ficheiro local ou o Speech-to-Text pode processar conteúdo de áudio armazenado num contentor do Google Cloud Storage. Consulte a página de quotas e limites para ver os limites de pedidos de reconhecimento de voz síncronos.
Realize o reconhecimento de voz síncrono num ficheiro local
Segue-se um exemplo de como realizar o reconhecimento de voz síncrono num ficheiro de áudio local:
REST
Consulte o ponto final da API speech:recognize
para ver os detalhes
completos. Consulte a documentação de referência RecognitionConfig
para mais informações sobre a configuração do corpo do pedido.
O conteúdo de áudio fornecido no corpo do pedido tem de estar codificado em base64.
Para mais informações sobre como codificar áudio em Base64, consulte o artigo Codificação Base64 de conteúdo de áudio. Para mais
informações sobre o campo content
, consulte RecognitionAudio.
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
- LANGUAGE_CODE: o código BCP-47 do idioma falado no clipe de áudio.
- ENCODING: a codificação do áudio que quer transcrever.
- SAMPLE_RATE_HERTZ: taxa de amostragem em Hertz do áudio que quer transcrever.
- ENABLE_WORD_TIME_OFFSETS: ative este campo se quiser que sejam devolvidas as compensações de tempo de início e fim das palavras (indicações de tempo).
- INPUT_AUDIO: uma string codificada em base64 dos dados de áudio que quer transcrever.
- PROJECT_ID: o ID alfanumérico do seu projeto Google Cloud .
Método HTTP e URL:
POST https://speech.googleapis.com/v1/speech:recognize
Corpo JSON do pedido:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "content": "INPUT_AUDIO" } }
Para enviar o seu pedido, expanda uma destas opções:
Deve receber uma resposta JSON semelhante à seguinte:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Consulte o comando
recognize
para ver os detalhes completos.
Para realizar o reconhecimento de voz num ficheiro local, use a Google Cloud CLI, transmitindo o caminho do ficheiro local do ficheiro no qual quer realizar o reconhecimento de voz.
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
Se o pedido for bem-sucedido, o servidor devolve uma resposta no formato JSON:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Go Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Java Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Node.js Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Python Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Idiomas adicionais
C#: Siga as instruções de configuração do C# na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para .NET.
PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para PHP.
Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para Ruby.
Realize o reconhecimento de voz síncrono num ficheiro remoto
Para sua conveniência, a API Speech-to-Text pode realizar o reconhecimento de voz síncrono diretamente num ficheiro de áudio localizado no Google Cloud Storage, sem ter de enviar o conteúdo do ficheiro de áudio no corpo do seu pedido.
Segue-se um exemplo de como realizar o reconhecimento de voz síncrono num ficheiro localizado no Cloud Storage:
REST
Consulte o ponto final da API speech:recognize
para ver os detalhes
completos. Consulte a documentação de referência RecognitionConfig
para mais informações sobre a configuração do corpo do pedido.
O conteúdo de áudio fornecido no corpo do pedido tem de estar codificado em base64.
Para mais informações sobre como codificar áudio em Base64, consulte o artigo Codificação Base64 de conteúdo de áudio. Para mais
informações sobre o campo content
, consulte RecognitionAudio.
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
- LANGUAGE_CODE: o código BCP-47 do idioma falado no clipe de áudio.
- ENCODING: a codificação do áudio que quer transcrever.
- SAMPLE_RATE_HERTZ: taxa de amostragem em Hertz do áudio que quer transcrever.
- ENABLE_WORD_TIME_OFFSETS: ative este campo se quiser que sejam devolvidas as compensações de tempo de início e fim das palavras (indicações de tempo).
- STORAGE_BUCKET: um contentor do Cloud Storage.
- INPUT_AUDIO: o ficheiro de dados de áudio que quer transcrever.
- PROJECT_ID: o ID alfanumérico do seu projeto Google Cloud .
Método HTTP e URL:
POST https://speech.googleapis.com/v1/speech:recognize
Corpo JSON do pedido:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "uri": "gs://STORAGE_BUCKET/INPUT_AUDIO" } }
Para enviar o seu pedido, expanda uma destas opções:
Deve receber uma resposta JSON semelhante à seguinte:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Consulte o comando
recognize
para ver os detalhes completos.
Para realizar o reconhecimento de voz num ficheiro local, use a Google Cloud CLI, transmitindo o caminho do ficheiro local do ficheiro no qual quer realizar o reconhecimento de voz.
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
Se o pedido for bem-sucedido, o servidor devolve uma resposta no formato JSON:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Go Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Java Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Node.js Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Python Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Idiomas adicionais
C#: Siga as instruções de configuração do C# na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para .NET.
PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para PHP.
Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para Ruby.