Nesta página, descrevemos como transcrever um arquivo de áudio curto para texto usando o reconhecimento de fala síncrono.
O reconhecimento de fala síncrono converte o texto reconhecido para áudio curto (menos de 60 segundos). Para processar uma solicitação de reconhecimento de fala de mais de 60 segundos, use o Reconhecimento de fala assíncrono.
O conteúdo de áudio pode ser enviado diretamente para o Speech-to-Text de um arquivo local ou o Speech-to-Text pode processar conteúdo de áudio armazenado em um intervalo do Google Cloud Storage. Consulte a página cotas e limites para ver os limites nas solicitações síncronas de reconhecimento de fala.
Executar o reconhecimento de fala síncrono em um arquivo local
Este é um exemplo de reconhecimento de fala síncrono em um arquivo de áudio local:
REST
Consulte o endpoint da API speech:recognize
para ver todos os detalhes. Consulte a documentação de referência RecognitionConfig para mais informações sobre como configurar o corpo da solicitação.
O conteúdo de áudio fornecido no corpo da solicitação precisa ser codificado em base64.
Para mais informações sobre como codificar áudio em base64, consulte Como codificar conteúdo de áudio em Base64. Para mais informações
sobre o campo content
, consulte RecognitionAudio.
Antes de usar os dados da solicitação abaixo, faça estas substituições:
- LANGUAGE_CODE: o código BCP-47 do idioma falado no seu clipe de áudio.
- ENCODING: a codificação do áudio que você quer transcrever.
- SAMPLE_RATE_HERTZ: taxa de amostragem em hertz do áudio que você quer transcrever.
- ENABLE_WORD_TIME_OFFSETS: ative esse campo se quiser que os ajustes de horário de início e término de palavra (carimbos de data/hora) sejam retornados.
- INPUT_AUDIO: uma string codificada em base64 dos dados de áudio que você quer transcrever.
- PROJECT_ID: o ID alfanumérico do seu projeto do Google Cloud.
Método HTTP e URL:
POST https://speech.googleapis.com/v1/speech:recognize
Corpo JSON da solicitação:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "content": "INPUT_AUDIO" } }
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Consulte o
comando recognize
para ver todos os detalhes.
Para executar o reconhecimento de fala em um arquivo local, use o Google Cloud CLI, transmitindo o caminho de arquivo local para executar o reconhecimento de fala.
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
Se a solicitação for bem-sucedida, o servidor retornará uma resposta no formato JSON:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Go.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Java.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Node.js.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Python.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Outras linguagens
C#: Siga as Instruções de configuração do C# na página das bibliotecas de cliente e acesse Documentação de referência da Speech-to-Text para .NET.
PHP: Siga as Instruções de configuração do PHP na página das bibliotecas de cliente e acesse Documentação de referência da Speech-to-Text para PHP.
Ruby: Siga as Instruções de configuração do Ruby na página das bibliotecas de cliente e acesse Documentação de referência da Speech-to-Text para Ruby.
Executar o reconhecimento de fala síncrono em um arquivo remoto
Para sua comodidade, a API Speech-to-Text executa o reconhecimento de fala síncrono diretamente em um arquivo de áudio localizado no Google Cloud Storage, sem a necessidade de enviar o conteúdo do arquivo de áudio no corpo da solicitação.
Este é um exemplo de reconhecimento de fala síncrono em um arquivo localizado no Cloud Storage:
REST
Consulte o endpoint da API speech:recognize
para ver todos os detalhes. Consulte a documentação de referência RecognitionConfig para mais informações sobre como configurar o corpo da solicitação.
O conteúdo de áudio fornecido no corpo da solicitação precisa ser codificado em base64.
Para mais informações sobre como codificar áudio em base64, consulte Como codificar conteúdo de áudio em Base64. Para mais informações
sobre o campo content
, consulte RecognitionAudio.
Antes de usar os dados da solicitação abaixo, faça estas substituições:
- LANGUAGE_CODE: o código BCP-47 do idioma falado no seu clipe de áudio.
- ENCODING: a codificação do áudio que você quer transcrever.
- SAMPLE_RATE_HERTZ: taxa de amostragem em Hertz do áudio que você quer transcrever.
- ENABLE_WORD_TIME_OFFSETS: ative esse campo se quiser que os ajustes de horário de início e término de palavra (carimbos de data/hora) sejam retornados.
- STORAGE_BUCKET: um bucket do Cloud Storage
- INPUT_AUDIO: o arquivo fr dados de áudio que você quer transcrever.
- PROJECT_ID: o ID alfanumérico do seu projeto do Google Cloud.
Método HTTP e URL:
POST https://speech.googleapis.com/v1/speech:recognize
Corpo JSON da solicitação:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "uri": "gs://STORAGE_BUCKET/INPUT_AUDIO" } }
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Consulte o
comando recognize
para ver todos os detalhes.
Para executar o reconhecimento de fala em um arquivo local, use o Google Cloud CLI, transmitindo o caminho de arquivo local para executar o reconhecimento de fala.
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
Se a solicitação for bem-sucedida, o servidor retornará uma resposta no formato JSON:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Go.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Java.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Node.js.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Python.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Outras linguagens
C#: Siga as Instruções de configuração do C# na página das bibliotecas de cliente e acesse Documentação de referência da Speech-to-Text para .NET.
PHP: Siga as Instruções de configuração do PHP na página das bibliotecas de cliente e acesse Documentação de referência da Speech-to-Text para PHP.
Ruby: Siga as Instruções de configuração do Ruby na página das bibliotecas de cliente e acesse Documentação de referência da Speech-to-Text para Ruby.