Veja nesta página como usar um modelo de machine learning específico para solicitações de transcrição de áudio para a Speech-to-Text.
Modelos de transcrição
O Speech-to-Text detecta palavras em um clipe de áudio comparando a entrada com um dos vários modelos de aprendizado de máquina. Cada modelo foi treinado por meio da análise de milhões de exemplos (nesse caso, muitas gravações de áudio de pessoas falando).
A Speech-to-Text tem modelos especializados treinados com áudio de fontes específicas, como chamadas telefônicas ou vídeos. Devido a esse processo de treinamento, esses modelos especializados fornecem melhores resultados quando aplicados a tipos semelhantes de dados de áudio.
Por exemplo, a Speech-to-Text tem um modelo de transcrição treinado
para reconhecer a fala gravada pelo telefone. Quando a Speech-to-Text
usa o modelo telephony
ou telephony_short
para transcrever o áudio do telefone,
ela produz resultados de transcrição mais precisos do que se tivesse transcrito
o áudio usando os modelos latest_short
ou latest_long
.
Veja na tabela a seguir os modelos de transcrições disponíveis para uso com a Speech-to-Text.
Nome do modelo | Descrição |
---|---|
latest_long |
Use esse modelo para qualquer tipo de conteúdo em formato longo, como mídia ou fala e conversas espontâneas. Considere usar esse modelo no lugar do modelo de vídeo, principalmente se o modelo não estiver disponível no idioma de destino. Também é possível usá-lo no lugar do modelo padrão. |
latest_short |
Use este modelo para enunciados curtos com alguns segundos de duração. Ele é útil para tentar capturar comandos ou outros casos de uso de fala direcionados uma única vez. Considere usar esse modelo em vez do comando e do modelo de pesquisa. |
telephony |
Versão aprimorada do modelo "phone_call", ideal para áudio originado de uma chamada telefônica, geralmente gravado a uma taxa de amostragem de 8 kHz. |
telephony_short |
Versão dedicada do modelo moderno de "telefonia" para enunciados curtos ou mesmo de palavras únicas para áudio de chamada telefônica, geralmente gravada a uma taxa de amostragem de 8 kHz. |
medical_dictation |
Use este modelo para transcrever notas ditadas por um profissional
da saúde.
Este é um modelo premium que custa mais do que a taxa padrão. Veja a página de preços para mais detalhes. |
medical_conversation |
Use este modelo para transcrever a conversa entre um profissional
da saúde e um paciente.
Este é um modelo premium que custa mais do que a taxa padrão. Veja a página de preços para mais detalhes. |
Os modelos a seguir são baseados em arquiteturas clássicas que não estão em conformidade e são mantidos principalmente por motivos legados e de compatibilidade com versões anteriores. | |
command_and_search |
Indicado para expressões curtas ou de palavra única, como comandos de voz ou pesquisa por voz. |
default |
Indicado para áudio que não se encaixa nos outros modelos, como áudio ou ditado de formato longo. O modelo padrão produzirá resultados de transcrição para qualquer tipo de áudio, incluindo áudios como videoclipes que têm um modelo separado especificamente adaptado para ele. No entanto, o reconhecimento de áudio de videoclipes usando o modelo padrão produzirá resultados de qualidade inferior do que usando o modelo de vídeo. O ideal é que o áudio seja de alta fidelidade e gravado com uma taxa de amostragem de 16 kHz ou mais. |
phone_call |
Indicado para o áudio de uma chamada telefônica, geralmente registrada com uma taxa de amostragem de 8 khz. |
video |
Melhor para áudio de videoclipes ou outras fontes (como podcasts) que têm vários interlocutores. Esse modelo também costuma ser a melhor opção para áudio gravado com um microfone de alta qualidade ou que tenha muito ruído de fundo. Para conseguir melhores resultados, forneça áudio gravado a uma taxa de amostragem de 16.000 Hz ou mais. |
Selecionar um modelo para a transcrição de áudio
Para especificar um modelo específico a ser usado para a transcrição de áudio,
defina o campo model
como um dos valores permitidos, como latest_long
,
latest_short
, telephony
ou telephony_short
nos
parâmetros RecognitionConfig
para a solicitação.
A Speech-to-Text é compatível com a seleção de modelos para todos os métodos de
reconhecimento de fala: speech:recognize
,
speech:longrunningrecognize
e Streaming.
Realizar a transcrição de um arquivo de áudio local
Protocolo
Consulte o endpoint da API speech:recognize
para ver todos os detalhes.
Para executar o reconhecimento de fala síncrono, faça uma solicitação POST
e forneça o corpo apropriado a ela. Veja a seguir um exemplo de uma solicitação POST
usando curl
. O exemplo usa a CLI do Google Cloud para gerar um token de acesso. Para instruções sobre como instalar a gcloud CLI,
consulte o guia de início rápido.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
Consulte a documentação de referência RecognitionConfig
para mais informações sobre como configurar o corpo da solicitação.
Quando a solicitação é bem-sucedida, o servidor retorna um código de status HTTP 200 OK
e a resposta no formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "OK Google stream stranger things from Netflix to my TV okay stranger things from Netflix playing on TV from the people that brought you Google home comes the next evolution of the smart home and it's just outside your window me Google know hi how can I help okay no what's the weather like outside the weather outside is sunny and 76 degrees he's right okay no turn on the hose I'm holding sure okay no I'm can I eat this lemon tree leaf yes what about this Daisy yes but I wouldn't recommend it but I could eat it okay Nomad milk to my shopping list I'm sorry that sounds like an indoor request I keep doing that sorry you do keep doing that okay no is this compost really we're all compost if you think about it pretty much everything is made up of organic matter and will return", "confidence": 0.9251011 } ] } ] }
Go
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Go.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Java.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Node.js.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Python.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Outras linguagens
C#: Siga as instruções de configuração do C# na página das bibliotecas de cliente e, em seguida, acesse a documentação de referência do Speech-to-Text para .NET.
PHP: Siga as instruções de configuração do PHP na página das bibliotecas de cliente e, em seguida, acesse a documentação de referência da Speech-to-Text para PHP.
Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas de cliente e, em seguida, acesse a documentação de referência do Speech-to-Text para Ruby.
Realizar a transcrição de um arquivo de áudio do Cloud Storage
Go
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Go.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Java.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Node.js.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Outras linguagens
C#: Siga as instruções de configuração do C# na página das bibliotecas de cliente e, em seguida, acesse a documentação de referência do Speech-to-Text para .NET.
PHP: Siga as instruções de configuração do PHP na página das bibliotecas de cliente e, em seguida, acesse a documentação de referência da Speech-to-Text para PHP.
Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas de cliente e, em seguida, acesse a documentação de referência do Speech-to-Text para Ruby.