Teste o Gemini 1.5 Pro, nosso modelo multimodal mais avançado na Vertex AI, e descubra o que é possível criar com uma janela de contexto de um milhão de tokens. Teste o Gemini 1.5 Pro, nosso modelo multimodal mais avançado na Vertex AI, e descubra o que é possível criar com uma janela de contexto de um milhão de tokens.

Transcrever voz em texto usando a API

Veja nesta página como enviar uma solicitação de reconhecimento de fala para a Speech-to-Text usando a interface REST e o comando curl.

A Speech-to-Text permite a fácil integração das tecnologias de reconhecimento de fala do Google nos aplicativos do desenvolvedor. Você pode enviar dados de áudio para a API Speech-to-Text, que em seguida retorna uma transcrição de texto desse arquivo de áudio. Para mais informações sobre o serviço, consulte Princípios básicos da Speech-to-Text.

Antes de começar

Antes de enviar uma solicitação para a API Speech-to-Text, é necessário concluir as ações a seguir. Consulte a página antes de começar para ver os detalhes.

Ativar o Speech-to-Text em um projeto do GCP.
1. Verificar se o faturamento está ativado para o Speech-to-Text.
Instale a Google Cloud CLI e inicialize-a executando o seguinte comando:
```
gcloud init
```
(Opcional) Criar um novo bucket do Google Cloud Storage para armazenar dados de áudio.

Fazer uma solicitação de transcrição de áudio

Use o Speech-to-Text para transcrever um arquivo de áudio para texto. Use a amostra de código a seguir para enviar uma recognize solicitação REST para a API Speech-to-Text.

Crie um arquivo de solicitação JSON com o seguinte texto e salve-o como um arquivo de texto simples sync-request.json:
```
{
  "config": {
      "encoding":"FLAC",
      "sampleRateHertz": 16000,
      "languageCode": "en-US",
      "enableWordTimeOffsets": false
  },
  "audio": {
      "uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
  }
}
  
```
Este snippet JSON indica que o arquivo de áudio tem um formato de codificação FLAC, uma taxa de amostragem de 16.000 Hz e está armazenado no Google Cloud Storage no URI fornecido. O arquivo de áudio é de acesso público. Portanto, você não precisará de credenciais de autenticação para acessá-lo.
Use curl para fazer uma solicitação speech:recognize, passando para ela o nome de arquivo da solicitação JSON que você configurou na etapa 1:

O comando de amostra curl usa o comando gcloud auth print-access-token para receber um token de autenticação.
```
curl -s -H "Content-Type: application/json" \
    -H "Authorization: Bearer "$(gcloud auth print-access-token) \
    https://speech.googleapis.com/v1/speech:recognize \
    -d @sync-request.json
  
```
Para passar o nome do arquivo ao curl use a opção -d (de "dados") e coloque o sinal @ na frente do nome do arquivo. Este arquivo deve estar no mesmo diretório em que você executa o comando curl.

Uma resposta semelhante a esta será exibida:
```
{
  "results": [
    {
      "alternatives": [
        {
          "transcript": "how old is the Brooklyn Bridge",
          "confidence": 0.98267895
        }
      ]
    }
  ]
}
  
```

Parabéns! Você enviou sua primeira solicitação para o Speech-to-Text.

Se você receber um erro ou uma resposta vazia do Speech to Text, analise as etapas de solução de problemas e de eliminação de erros.

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

Se você não precisar do projeto, use o console do Google Cloud para excluí-lo.

A seguir

Pratique a transcrição de arquivos de áudio curtos.
Saiba como agrupar arquivos de áudio longos para reconhecimento de fala.
Aprenda a transcrever o streaming de áudio, como de um microfone.
Dê os primeiros passos com a Speech-to-Text no idioma de sua preferência usando uma biblioteca de cliente da Speech-to-Text.
Trabalhe com os aplicativos de amostra.
Para ter o melhor desempenho e precisão e ver outras dicas, consulte a documentação sobre práticas recomendadas.