Guia de início rápido: como usar a linha de comando

Veja nesta página como enviar uma solicitação de reconhecimento de fala para a Speech-to-Text usando a interface REST e o comando curl.

A Speech-to-Text permite a fácil integração das tecnologias de reconhecimento de fala do Google nos aplicativos do desenvolvedor. Você pode enviar dados de áudio para a API Speech-to-Text, que em seguida retorna uma transcrição de texto desse arquivo de áudio. Para mais informações sobre o serviço, consulte Princípios básicos da Speech-to-Text.

Antes de começar

  1. Faça login na sua conta do Google.

    Se você ainda não tiver uma, inscreva-se.

  2. Configure um projeto do Console do Cloud.

    Configurar um projeto

    Clique para:

    • Crie ou selecione um projeto.
    • ativar a API Speech-to-Text para esse projeto;
    • criar uma conta de serviço;
    • fazer o download de uma chave privada como JSON.

    É possível visualizar e gerenciar esses recursos a qualquer momento no Console do Cloud.

  3. Defina a variável de ambiente GOOGLE_APPLICATION_CREDENTIALS como o caminho do arquivo JSON que contém a chave da conta de serviço. Essa variável só se aplica à sessão de shell atual. Dessa maneira, se você abrir uma nova sessão, defina a variável novamente.

  4. Instale e inicialize o SDK do Cloud..

Fazer uma solicitação de transcrição de áudio

Use o Speech-to-Text para transcrever um arquivo de áudio para texto. Use a amostra de código a seguir para enviar uma solicitação recognize REST para a API Speech-to-Text.

  1. Crie um arquivo de solicitação JSON com o seguinte texto e salve-o como um arquivo de texto simples sync-request.json:

    {
      "config": {
          "encoding":"FLAC",
          "sampleRateHertz": 16000,
          "languageCode": "en-US",
          "enableWordTimeOffsets": false
      },
      "audio": {
          "uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
      }
    }
      

    Este snippet JSON indica que o arquivo de áudio tem um formato de codificação FLAC, uma taxa de amostragem de 16.000 Hz e está armazenado no Google Cloud Storage no URI fornecido. O arquivo de áudio é de acesso público. Portanto, você não precisará de credenciais de autenticação para acessá-lo.

  2. Use curl para fazer uma solicitação speech:recognize, passando para ela o nome de arquivo da solicitação JSON que você configurou na etapa 1:

    O comando de amostra curl usa o comando gcloud auth application-default print-access-token para receber um token de autenticação.

    curl -s -H "Content-Type: application/json" \
        -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \
        https://speech.googleapis.com/v1/speech:recognize \
        -d @sync-request.json
      

    Para passar o nome do arquivo ao curl use a opção -d (de "dados") e coloque o sinal @ na frente do nome do arquivo. Este arquivo deve estar no mesmo diretório em que você executa o comando curl.

    Uma resposta semelhante a esta será exibida:

    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "how old is the Brooklyn Bridge",
              "confidence": 0.98267895
            }
          ]
        }
      ]
    }
      

Parabéns! Você enviou sua primeira solicitação para a Speech-to-Text.

Se você receber um erro ou uma resposta vazia do Speech to Text, analise as etapas de solução de problemas e de eliminação de erros.

A seguir