Trascrivere la voce in testo utilizzando l'API

Questa pagina mostra come inviare una richiesta di riconoscimento vocale a Speech-to-Text utilizzando l'interfaccia REST e il comando curl.

Speech-to-Text consente di integrare facilmente le tecnologie di riconoscimento vocale di Google nelle applicazioni degli sviluppatori. Puoi inviare dati audio all'API Speech-to-Text, che restituisce una trascrizione di testo del file audio. Per saperne di più sul servizio, consulta la pagina Nozioni di base di Speech-to-Text.

Prima di iniziare

Prima di poter inviare una richiesta all'API Speech-to-Text, devi aver completato le seguenti azioni. Per informazioni dettagliate, consulta la pagina Prima di iniziare.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per trascrivere la voce in testo, chiedi all'amministratore di concederti il ruolo IAM Service Usage Consumer (roles/serviceusage.serviceUsageConsumer) sul progetto. Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Esecuzione di una richiesta di trascrizione audio

Ora puoi utilizzare Speech-to-Text per trascrivere un file audio in testo. Utilizza il seguente esempio di codice per inviare una richiesta REST recognize all'API Speech-to-Text.

  1. Crea un file di richiesta JSON con il testo seguente e salvalo come file di testo normale sync-request.json:

    {
      "config": {
          "encoding":"FLAC",
          "sampleRateHertz": 16000,
          "languageCode": "en-US",
          "enableWordTimeOffsets": false
      },
      "audio": {
          "uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
      }
    }
      

    Questo snippet JSON indica che il file audio ha un formato di codifica FLAC, una frequenza di campionamento di 16000 Hz e che il file audio è archiviato su Google Cloud Storage all'URI specificato. Il file audio è accessibile pubblicamente, quindi non hai bisogno di credenziali di autenticazione per accedervi.

  2. Utilizza curl per inviare una richiesta speech:recognize, fornendo il nome del file della richiesta JSON che hai configurato nel passaggio 1:

    Il comando di esempio curl utilizza il comando gcloud auth print-access-token per ottenere un token di autenticazione.

    curl -s -H "Content-Type: application/json" \
        -H "Authorization: Bearer "$(gcloud auth print-access-token) \
        https://speech.googleapis.com/v1/speech:recognize \
        -d @sync-request.json
      

    Tieni presente che per passare un nome file a curl utilizzi l'opzione -d (per "data") e precedi il nome file con il segno @. Questo file deve trovarsi nella stessa directory in cui esegui il comando curl.

    Dovresti visualizzare una risposta simile alla seguente:

    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "how old is the Brooklyn Bridge",
              "confidence": 0.98267895
            }
          ]
        }
      ]
    }
      

Complimenti! Hai inviato la tua prima richiesta a Speech-to-Text.

Se ricevi un errore o una risposta vuota da Speech-to-Text, consulta i passaggi di risoluzione dei problemi e mitigazione degli errori.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Passaggi successivi