Trascrivere il parlato in testo utilizzando l'API

In questa pagina viene mostrato come inviare una richiesta di riconoscimento vocale a Speech-to-Text utilizzando l'interfaccia REST e il comando curl.

Speech-to-Text consente di integrare facilmente le tecnologie di riconoscimento vocale di Google nelle applicazioni degli sviluppatori. Puoi inviare dati audio all'API Speech-to-Text, che restituisce una trascrizione del testo del file audio. Per ulteriori informazioni vedi il servizio Nozioni di base su Speech-to-Text.

Prima di iniziare

Prima di poter inviare una richiesta all'API Speech-to-Text, devi aver completato le seguenti azioni. Per informazioni dettagliate, consulta la pagina Prima di iniziare.

  • Attivare Speech-to-Text in un progetto Google Cloud.
    1. Assicurati che la fatturazione sia abilitata per Speech-to-Text.
  • Install the Google Cloud CLI, then initialize it by running the following command:

    gcloud init
  • (Facoltativo) Crea un nuovo bucket Google Cloud Storage in cui archiviare l'audio e i dati di Google Cloud.

Esecuzione di una richiesta di trascrizione audio

Ora puoi utilizzare Speech-to-Text per trascrivere un file audio in testo. Utilizza il seguente esempio di codice per inviare un recognize Richiesta REST all'API Speech-to-Text.

  1. Crea un file di richiesta JSON con il testo seguente e salvalo come file sync-request.json file di testo normale:

    {
      "config": {
          "encoding":"FLAC",
          "sampleRateHertz": 16000,
          "languageCode": "en-US",
          "enableWordTimeOffsets": false
      },
      "audio": {
          "uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
      }
    }
      

    Lo snippet JSON indica che il file audio ha un formato di codifica FLAC, una frequenza di campionamento di 16000 Hz e che il file audio sia archiviato su Google Cloud Archiviazione nell'URI specificato. Il file audio è accessibile al pubblico, quindi non hai bisogno di credenziali di autenticazione per accedervi.

  2. Utilizza curl per inviare una richiesta speech:recognize, passando il nome del file della richiesta JSON configurata nel passaggio 1:

    Il comando curl di esempio utilizza il comando gcloud auth print-access-token per ottenere un token di autenticazione.

    curl -s -H "Content-Type: application/json" \
        -H "Authorization: Bearer "$(gcloud auth print-access-token) \
        https://speech.googleapis.com/v1/speech:recognize \
        -d @sync-request.json
      

    Tieni presente che per passare un nome file a curl devi utilizzare -d (per "dati") e precede il nome file con un @. Questo file deve trovarsi nella stessa directory in cui esegui il comando curl.

    Dovresti visualizzare una risposta simile alla seguente:

    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "how old is the Brooklyn Bridge",
              "confidence": 0.98267895
            }
          ]
        }
      ]
    }
      

Complimenti! Hai inviato la tua prima richiesta a Speech-to-Text.

Se ricevi un errore o una risposta vuota da Text-to-Speech, consulta i passaggi per la risoluzione dei problemi e la mitigazione degli errori.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi per le risorse utilizzate in questa pagina, segui questi passaggi.

Passaggi successivi