Trascrizione della voce in testo utilizzando l'API

Questa pagina mostra come inviare una richiesta di riconoscimento vocale a Speech-to-Text utilizzando l'interfaccia REST e il comando curl.

Speech-to-Text consente l'integrazione semplice delle tecnologie di riconoscimento vocale di Google nelle applicazioni degli sviluppatori. Puoi inviare dati audio all'API Speech-to-Text, che restituisce una trascrizione del testo del file audio. Per maggiori informazioni sul servizio, consulta Nozioni di base su Speech-to-Text.

Prima di iniziare

Prima di poter inviare una richiesta all'API Speech-to-Text, devi aver completato le seguenti azioni. Per informazioni dettagliate, consulta la pagina Prima di iniziare.

  • Abilitare Speech-to-Text in un progetto Google Cloud.
    1. Assicurati che la fatturazione sia abilitata per Speech-to-Text.
  • Installa Google Cloud CLI, quindi initialize eseguendo questo comando:

    gcloud init
  • (Facoltativo) Crea un nuovo bucket Google Cloud Storage per archiviare i dati audio.

Esecuzione di una richiesta di trascrizione audio

Ora puoi usare Speech-to-Text per trascrivere un file audio in testo. Utilizza il seguente esempio di codice per inviare una richiesta REST recognize all'API Speech-to-Text.

  1. Crea un file di richiesta JSON con il testo seguente e salvalo come file di testo normale sync-request.json:

    {
      "config": {
          "encoding":"FLAC",
          "sampleRateHertz": 16000,
          "languageCode": "en-US",
          "enableWordTimeOffsets": false
      },
      "audio": {
          "uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
      }
    }
      

    Questo snippet JSON indica che il file audio ha un formato di codifica FLAC, una frequenza di campionamento di 16000 Hz e che il file audio è archiviato su Google Cloud Storage all'URI specificato. Il file audio è accessibile pubblicamente, quindi non sono necessarie credenziali di autenticazione per accedere al file.

  2. Usa curl per effettuare una richiesta speech:recognize, passando il nome del file della richiesta JSON che hai configurato nel passaggio 1:

    Il comando curl di esempio utilizza il comando gcloud auth print-access-token per ricevere un token di autenticazione.

    curl -s -H "Content-Type: application/json" \
        -H "Authorization: Bearer "$(gcloud auth print-access-token) \
        https://speech.googleapis.com/v1/speech:recognize \
        -d @sync-request.json
      

    Tieni presente che per passare un nome file a curl, devi usare l'opzione -d (per i "dati") e anteporre il segno @ al nome file. Il file deve trovarsi nella stessa directory in cui esegui il comando curl.

    Dovresti visualizzare una risposta simile alla seguente:

    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "how old is the Brooklyn Bridge",
              "confidence": 0.98267895
            }
          ]
        }
      ]
    }
      

Complimenti! Hai inviato la tua prima richiesta a Speech-to-Text.

Se ricevi un errore o una risposta vuota da Speech-to-Text, dai un'occhiata ai passaggi per la risoluzione dei problemi e la mitigazione degli errori.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi:

Passaggi successivi