Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.
Guida rapida: trascrivi la conversione della voce in testo utilizzando l'API

Trascrivi voce in testo utilizzando l'API

Questa pagina mostra come inviare una richiesta di riconoscimento vocale a Speech-to-Text utilizzando l'interfaccia REST e il comando curl.

Speech-to-Text consente una facile integrazione delle tecnologie di riconoscimento vocale di Google nelle applicazioni per sviluppatori. Puoi inviare i dati audio all'API Speech-to-Text, che restituisce una trascrizione del testo di tale file audio. Per scoprire di più sul servizio, consulta le nozioni di base su Speech-to-Text.

Prima di iniziare

Prima di poter inviare una richiesta all'API Speech-to-Text, devi completare le seguenti azioni. Consulta la pagina prima di iniziare per i dettagli.

  • Abilitare Speech-to-Text su un progetto GCP.
    1. Assicurati che la fatturazione sia abilitata per Speech-to-Text.
    2. Crea e/o assegna uno o più account di servizio a Speech-to-Text.
    3. Scaricare una chiave delle credenziali dell'account di servizio.
  • Imposta la variabile di ambiente di autenticazione.
  • (Facoltativo) Crea un nuovo bucket Google Cloud Storage per archiviare i tuoi dati audio.

Esecuzione di una richiesta di trascrizione di audio

Ora puoi utilizzare Speech-to-Text per trascrivere un file audio in testo. Utilizza il seguente esempio di codice per inviare una richiesta REST di recognize all'API Speech-to-Text.

  1. Crea un file di richiesta JSON con il testo seguente e salvalo come file di testo normale sync-request.json:

    {
      "config": {
          "encoding":"FLAC",
          "sampleRateHertz": 16000,
          "languageCode": "en-US",
          "enableWordTimeOffsets": false
      },
      "audio": {
          "uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
      }
    }
      

    Questo snippet JSON indica che il file audio ha un formato di codifica FLAC, una frequenza di campionamento di 16.000 Hz e che il file audio è archiviato su Google Cloud Storage all'URI specificato. Il file audio è accessibile pubblicamente, quindi non hai bisogno di credenziali di autenticazione per accedere al file.

  2. Utilizza curl per effettuare una richiesta speech:recognize, passando il nome file della richiesta JSON che hai configurato nel passaggio 1:

    Il comando di esempio curl utilizza il comando gcloud auth application-default print-access-token per ottenere un token di autenticazione.

    curl -s -H "Content-Type: application/json" \
        -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \
        https://speech.googleapis.com/v1/speech:recognize \
        -d @sync-request.json
      

    Tieni presente che per passare un nome file a curl, utilizzi l'opzione -d (per "dati") e precede il nome file con il segno @. Questo file deve trovarsi nella stessa directory in cui esegui il comando curl.

    Dovresti vedere una risposta simile alla seguente:

    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "how old is the Brooklyn Bridge",
              "confidence": 0.98267895
            }
          ]
        }
      ]
    }
      

Complimenti! Hai inviato la tua prima richiesta a Speech-to-Text.

Se ricevi un errore o una risposta vuota da Speech-to-Text, dai un'occhiata ai passaggi di risoluzione dei problemi e di attenuazione degli errori.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi:

Passaggi successivi