Guida rapida: trascrizione di input di testo utilizzando l'API

Ottieni una trascrizione della voce in testo utilizzando l'API

Questa pagina mostra come inviare una richiesta di riconoscimento vocale a Speech-to-Text utilizzando l'interfaccia REST e il comando curl.

Speech-to-Text consente l'integrazione semplice delle tecnologie di riconoscimento vocale di Google nelle applicazioni per sviluppatori. Puoi inviare dati audio all'API Speech-to-Text che restituisce una trascrizione del testo del file audio. Per ulteriori informazioni sul servizio, consulta le nozioni di base di Speech-to-Text.

Prima di iniziare

Prima di poter inviare una richiesta all'API Speech-to-Text, devi aver completato le seguenti azioni. Consulta la pagina Prima di iniziare per ulteriori dettagli.

  • Abilita Speech-to-Text su un progetto GCP.
    1. Assicurati che la fatturazione sia attivata per Speech-to-Text.
    2. Crea e/o assegna uno o più account di servizio a Speech-to-Text.
    3. Scarica una chiave delle credenziali dell'account di servizio.
  • Imposta la variabile di ambiente di autenticazione.
  • (Facoltativo) Crea un nuovo bucket di Google Cloud Storage per archiviare i tuoi dati audio.

Esecuzione di una richiesta di trascrizione di audio

Ora puoi usare Speech-to-Text per trascrivere un file audio in testo. Utilizza il seguente esempio di codice per inviare una richiesta REST recognize all'API Speech-to-Text.

  1. Crea un file di richiesta JSON con il seguente testo e salvalo come file di testo normale sync-request.json:

    {
      "config": {
          "encoding":"FLAC",
          "sampleRateHertz": 16000,
          "languageCode": "en-US",
          "enableWordTimeOffsets": false
      },
      "audio": {
          "uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
      }
    }
      

    Questo snippet JSON indica che il file audio ha un formato di codifica FLAC, una frequenza di campionamento di 16.000 Hz e che il file audio è archiviato su Google Cloud Storage nell'URI specificato. Il file audio è accessibile al pubblico, quindi non hai bisogno delle credenziali di autenticazione per accedervi.

  2. Utilizza curl per effettuare una richiesta speech:recognize, trasmettendolo il nome file della richiesta JSON impostata nel passaggio 1:

    Il comando curl di esempio usa il comando gcloud auth application-default print-access-token per ricevere un token di autenticazione.

    curl -s -H "Content-Type: application/json" \
        -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \
        https://speech.googleapis.com/v1/speech:recognize \
        -d @sync-request.json
      

    Tieni presente che per trasmettere un nome file a curl viene utilizzata l'opzione -d (per "dati") e anteponi un nome @ al nome del file. Questo file deve trovarsi nella stessa directory in cui esegui il comando curl.

    Dovresti visualizzare una risposta simile alla seguente:

    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "how old is the Brooklyn Bridge",
              "confidence": 0.98267895
            }
          ]
        }
      ]
    }
      

Complimenti! Hai inviato la tua prima richiesta a Speech-to-Text.

Se ricevi un errore o una risposta vuota da Speech-to-Text, dai un'occhiata ai passaggi per la risoluzione dei problemi e la mitigazione degli errori.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Passaggi successivi