Trascrivi voce in testo utilizzando l'API
Questa pagina mostra come inviare una richiesta di riconoscimento vocale a Speech-to-Text utilizzando l'interfaccia REST e il comando curl
.
Speech-to-Text consente una facile integrazione delle tecnologie di riconoscimento vocale di Google nelle applicazioni per sviluppatori. Puoi inviare i dati audio all'API Speech-to-Text, che restituisce una trascrizione del testo di tale file audio. Per scoprire di più sul servizio, consulta le nozioni di base su Speech-to-Text.
Prima di iniziare
Prima di poter inviare una richiesta all'API Speech-to-Text, devi completare le seguenti azioni. Consulta la pagina prima di iniziare per i dettagli.
- Abilitare Speech-to-Text su un progetto GCP.
- Assicurati che la fatturazione sia abilitata per Speech-to-Text.
- Crea e/o assegna uno o più account di servizio a Speech-to-Text.
- Scaricare una chiave delle credenziali dell'account di servizio.
- Imposta la variabile di ambiente di autenticazione.
- (Facoltativo) Crea un nuovo bucket Google Cloud Storage per archiviare i tuoi dati audio.
Esecuzione di una richiesta di trascrizione di audio
Ora puoi utilizzare Speech-to-Text per trascrivere un file audio in testo. Utilizza il seguente esempio di codice per inviare una richiesta REST di recognize
all'API Speech-to-Text.
-
Crea un file di richiesta JSON con il testo seguente e salvalo come file di testo normale
sync-request.json
:{ "config": { "encoding":"FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
Questo snippet JSON indica che il file audio ha un formato di codifica FLAC, una frequenza di campionamento di 16.000 Hz e che il file audio è archiviato su Google Cloud Storage all'URI specificato. Il file audio è accessibile pubblicamente, quindi non sono necessarie le credenziali di autenticazione per accedere al file.
-
Utilizza
curl
per effettuare una richiestaspeech:recognize
, passando il nome file della richiesta JSON che hai configurato nel passaggio 1:Il comando di esempio
curl
utilizza il comandogcloud auth application-default print-access-token
per ottenere un token di autenticazione.curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ https://speech.googleapis.com/v1/speech:recognize \ -d @sync-request.json
Tieni presente che per passare un nome file a
curl
, utilizzi l'opzione-d
(per "dati") e anteponi il segno@
al nome file. Questo file deve trovarsi nella stessa directory in cui esegui il comandocurl
.Dovresti vedere una risposta simile alla seguente:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
Complimenti! Hai inviato la tua prima richiesta a Speech-to-Text.
Se ricevi un errore o una risposta vuota da Speech-to-Text, dai un'occhiata ai passaggi di risoluzione dei problemi e di attenuazione degli errori.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi:
- Usa la Google Cloud Console per eliminare il progetto nel caso in cui non sia necessario.
Passaggi successivi
- Esercitati a trascrivere file audio brevi.
- Scopri come raggruppare file audio lunghi per il riconoscimento vocale.
- Scopri come trascrivere audio in streaming, ad esempio da un microfono.
- Inizia a utilizzare Speech-to-Text nella lingua che preferisci utilizzando una libreria client di Speech-to-Text.
- Esplora le applicazioni di esempio.
- Per prestazioni ottimali e altri suggerimenti, consulta la documentazione sulle best practice.