Trascrivere il parlato in testo utilizzando l'API
In questa pagina viene mostrato come inviare una richiesta di riconoscimento vocale a
Speech-to-Text utilizzando l'interfaccia REST
e il comando curl
.
Speech-to-Text consente di integrare facilmente le tecnologie di riconoscimento vocale di Google nelle applicazioni degli sviluppatori. Puoi inviare dati audio all'API Speech-to-Text, che restituisce una trascrizione del testo del file audio. Per ulteriori informazioni vedi il servizio Nozioni di base su Speech-to-Text.
Prima di iniziare
Prima di poter inviare una richiesta all'API Speech-to-Text, devi aver completato le seguenti azioni. Per informazioni dettagliate, consulta la pagina Prima di iniziare.
- Attivare Speech-to-Text in un progetto Google Cloud.
- Assicurati che la fatturazione sia abilitata per Speech-to-Text.
-
Install the Google Cloud CLI, then initialize it by running the following command:
gcloud init
- (Facoltativo) Crea un nuovo bucket Google Cloud Storage in cui archiviare l'audio e i dati di Google Cloud.
Esecuzione di una richiesta di trascrizione audio
Ora puoi utilizzare Speech-to-Text per trascrivere un file audio in testo. Utilizza il seguente esempio di codice per inviare un
recognize
Richiesta REST all'API Speech-to-Text.
-
Crea un file di richiesta JSON con il testo seguente e salvalo come file
sync-request.json
file di testo normale:{ "config": { "encoding":"FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
Lo snippet JSON indica che il file audio ha un formato di codifica FLAC, una frequenza di campionamento di 16000 Hz e che il file audio sia archiviato su Google Cloud Archiviazione nell'URI specificato. Il file audio è accessibile al pubblico, quindi non hai bisogno di credenziali di autenticazione per accedervi.
-
Utilizza
curl
per inviare una richiestaspeech:recognize
, passando il nome del file della richiesta JSON configurata nel passaggio 1:Il comando
curl
di esempio utilizza il comandogcloud auth print-access-token
per ottenere un token di autenticazione.curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ https://speech.googleapis.com/v1/speech:recognize \ -d @sync-request.json
Tieni presente che per passare un nome file a
curl
devi utilizzare-d
(per "dati") e precede il nome file con un@
. Questo file deve trovarsi nella stessa directory in cui esegui il comandocurl
.Dovresti visualizzare una risposta simile alla seguente:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
Complimenti! Hai inviato la tua prima richiesta a Speech-to-Text.
Se ricevi un errore o una risposta vuota da Text-to-Speech, consulta i passaggi per la risoluzione dei problemi e la mitigazione degli errori.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi per le risorse utilizzate in questa pagina, segui questi passaggi.
- Utilizzare la console Google Cloud per eliminare il progetto se non ti serve.
Passaggi successivi
- Esercitati a trascrivere file audio brevi.
- Scopri come raggruppare file audio lunghi per il riconoscimento vocale.
- Scopri come trascrivere l'audio in streaming, ad esempio da un microfono.
- Inizia a utilizzare Speech-to-Text nella lingua che preferisci utilizzando una libreria client di Speech-to-Text.
- Esamina le applicazioni di esempio.
- Per prestazioni ottimali, precisione e altri suggerimenti, consulta la best practice.