Trascrivere la voce in testo utilizzando l'API
Questa pagina mostra come inviare una richiesta di riconoscimento vocale a
Speech-to-Text utilizzando l'interfaccia REST
e il comando curl
.
Speech-to-Text consente di integrare facilmente le tecnologie di riconoscimento vocale di Google nelle applicazioni degli sviluppatori. Puoi inviare dati audio all'API Speech-to-Text, che restituisce una trascrizione di testo del file audio. Per saperne di più sul servizio, consulta la pagina Nozioni di base di Speech-to-Text.
Prima di iniziare
Prima di poter inviare una richiesta all'API Speech-to-Text, devi aver completato le seguenti azioni. Per informazioni dettagliate, consulta la pagina Prima di iniziare.
- Abilitare Speech-to-Text in un progetto Google Cloud .
- Assicurati che la fatturazione sia attivata per Speech-to-Text.
- Verifica di disporre delle autorizzazioni necessarie per completare questa guida. Se hai creato un nuovo progetto per questa guida, disponi già delle autorizzazioni richieste.
-
Installa Google Cloud CLI. Dopo l'installazione, inizializza Google Cloud CLI eseguendo il seguente comando:
gcloud init
Se utilizzi un provider di identità (IdP) esterno, devi prima accedere alla gcloud CLI con la tua identità federata.
- (Facoltativo) Crea un nuovo bucket Google Cloud Storage per archiviare i dati audio.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per trascrivere la voce in testo, chiedi all'amministratore di concederti il ruolo IAM Service Usage Consumer (roles/serviceusage.serviceUsageConsumer
) sul progetto.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Esecuzione di una richiesta di trascrizione audio
Ora puoi utilizzare Speech-to-Text per trascrivere un file audio in testo. Utilizza il seguente esempio di codice per inviare una richiesta REST recognize
all'API Speech-to-Text.
-
Crea un file di richiesta JSON con il testo seguente e salvalo come file di testo normale
sync-request.json
:{ "config": { "encoding":"FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
Questo snippet JSON indica che il file audio ha un formato di codifica FLAC, una frequenza di campionamento di 16000 Hz e che il file audio è archiviato su Google Cloud Storage all'URI specificato. Il file audio è accessibile pubblicamente, quindi non hai bisogno di credenziali di autenticazione per accedervi.
-
Utilizza
curl
per inviare una richiestaspeech:recognize
, fornendo il nome del file della richiesta JSON che hai configurato nel passaggio 1:Il comando di esempio
curl
utilizza il comandogcloud auth print-access-token
per ottenere un token di autenticazione.curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ https://speech.googleapis.com/v1/speech:recognize \ -d @sync-request.json
Tieni presente che per passare un nome file a
curl
utilizzi l'opzione-d
(per "data") e precedi il nome file con il segno@
. Questo file deve trovarsi nella stessa directory in cui esegui il comandocurl
.Dovresti visualizzare una risposta simile alla seguente:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
Complimenti! Hai inviato la tua prima richiesta a Speech-to-Text.
Se ricevi un errore o una risposta vuota da Speech-to-Text, consulta i passaggi di risoluzione dei problemi e mitigazione degli errori.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
- Utilizza Google Cloud console per eliminare il progetto se non ti serve.
Passaggi successivi
- Esercitati a trascrivere file audio corti.
- Scopri come elaborare in batch file audio lunghi per il riconoscimento vocale.
- Scopri come trascrivere l'audio in streaming, ad esempio da un microfono.
- Inizia a utilizzare Speech-to-Text nella lingua che preferisci utilizzando una libreria client Speech-to-Text.
- Esamina le applicazioni di esempio.
- Per ottenere prestazioni, precisione e altri suggerimenti ottimali, consulta la documentazione sulle best practice.