Questa pagina mostra come trascrivere in testo un breve file audio utilizzando il riconoscimento vocale sincrono.
Il riconoscimento vocale sincrono restituisce il testo riconosciuto per l'audio breve (meno di 60 secondi). Per elaborare una richiesta di riconoscimento vocale per audio più lungo di 60 secondi, utilizza il riconoscimento vocale asincrono.
I contenuti audio possono essere inviati direttamente a Speech-to-Text da un file locale oppure Speech-to-Text può elaborare i contenuti audio archiviati in un bucket Google Cloud Storage. Consulta la pagina Quote e limiti per i limiti relativi alle richieste di riconoscimento vocale sincrona.
Esecuzione del riconoscimento vocale sincrono su un file locale
Ecco un esempio di esecuzione del riconoscimento vocale sincrono su un file audio locale:
REST
Per informazioni dettagliate, consulta l'endpoint API di speech:recognize
. Consulta la documentazione di riferimento di RecognitionConfig per ulteriori informazioni sulla configurazione del corpo della richiesta.
I contenuti audio forniti nel corpo della richiesta devono avere codifica Base64.
Per ulteriori informazioni su come codificare l'audio in base64, consulta Contenuti audio per la codifica Base64. Per maggiori
informazioni sul campo content
, consulta RecognitionAudio.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- LANGUAGE_CODE: il codice BCP-47 della lingua parlata nel clip audio.
- ENCODING: la codifica dell'audio che vuoi trascrivere.
- SAMPLE_RATE_HERTZ: frequenza di campionamento in Hertz dell'audio che vuoi trascrivere.
- ENABLE_WORD_TIME_OFFSETS: abilita questo campo se vuoi che vengano restituiti gli offset (timestamp) della parola di inizio e di fine.
- INPUT_AUDIO: una stringa con codifica Base64 dei dati audio che vuoi trascrivere.
- PROJECT_ID: l'ID alfanumerico del tuo progetto Google Cloud.
Metodo HTTP e URL:
POST https://speech.googleapis.com/v1/speech:recognize
Corpo JSON della richiesta:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "content": "INPUT_AUDIO" } }
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Per i dettagli completi, consulta il comando recognize
.
Per eseguire il riconoscimento vocale su un file locale, utilizza Google Cloud CLI, passando il percorso file locale del file su cui eseguire il riconoscimento vocale.
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
Se la richiesta riesce, il server restituisce una risposta in formato JSON:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Go di Speech-to-Text.
Per eseguire l'autenticazione a Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Java di Speech-to-Text.
Per eseguire l'autenticazione a Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Node.js di Speech-to-Text.
Per eseguire l'autenticazione a Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Python di Speech-to-Text.
Per eseguire l'autenticazione a Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni per la configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di Speech-to-Text per .NET.
PHP: segui le istruzioni per la configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di Speech-to-Text per PHP.
Ruby: segui le istruzioni per la configurazione di Ruby nella pagina delle librerie client e visita la documentazione di riferimento di Speech-to-Text per Ruby.
Esecuzione del riconoscimento vocale sincrono su un file remoto
Per comodità, l'API Speech-to-Text può eseguire il riconoscimento vocale sincrono direttamente in un file audio situato in Google Cloud Storage, senza dover inviare i contenuti del file audio nel corpo della richiesta.
Ecco un esempio di esecuzione del riconoscimento vocale sincrono su un file che si trova in Cloud Storage:
REST
Per informazioni dettagliate, consulta l'endpoint API di speech:recognize
. Consulta la documentazione di riferimento di RecognitionConfig per ulteriori informazioni sulla configurazione del corpo della richiesta.
I contenuti audio forniti nel corpo della richiesta devono avere codifica Base64.
Per ulteriori informazioni su come codificare l'audio in base64, consulta Contenuti audio per la codifica Base64. Per maggiori
informazioni sul campo content
, consulta RecognitionAudio.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- LANGUAGE_CODE: il codice BCP-47 della lingua parlata nel clip audio.
- ENCODING: la codifica dell'audio che vuoi trascrivere.
- SAMPLE_RATE_HERTZ: frequenza di campionamento in Hertz dell'audio che vuoi trascrivere.
- ENABLE_WORD_TIME_OFFSETS: abilita questo campo se vuoi che vengano restituiti gli offset (timestamp) della parola di inizio e di fine.
- STORAGE_BUCKET: un bucket Cloud Storage.
- INPUT_AUDIO: il file di dati audio che vuoi trascrivere.
- PROJECT_ID: l'ID alfanumerico del tuo progetto Google Cloud.
Metodo HTTP e URL:
POST https://speech.googleapis.com/v1/speech:recognize
Corpo JSON della richiesta:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "uri": "gs://STORAGE_BUCKET/INPUT_AUDIO" } }
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Per i dettagli completi, consulta il comando recognize
.
Per eseguire il riconoscimento vocale su un file locale, utilizza Google Cloud CLI, passando il percorso file locale del file su cui eseguire il riconoscimento vocale.
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
Se la richiesta riesce, il server restituisce una risposta in formato JSON:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Go di Speech-to-Text.
Per eseguire l'autenticazione a Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Java di Speech-to-Text.
Per eseguire l'autenticazione a Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Node.js di Speech-to-Text.
Per eseguire l'autenticazione a Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Python di Speech-to-Text.
Per eseguire l'autenticazione a Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni per la configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di Speech-to-Text per .NET.
PHP: segui le istruzioni per la configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di Speech-to-Text per PHP.
Ruby: segui le istruzioni per la configurazione di Ruby nella pagina delle librerie client e visita la documentazione di riferimento di Speech-to-Text per Ruby.