Questo tutorial mostra come trascrivere l'audio registrato da uno smartphone utilizzando Speech-to-Text.
I file audio possono provenire da molte fonti diverse. I dati audio possono provenire da un telefono (ad esempio da un messaggio vocale) o da una colonna sonora inclusa in un file video.
Speech-to-Text può utilizzare uno dei vari modelli di machine learning per trascrivere il file audio in modo che corrisponda al meglio alla sorgente originale dell'audio. Puoi ottenere risultati migliori dalla trascrizione del parlato specificando la fonte dell'audio originale. In questo modo, Speech-to-Text può elaborare i tuoi file audio utilizzando un modello di machine learning addestrato per dati simili al tuo file audio.
Obiettivi
- Invia una richiesta di trascrizione audio per l'audio registrato da un telefono (ad esempio un messaggio vocale) a Speech-to-Text.
- Specifica un modello di riconoscimento vocale avanzato per una richiesta di trascrizione audio.
Costi
Questo tutorial utilizza i componenti fatturabili di Cloud Platform, tra cui:
- Speech-to-Text
Utilizza il Calcolatore prezzi per generare una stima
dei costi in base all'utilizzo previsto.
Prima di iniziare
Questo tutorial ha diversi prerequisiti:
- Hai configurato un progetto Speech-to-Text nella console Google Cloud.
- Hai configurato l'ambiente utilizzando le Credenziali predefinite dell'applicazione nella console Google Cloud.
- Hai configurato l'ambiente di sviluppo per il linguaggio di programmazione prescelto.
- Devi avere installato la libreria client di Google Cloud per il linguaggio di programmazione scelto.
Invia una richiesta
Per trascrivere al meglio l'audio acquisito su uno smartphone, ad esempio una telefonata o un messaggio vocale, puoi impostare il campo model
nel payload di RecognitionConfig
su phone_call
. Il campo model
indica all'API Speech-to-Text il modello di riconoscimento vocale da utilizzare per la richiesta di trascrizione.
Puoi migliorare i risultati della trascrizione audio del telefono utilizzando un modello avanzato. Per utilizzare un modello avanzato, imposta il campo useEnhanced
su true
nel payload di RecognitionConfig
.
I seguenti esempi di codice mostrano come selezionare un modello di trascrizione specifico durante la chiamata a Speech-to-Text.
Protocollo
Per informazioni dettagliate, fai riferimento all'endpoint API di speech:recognize
.
Per eseguire il riconoscimento vocale sincrono, effettua una richiesta POST
e fornisci il corpo della richiesta appropriato. Di seguito è riportato un esempio di richiesta POST
che utilizza curl
. L'esempio utilizza Google Cloud CLI per generare un token di accesso. Per istruzioni sull'installazione di gcloud CLI, consulta la quickstart.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
Per ulteriori informazioni sulla configurazione del corpo della richiesta, consulta la documentazione di riferimento di RecognitionConfig
.
Se la richiesta ha esito positivo, il server restituisce un codice di stato HTTP 200 OK
e la risposta in formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.", "confidence": 0.8930228 } ], "resultEndTime": "5.640s" }, { "alternatives": [ { "transcript": " Certainly, which color would you like? We are blue black and red.", "confidence": 0.9101991 } ], "resultEndTime": "10.220s" }, { "alternatives": [ { "transcript": " Let's go with the black one.", "confidence": 0.8818244 } ], "resultEndTime": "13.870s" }, { "alternatives": [ { "transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?", "confidence": 0.94733626 } ], "resultEndTime": "18.460s" }, { "alternatives": [ { "transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?", "confidence": 0.9519095 } ], "resultEndTime": "25.930s" }, { "alternatives": [ { "transcript": " Express, please.", "confidence": 0.9101229 } ], "resultEndTime": "28.260s" }, { "alternatives": [ { "transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.", "confidence": 0.9321616 } ], "resultEndTime": "34.150s" } ] }
Go
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta la pagina relativa alle librerie client di Speech-to-Text. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Speech-to-Text Go.
Per eseguire l'autenticazione a Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta la pagina relativa alle librerie client di Speech-to-Text. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Speech-to-Text Java.
Per eseguire l'autenticazione a Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta la pagina relativa alle librerie client di Speech-to-Text. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Speech-to-Text Node.js.
Per eseguire l'autenticazione a Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta la pagina relativa alle librerie client di Speech-to-Text. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Speech-to-Text Python.
Per eseguire l'autenticazione a Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di Speech-to-Text per .NET.
PHP: segui le istruzioni per la configurazione dei file PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di Speech-to-Text per PHP.
Ruby: segui le istruzioni per la configurazione di Ruby nella pagina delle librerie client e consulta la documentazione di riferimento di Speech-to-Text per Ruby.
Esegui la pulizia
Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.
Per eliminare il progetto:
- Nella console Google Cloud, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.
Elimina le istanze
Per eliminare un'istanza di Compute Engine:
- Nella console Google Cloud, vai alla pagina Istanze VM.
- Seleziona la casella di controllo per l'istanza che vuoi eliminare.
- Per eliminare l'istanza, fai clic su Altre azioni, quindi su Elimina e segui le istruzioni.
Elimina le regole firewall per la rete predefinita
Per eliminare una regola firewall:
- Nella console Google Cloud, vai alla pagina Firewall.
- Seleziona la casella di controllo per la regola firewall che vuoi eliminare.
- Per eliminare la regola firewall, fai clic su Elimina.