Questa pagina descrive come utilizzare un modello di machine learning specifico per le richieste di trascrizione audio a Speech-to-Text.
Modelli di trascrizione
Speech-to-Text rileva le parole in un clip audio confrontando i dati di input a uno dei tanti modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi, in questo caso moltissimi registrazioni di persone che parlano.
Speech-to-Text dispone di modelli specializzati addestrati da audio da fonti specifiche, ad esempio telefonate o video. Grazie a questo processo di addestramento, questi modelli specializzati forniscono risultati migliori se applicati a tipi simili di dati audio.
Ad esempio, Speech-to-Text ha un modello di trascrizione addestrato
a riconoscere il parlato registrato al telefono. Quando Speech-to-Text
utilizza il modello telephony
o telephony_short
per trascrivere l'audio dello smartphone,
produce risultati di trascrizione più accurati rispetto a quelli ottenuti con i modelli latest_short
o latest_long
.
La tabella seguente mostra i modelli di trascrizione disponibili per l'uso con Speech-to-Text.
Nome modello | Descrizione |
---|---|
latest_long |
Utilizza questo modello per qualsiasi tipo di contenuti nel formato lungo, ad esempio contenuti multimediali o conversazioni e discorsi spontanei. Valuta la possibilità di utilizzare questo modello del modello video, soprattutto se quest'ultimo non è disponibile lingua di destinazione. Puoi anche utilizzarlo al posto del modello predefinito. |
latest_short |
Utilizza questo modello per frasi brevi della durata di alcuni secondi. È utile per provare a acquisire comandi o altri casi d'uso di parlato diretto con un solo scatto. Valuta la possibilità di utilizzare questo modello anziché il comando un modello di ricerca. |
telephony |
Versione migliorata di "phone_call" ideale per l'audio proveniente da una telefonata, solitamente registrato con una frequenza di campionamento di 8 kHz. |
telephony_short |
Versione dedicata della moderna "telefonia" per espressioni brevi o anche composte da una sola parola per l'audio proveniente da una telefonata, generalmente registrate con una frequenza di campionamento di 8 kHz. |
medical_dictation |
Utilizza questo modello per trascrivere le note dettate da un professionista
sanitario.
Si tratta di un modello premium costa più della tariffa standard. Consulta le pagina dei prezzi per ulteriori dettagli. |
medical_conversation |
Usa questo modello per trascrivere una conversazione tra un medico
professionale e paziente.
Questo è un modello premium con un costo più alto rispetto alla tariffa standard. Consulta le pagina dei prezzi per ulteriori dettagli. |
I seguenti modelli si basano principalmente su architetture non conformi classiche e vengono conservati principalmente per motivi di compatibilità con le versioni precedenti e legacy. | |
command_and_search |
Ideale per frasi brevi o composte da una sola parola come i comandi vocali o la ricerca vocale. |
default |
Ideale per audio non compatibile con gli altri modelli audio, come audio nel formato lungo o dettatura. Il modello predefinito produrrà risultati di trascrizione per qualsiasi tipo di audio, inclusi clip video che hanno un modello separato appositamente personalizzato. Tuttavia, il riconoscimento dell'audio dei video clip usando il modello predefinito di qualità inferiore rispetto all'uso del modello video. Idealmente l'audio è alta precisione, registrata con una frequenza di campionamento pari o superiore a 16 kHz. |
phone_call |
Ideale per audio proveniente da una telefonata (normalmente registrata con una frequenza di campionamento pari a 8 kHz). |
video |
Ideale per l'audio di clip video o di altre fonti (ad esempio podcast) con più speaker. Questo modello è spesso la scelta migliore registrato con un microfono di alta qualità o con molti rumore di fondo. Per risultati ottimali, fornisci audio registrato a 16.000 Hz o con una frequenza di campionamento maggiore. |
Seleziona un modello per la trascrizione audio
Per specificare un modello specifico da utilizzare per la trascrizione audio, devi impostare il campo model
su uno dei valori consentiti, ad esempio latest_long
, latest_short
, telephony
o telephony_short
, nei parametri RecognitionConfig
della richiesta.
Speech-to-Text supporta la selezione del modello per tutti i metodi di riconoscimento vocale: speech:recognize
,
speech:longrunningrecognize
e
streaming.
Eseguire la trascrizione di un file audio locale
Protocollo
Per informazioni dettagliate, consulta l'endpoint dell'API speech:recognize
.
Per eseguire il riconoscimento vocale sincrono, effettua una richiesta POST
e fornisci il corpo della richiesta appropriato. Di seguito è riportato un esempio di richiesta POST
mediante curl
. L'esempio utilizza Google Cloud CLI per generare un
token di accesso. Per istruzioni sull'installazione di gcloud CLI,
consulta la guida rapida.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
Consulta la documentazione di riferimento di RecognitionConfig
documentazione per saperne di più sulla configurazione del corpo della richiesta.
Se la richiesta riesce, il server restituisce un HTTP 200 OK
codice di stato e la risposta in formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "OK Google stream stranger things from Netflix to my TV okay stranger things from Netflix playing on TV from the people that brought you Google home comes the next evolution of the smart home and it's just outside your window me Google know hi how can I help okay no what's the weather like outside the weather outside is sunny and 76 degrees he's right okay no turn on the hose I'm holding sure okay no I'm can I eat this lemon tree leaf yes what about this Daisy yes but I wouldn't recommend it but I could eat it okay Nomad milk to my shopping list I'm sorry that sounds like an indoor request I keep doing that sorry you do keep doing that okay no is this compost really we're all compost if you think about it pretty much everything is made up of organic matter and will return", "confidence": 0.9251011 } ] } ] }
Go
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta API Go Speech-to-Text documentazione di riferimento.
Per autenticarti a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta API Java Speech-to-Text documentazione di riferimento.
Per autenticarti a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Speech-to-Text Node.js.
Per eseguire l'autenticazione a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, vedi Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Speech-to-Text Python.
Per autenticarti a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione per C# riportate nella pagina delle librerie client e consulta la documentazione di riferimento di Speech-to-Text per .NET.
PHP Segui le Istruzioni per la configurazione dei file PHP Nella pagina delle librerie client e poi visita Documentazione di riferimento di Speech-to-Text per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e poi consulta la documentazione di riferimento di Speech-to-Text per Ruby.
Eseguire la trascrizione di un file audio Cloud Storage
Go
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta API Go Speech-to-Text documentazione di riferimento.
Per autenticarti a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta API Java Speech-to-Text documentazione di riferimento.
Per autenticarti a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta API Node.js Speech-to-Text documentazione di riferimento.
Per autenticarti a Speech-to-Text, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione per C# riportate nella pagina delle librerie client e consulta la documentazione di riferimento di Speech-to-Text per .NET.
PHP Segui le Istruzioni per la configurazione dei file PHP Nella pagina delle librerie client e poi visita Documentazione di riferimento di Speech-to-Text per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e poi consulta la documentazione di riferimento di Speech-to-Text per Ruby.