Questa pagina descrive come richiedere un modello di riconoscimento vocale avanzato quando invii una richiesta di trascrizione a Speech-to-Text.
Al momento sono disponibili due modelli avanzati: chiamata telefonica e video. Questi modelli sono stati ottimizzati per trascrivere in modo più accurato i dati audio provenienti da queste origini specifiche. Consulta la pagina delle lingue supportate per vedere se i modelli avanzati sono disponibili nella tua lingua.
Google crea e migliora i modelli avanzati in base ai dati raccolti tramite il logging dei dati. L'attivazione della registrazione dei dati non è obbligatoria per utilizzare i modelli avanzati, ma se la attivi puoi aiutare Google a migliorare questi modelli e usufruire anche di uno sconto sull'utilizzo.
Per utilizzare i modelli di riconoscimento avanzato, imposta i seguenti campi in RecognitionConfig:
- Imposta
useEnhancedsutrue. - Trasmetti la stringa
phone_callovideonel campomodel.
Speech-to-Text supporta modelli avanzati per
tutti i metodi di riconoscimento vocale:
speech:recognize
speech:longrunningrecognize e
streaming.
Gli esempi di codice riportati di seguito mostrano come richiedere l'utilizzo di un modello avanzato per una richiesta di trascrizione.
Protocollo
Per informazioni dettagliate, consulta l'endpoint API speech:recognize.
Per eseguire il riconoscimento vocale sincrono, invia una richiesta POST e fornisci il corpo della richiesta appropriato. Di seguito è riportato un esempio di richiesta POST mediante curl. L'esempio utilizza Google Cloud CLI per generare un token di accesso. Per istruzioni sull'installazione di gcloud CLI,
consulta la guida rapida.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
Per ulteriori informazioni sulla configurazione del corpo della richiesta, consulta la documentazione di riferimento di RecognitionConfig.
Se la richiesta riesce, il server restituisce un codice di stato HTTP 200 OK e la risposta in formato JSON:
{
"results": [
{
"alternatives": [
{
"transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.",
"confidence": 0.8930228
}
],
"resultEndTime": "5.640s"
},
{
"alternatives": [
{
"transcript": " Certainly, which color would you like? We are blue black and red.",
"confidence": 0.9101991
}
],
"resultEndTime": "10.220s"
},
{
"alternatives": [
{
"transcript": " Let's go with the black one.",
"confidence": 0.8818244
}
],
"resultEndTime": "13.870s"
},
{
"alternatives": [
{
"transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?",
"confidence": 0.94733626
}
],
"resultEndTime": "18.460s"
},
{
"alternatives": [
{
"transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?",
"confidence": 0.9519095
}
],
"resultEndTime": "25.930s"
},
{
"alternatives": [
{
"transcript": " Express, please.",
"confidence": 0.9101229
}
],
"resultEndTime": "28.260s"
},
{
"alternatives": [
{
"transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.",
"confidence": 0.9321616
}
],
"resultEndTime": "34.150s"
}
]
}
Go
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta la sezione Librerie client Speech-to-Text. Per saperne di più, consulta la documentazione di riferimento dell'API Speech-to-Text Go.
Per eseguire l'autenticazione in Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta la sezione Librerie client Speech-to-Text. Per saperne di più, consulta la documentazione di riferimento dell'API Speech-to-Text Python.
Per eseguire l'autenticazione in Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta la sezione Librerie client Speech-to-Text. Per saperne di più, consulta la documentazione di riferimento dell'API Speech-to-Text Java.
Per eseguire l'autenticazione in Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta la sezione Librerie client Speech-to-Text. Per saperne di più, consulta la documentazione di riferimento dell'API Speech-to-Text Node.js.
Per eseguire l'autenticazione in Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: Segui le istruzioni di configurazione di C# nella pagina delle librerie client e poi visita la documentazione di riferimento di Speech-to-Text per .NET.
PHP: Segui le istruzioni di configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di Speech-to-Text per PHP.
Ruby: Segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e poi visita la documentazione di riferimento di Speech-to-Text per Ruby.
Passaggi successivi
Esamina come effettuare richieste di trascrizione sincrona.