In questa pagina viene descritto come richiedere un modello di riconoscimento vocale avanzato quando invii una richiesta di trascrizione a Speech-to-Text.
Attualmente esistono due modelli avanzati: telefonata e video. Questi modelli sono stati ottimizzati per trascrivere più accuratamente i dati audio provenienti da queste fonti specifiche. Consulta la pagina delle lingue supportate per vedere se i modelli avanzati sono disponibili per la tua lingua.
Google crea e migliora i modelli avanzati in base ai dati raccolti tramite il logging dei dati. L'attivazione del logging dei dati non è necessaria per utilizzare i modelli avanzati, ma, se decidi di attivarla, puoi aiutare Google a migliorare questi modelli e usufruire anche di uno sconto sull'utilizzo.
Per utilizzare i modelli di riconoscimento avanzato, imposta i seguenti campi in RecognitionConfig:
- Imposta
useEnhanced
sutrue
. - Passa la stringa
phone_call
ovideo
nel campomodel
.
Speech-to-Text supporta modelli avanzati per tutti i metodi di riconoscimento vocale: speech:recognize
speech:longrunningrecognize
e Streaming.
I seguenti esempi di codice mostrano come richiedere l'utilizzo di un modello avanzato per una richiesta di trascrizione.
Protocollo
Per informazioni complete, consulta l'endpoint API speech:recognize
.
Per eseguire il riconoscimento vocale sincrono, effettua una richiesta POST
e fornisci il corpo della richiesta appropriato. Di seguito è riportato un esempio di richiesta POST
tramite
curl
. L'esempio utilizza il token di accesso per un account di servizio configurato per il progetto
tramite l'interfaccia a riga di comando di Google Cloud. Per istruzioni sull'installazione dell'interfaccia a riga di comando gcloud,
sulla configurazione di un progetto con un account di servizio e sull'ottenimento di un token di accesso,
consulta la guida rapida.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
Consulta la documentazione di riferimento di RecognitionConfig
per ulteriori informazioni sulla configurazione del corpo della richiesta.
Se la richiesta ha esito positivo, il server restituisce un codice di stato HTTP 200 OK
e la risposta in formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.", "confidence": 0.8930228 } ], "resultEndTime": "5.640s" }, { "alternatives": [ { "transcript": " Certainly, which color would you like? We are blue black and red.", "confidence": 0.9101991 } ], "resultEndTime": "10.220s" }, { "alternatives": [ { "transcript": " Let's go with the black one.", "confidence": 0.8818244 } ], "resultEndTime": "13.870s" }, { "alternatives": [ { "transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?", "confidence": 0.94733626 } ], "resultEndTime": "18.460s" }, { "alternatives": [ { "transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?", "confidence": 0.9519095 } ], "resultEndTime": "25.930s" }, { "alternatives": [ { "transcript": " Express, please.", "confidence": 0.9101229 } ], "resultEndTime": "28.260s" }, { "alternatives": [ { "transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.", "confidence": 0.9321616 } ], "resultEndTime": "34.150s" } ] }
Go
Python
Java
Node.js
Lingue aggiuntive
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e consulta la documentazione di riferimento di Speech-to-Text per .NET.
PHP: segui le istruzioni per la configurazione di PHP nella pagina delle librerie client e consulta la documentazione di riferimento Speech-to-Text per PHP.
Ruby: segui le istruzioni di configurazione di Rubby nella pagina delle librerie client e consulta la documentazione di riferimento Speech-to-Text per Ruby.
Passaggi successivi
Scopri come effettuare richieste di trascrizione sincrone.