In questa pagina viene spiegato come richiedere un modello di riconoscimento vocale avanzato quando invii una richiesta di trascrizione a Speech-to-Text.
Attualmente sono disponibili due modelli avanzati: telefonata e video. Questi modelli sono stati ottimizzati per trascrivere in modo più accurato i dati audio di queste origini specifiche. Consulta la pagina delle lingue supportate per scoprire se i modelli avanzati sono disponibili per la tua lingua.
Google crea e migliora i modelli avanzati in base ai dati raccolti tramite il logging dei dati. L'attivazione del logging dei dati non è richiesta per poter utilizzare i modelli avanzati, ma se la attivi puoi aiutare Google a migliorare questi modelli e usufruire anche di uno sconto sull'utilizzo.
Per utilizzare i modelli di riconoscimento avanzato, imposta i seguenti campi in RecognitionConfig:
- Imposta
useEnhanced
sutrue
. - Passa la stringa
phone_call
ovideo
nel campomodel
.
Speech-to-Text supporta i modelli avanzati per tutti i metodi di riconoscimento vocale:
speech:recognize
speech:longrunningrecognize
e Streaming.
I seguenti esempi di codice dimostrano come richiedere l'utilizzo di un modello avanzato per una richiesta di trascrizione.
Protocollo
Per i dettagli completi, consulta l'endpoint API di speech:recognize
.
Per eseguire il riconoscimento vocale sincrono, effettua una richiesta POST
e fornisci il corpo della richiesta appropriato. Di seguito è riportato un esempio di richiesta POST
mediante curl
. L'esempio utilizza il token di accesso per un account di servizio configurato per il progetto utilizzando Google Cloud CLI. Per istruzioni sull'installazione dell'interfaccia a riga di comando gcloud, sulla configurazione di un progetto con un account di servizio e su come ottenere un token di accesso, consulta la guida rapida.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
Per ulteriori informazioni sulla configurazione del corpo della richiesta, consulta la documentazione di riferimento di RecognitionConfig
.
Se la richiesta ha esito positivo, il server restituisce un codice di stato HTTP 200 OK
e la risposta in formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.", "confidence": 0.8930228 } ], "resultEndTime": "5.640s" }, { "alternatives": [ { "transcript": " Certainly, which color would you like? We are blue black and red.", "confidence": 0.9101991 } ], "resultEndTime": "10.220s" }, { "alternatives": [ { "transcript": " Let's go with the black one.", "confidence": 0.8818244 } ], "resultEndTime": "13.870s" }, { "alternatives": [ { "transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?", "confidence": 0.94733626 } ], "resultEndTime": "18.460s" }, { "alternatives": [ { "transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?", "confidence": 0.9519095 } ], "resultEndTime": "25.930s" }, { "alternatives": [ { "transcript": " Express, please.", "confidence": 0.9101229 } ], "resultEndTime": "28.260s" }, { "alternatives": [ { "transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.", "confidence": 0.9321616 } ], "resultEndTime": "34.150s" } ] }
Go
Python
Java
Node.js
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e consulta la documentazione di riferimento di Speech-to-Text per .NET.
PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client e consulta la documentazione di riferimento di Speech-to-Text per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e consulta la documentazione di riferimento di Speech-to-Text per Ruby.
Passaggi successivi
Scopri come effettuare richieste di trascrizione sincrone.