Best practice

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Questo documento contiene suggerimenti su come fornire dati vocali all'API Speech-to-Text. Queste linee guida sono progettate per offrire maggiore efficienza e precisione, nonché tempi di risposta ragionevoli da parte del servizio. L'utilizzo dell'API Speech-to-Text funziona al meglio quando i dati inviati al servizio rientrano nei parametri descritti in questo documento.

Se segui queste linee guida e non ricevi i risultati che avevi previsto dall'API, consulta la sezione Risoluzione dei problemi e assistenza.

Per ottenere risultati ottimali... Se possibile, evita di...
Acquisisci l'audio con una frequenza di campionamento pari o superiore a 16.000 Hz. Basse frequenze di campionamento potrebbero ridurre la precisione. Tuttavia, evita di ripetere il campionamento. Ad esempio, in telefonia la tariffa nativa è di solito 8000 Hz, ovvero la frequenza che deve essere inviata al servizio.
Utilizzare un codec senza perdita di dati per registrare e trasmettere contenuti audio. Si consiglia l'utilizzo di FLAC o LINEAR16. L'utilizzo di codec mp3, mp4, m4a, mu-law, a-law o con perdita di dati durante la registrazione o la trasmissione potrebbe ridurre la precisione. Se l'audio è già in una codifica non supportata dall'API, transcodificalo in FLAC o LINEAR16 senza perdita di dati. Se l'applicazione deve utilizzare un codec di perdita di dati per preservare la larghezza di banda, consigliamo i codec AMR_WB, OGG_OPUS o SPEEX_WITH_HEADER_BYTE nell'ordine preferito.
Il sistema di riconoscimento è progettato per ignorare le voci e i rumori di sottofondo senza che l'utente debba annullare l'audio. Tuttavia, per risultati ottimali, posiziona il microfono il più vicino possibile all'utente, in particolare quando è presente un rumore di fondo. Un rumore di fondo e un'eco eccessivi potrebbero ridurre la precisione, soprattutto se si utilizza anche un codec con perdita di dati.
Se acquisisci l'audio da più di una persona e ognuna viene registrata su un canale distinto, invia ogni canale separatamente per ottenere i migliori risultati di riconoscimento. Tuttavia, se tutti gli altoparlanti sono combinati in una registrazione con un singolo canale, invia la registrazione così com'è. Più persone che parlano contemporaneamente o a volumi diversi possono essere interpretate come rumore di fondo e ignorate.
Utilizza i suggerimenti di parole e frasi per aggiungere nomi e termini al vocabolario e aumentare la precisione di parole e frasi specifiche. Il sistema di riconoscimento ha un vocabolario molto esteso; tuttavia, i termini e i nomi propri fuori dal vocabolario non vengono riconosciuti.
Per query o comandi brevi, usa StreamingRecognize con single_utterance impostato su true. In questo modo ottimizzi il riconoscimento per brevi frasi e riduci al minimo la latenza. Recognize o LongRunningRecognize per utilizzi brevi di query o comandi.

Frequenza di campionamento

Se possibile, imposta la frequenza di campionamento della sorgente audio su 16. 000 Hz, altrimenti imposta il valore sample_rate_hertz in modo che corrisponda alla frequenza di campionamento nativa della sorgente audio (invece di ripetere il campionamento).

Dimensioni frame

Il riconoscimento dello streaming riconosce l'audio in diretta mentre viene acquisito da un microfono o da un'altra sorgente audio. Lo stream audio è suddiviso in frame e inviato in messaggi StreamingRecognizeRequest consecutivi. Sono accettate immagini di qualsiasi dimensione. I frame più grandi sono più efficienti, ma aggiungono latenza. Si consiglia un frame di 100 millisecondi come buon compromesso tra latenza ed efficienza.

Pre-elaborazione audio

Per ottenere un audio il più pulito possibile utilizza un microfono di buona qualità e ben posizionato. Tuttavia, l'applicazione dell'elaborazione del segnale di riduzione del rumore all'audio prima di inviarlo al servizio riduce in genere la precisione di riconoscimento. Il servizio è progettato per gestire audio rumorosi.

Per ottenere risultati ottimali:

  • Posiziona il microfono il più vicino possibile alla persona che sta parlando, in particolare quando è presente un rumore di fondo.
  • Evita i clip audio.
  • Non utilizzare il controllo automatico del guadagno (AGC).
  • L'elaborazione della riduzione del rumore deve essere disattivata.
  • Ascolta un esempio di audio. Dovrebbe suonare chiaro, senza distorsioni o rumori imprevisti.

Richiedi configurazione

Assicurati di descrivere con precisione i dati audio inviati con la tua richiesta all'API Speech-to-Text. Assicurati che RecognitionConfig per la tua richiesta descriva i valori sampleRateHertz, encoding e languageCode corretti per ottenere la trascrizione e la fatturazione più accurate per la tua richiesta.