best practice

Questo documento contiene suggerimenti su come fornire dati vocali all'API Speech-to-Text. Queste linee guida sono pensate per una maggiore efficienza e precisione, nonché per tempi di risposta ragionevoli da parte del servizio. L'utilizzo dell'API Speech-to-Text funziona al meglio quando i dati inviati al servizio rientrano nei parametri descritti in questo documento.

Se segui queste linee guida e non ottieni i risultati attesi dall'API, consulta la pagina Risoluzione dei problemi e assistenza.

Per risultati ottimali... Se possibile, evita di...
Acquisisci audio con una frequenza di campionamento di almeno 16.000 Hz. Frequenze di campionamento inferiori possono ridurre l'accuratezza. Tuttavia, evita il ricampionamento. Ad esempio, nel settore della telefonia la velocità nativa è generalmente 8000 Hz, ovvero la velocità che deve essere inviata al servizio.
Utilizza un codec senza perdita di dati per registrare e trasmettere l'audio. È consigliato FLAC o LINEAR16. L'utilizzo di mp3, mp4, m4a, mu-law, diritto o altri codec con perdita di dati durante la registrazione o la trasmissione può ridurre l'accuratezza. Se l'audio è già in una codifica non supportata dall'API, transcodifica il tuo file in un formato senza perdita di dati FLAC o LINEAR16. Se l'applicazione deve utilizzare un codec con perdita di banda per preservare la larghezza di banda, consigliamo i codec AMR_WB o OGG_OPUS, nell'ordine preferito.
Il riconoscimento è progettato per ignorare le voci di sottofondo e il rumore senza ulteriore cancellazione del rumore. Tuttavia, per ottenere risultati ottimali, posiziona il microfono il più vicino possibile all'utente, in particolare in presenza di rumore di fondo. Un eco e un rumore di fondo eccessivi possono ridurre l'accuratezza, in particolare se viene utilizzato anche un codec con perdita di dati.
Se acquisisci l'audio di più persone e ognuna viene registrata su un canale separato, invia ciascun canale separatamente per ottenere i migliori risultati di riconoscimento. Tuttavia, se tutti gli oratori sono mixati in un unico canale di registrazione, invia la registrazione così com'è. Più persone che parlano contemporaneamente o a volumi diversi possono essere interpretati come rumore di fondo e ignorati.
Utilizza i suggerimenti di parole e frasi per aggiungere nomi e termini al vocabolario e migliorare la precisione di parole e frasi specifiche. Il riconoscimento ha un vocabolario molto ampio, tuttavia i termini e i nomi propri fuori dal vocabolario non verranno riconosciuti.

Frequenza di campionamento

Se possibile, imposta la frequenza di campionamento della sorgente audio su 16000 Hz.

Per i codec senza intestazioni, utilizza l'impostazione explicit_decoding_config in RecognitionConfig per impostare sample_rate_hertz in modo che corrisponda alla frequenza di campionamento nativa della sorgente audio (anziché ricampionare).

Per i codec con un'intestazione, utilizza l'impostazione auto_decoding_config in RecognitionConfig per scegliere automaticamente la frequenza di campionamento corretta.

Dimensioni della cornice

Il riconoscimento dello streaming riconosce l'audio in diretta mentre viene acquisito da un microfono o da un'altra sorgente audio. Lo stream audio viene suddiviso in frame e inviato in messaggi StreamingRecognizeRequest consecutivi. Sono accettate tutte le dimensioni del fotogramma. I frame più grandi sono più efficienti, ma aumentano la latenza. Si consiglia una dimensione di 100 millisecondi come buon compromesso tra latenza ed efficienza.

Pre-elaborazione audio

È preferibile fornire audio quanto più pulito possibile utilizzando un microfono di buona qualità e ben posizionato. Tuttavia, l'applicazione dell'elaborazione del segnale di riduzione del rumore all'audio prima di inviarlo al servizio riduce in genere la precisione del riconoscimento. Il servizio è progettato per gestire audio rumorosi.

Per ottenere risultati ottimali:

  • Posiziona il microfono il più vicino possibile alla persona che parla, soprattutto in presenza di rumori di fondo.
  • Evita clip audio.
  • Non utilizzare il controllo automatico del guadagno (AGC).
  • L'elaborazione della riduzione del rumore deve essere disattivata.
  • Ascoltare un po' di audio di esempio. Deve essere chiaro, senza distorsioni o rumore inaspettato.

Richiedi configurazione

Assicurati di descrivere con precisione i dati audio inviati con la tua richiesta all'API Speech-to-Text. Se fai in modo che il valore RecognitionConfig per la tua richiesta descriva i valori sampleRateHertz e encoding corretti e che stai utilizzando un Riconoscimento con i valori language_codes e model corretti, la trascrizione e la fatturazione saranno più accurate per la tua richiesta.

Passaggi successivi