Questo documento contiene consigli su come fornire dati vocali all'API Speech-to-Text. Queste linee guida sono progettate per una maggiore efficienza e accuratezza, nonché per tempi di risposta ragionevoli del servizio. L'utilizzo dell'API Speech-to-Text funziona al meglio quando i dati inviati al servizio rientrano nei parametri descritti in questo documento.
Se segui queste linee guida e non ottieni i risultati previsti dall'API, consulta la sezione Risoluzione dei problemi e assistenza.
Per risultati ottimali… | Se possibile, evita di… |
---|---|
Acquisisci l'audio con una frequenza di campionamento pari o superiore a 16.000 Hz. | Frequenze di campionamento più basse potrebbero ridurre la precisione. Tuttavia, evita di eseguire un nuovo campionamento. Ad esempio, in telefonia la frequenza nativa è in genere 8000 Hz, ovvero la frequenza che deve essere inviata al servizio. |
Utilizza un codec senza perdita di dati per registrare e trasmettere l'audio. Consigliamo FLAC o LINEAR16 . |
L'utilizzo di mp3, mp4, m4a, mu-law, a-law o altri codec con perdita di dati durante la registrazione o la trasmissione potrebbe ridurre l'accuratezza. Se l'audio è già in una codifica non supportata dall'API, esegui la transcodifica in formato lossless FLAC o LINEAR16 . Se la tua applicazione deve utilizzare un codec con perdita per risparmiare larghezza di banda, ti consigliamo i codec AMR_WB o OGG_OPUS , nell'ordine preferito. |
Il riconoscitore è progettato per ignorare le voci e i rumori di sottofondo senza ulteriore eliminazione del rumore. Tuttavia, per risultati ottimali, posiziona il microfono il più vicino possibile all'utente, in particolare quando sono presenti rumori di fondo. | Rumore di fondo eccessivo ed echi possono ridurre l'accuratezza, soprattutto se viene utilizzato anche un codec con perdita di dati. |
Se acquisisci l'audio di più persone e ogni persona viene registrata su un canale separato, invia ogni canale separatamente per ottenere i migliori risultati di riconoscimento. Tuttavia, se tutti gli speaker sono mixati in una registrazione monocanale, invia la registrazione così com'è. | Più persone che parlano contemporaneamente o a volumi diversi potrebbero essere interpretate come rumore di fondo e ignorate. |
Utilizza i suggerimenti di parole e frasi per aggiungere nomi e termini al vocabolario e migliorare l'accuratezza di parole e frasi specifiche. | Il sistema di riconoscimento ha un vocabolario molto ampio, ma i termini e i nomi propri non inclusi nel vocabolario non verranno riconosciuti. |
Frequenza di campionamento
Se possibile, imposta la frequenza di campionamento della sorgente audio su 16000 Hz.
Per i codec senza intestazione, utilizza l'impostazione explicit_decoding_config in RecognitionConfig per impostare sample_rate_hertz in modo che corrisponda alla frequenza di campionamento nativa della sorgente audio (anziché ricrearla).
Per i codec con un'intestazione, utilizza l'impostazione auto_decoding_config in RecognitionConfig per scegliere automaticamente la frequenza di campionamento corretta.
Dimensioni del telaio
Il riconoscimento in streaming riconosce l'audio in diretta quando viene acquisito da un microfono o da un'altra sorgente audio. Lo stream audio viene suddiviso in frame e inviato in messaggi StreamingRecognizeRequest
consecutivi. Sono accettate qualsiasi dimensione di fotogramma.
I frame più grandi sono più efficienti, ma aumentano la latenza. È consigliabile una dimensione del frame di 100 millisecondi come buon compromesso tra latenza ed efficienza.
Pre-elaborazione audio
È meglio fornire un audio il più pulito possibile utilizzando un microfono di buona qualità e ben posizionato. Tuttavia, l'applicazione di un'elaborazione del segnale di riduzione del rumore all'audio prima di inviarlo al servizio in genere riduce l'accuratezza del riconoscimento. Il servizio è progettato per gestire l'audio con rumore.
Per ottenere risultati ottimali:
- Posiziona il microfono il più vicino possibile alla persona che sta parlando, in particolare quando è presente rumore di fondo.
- Evita il clipping audio.
- Non utilizzare il controllo automatico del guadagno (AGC).
- Tutta l'elaborazione di riduzione del rumore deve essere disattivata.
- Ascolta alcuni esempi audio. Deve essere chiaro, senza distorsioni o rumore imprevisto.
Richiedi configurazione
Assicurati di descrivere con precisione i dati audio inviati con la richiesta all'API Speech-to-Text. Assicurati che il valore RecognitionConfig per la tua richiesta descriva sampleRateHertz
e encoding
corretti e che tu stia utilizzando un Recognizer con language_codes
e model
corretti per ottenere la trascrizione e la fatturazione più accurate per la tua richiesta.
Passaggi successivi
- Utilizza le librerie client per trascrivere l'audio utilizzando il tuo linguaggio di programmazione preferito.
- Fai pratica di trascrizione di file audio brevi.
- Scopri come trascrivere l'audio in streaming.
- Scopri come trascrivere file audio lunghi.