Misurare e migliorare la precisione della voce

Panoramica

Il riconoscimento vocale automatico (ASR), noto anche come trascrizione automatica o Speech-to-Text (STT), utilizza il machine learning per trasformare l'audio contenente voce in testo. ASR ha molte applicazioni, dalla sottotitolazione agli assistenti virtuali, alle riposte vocali interattive (IVR), alla dettatura e altro ancora. Tuttavia, raramente i sistemi di machine learning sono precisi al 100% e le ASR non fanno eccezione. Se prevedi di fare affidamento sull'ASR per sistemi critici, è molto importante misurarne l'accuratezza o la qualità complessiva per capire come funziona nel sistema più ampio che li integra.

Una volta misurata la precisione, puoi mettere a punto i sistemi per fornire una precisione ancora maggiore per la situazione specifica. Nell'API Cloud Speech-to-Text di Google, l'ottimizzazione dell'accuratezza può essere effettuata scegliendo il modello di riconoscimento più appropriato e utilizzando la nostra API di adattamento vocale. Offriamo un'ampia gamma di modelli realizzati su misura per diversi casi d'uso, come audio di lunga durata, audio medico o conversazioni al telefono.

Definizione dell'accuratezza della voce

L'accuratezza della voce può essere misurata in diversi modi. Ti potrebbe essere utile utilizzare più metriche, a seconda delle esigenze. Tuttavia, il metodo standard di settore per il confronto è Word Error Rate (WER), spesso abbreviato come WER. Il valore WER misura la percentuale di trascrizioni di parole errate nell'intero set. Un valore WER più basso indica che il sistema è più preciso.

Potresti anche vedere il termine dati empirici reali nel contesto dell'accuratezza delle ASR. I dati empirici reali sono trascrizioni accurate al 100%, in genere fornite dall'uomo, che utilizzi per confrontare e misurare l'accuratezza.

Tasso di errori delle parole (WER)

Il WER è la combinazione di tre tipi di errori di trascrizione, che possono verificarsi:

  • Errore di inserzione (I): parole presenti nella trascrizione dell'ipotesi che non sono presenti nei dati empirici reali.
  • Errori di sostituzione (S): parole presenti sia nell'ipotesi sia nei dati empirici reali, ma non trascritte correttamente.
  • Errori di eliminazione (D): parole che non sono presenti nell'ipotesi, ma che sono presenti nei dati empirici reali.

\[WER = {S+R+Q \over N}\]

Per trovare il WER, somma il numero totale di ciascuno di questi errori e dividi per il numero totale di parole (N) nella trascrizione basata su dati empirici reali. Il WER può essere superiore al 100% in situazioni con una precisione molto bassa, ad esempio quando viene inserita una grande quantità di nuovo testo. Nota: in pratica, la sostituzione è di fatto eliminazione e seguita dall'inserimento. Alcune sostituzioni sono meno gravi di altre. Ad esempio, potrebbe esserci una differenza nella sostituzione di una singola lettera anziché di una parola.

Rapporto tra WER e punteggio di confidenza

La metrica WER è indipendente da un punteggio di affidabilità e di solito non sono correlate tra loro. Un punteggio di affidabilità si basa sulla probabilità, mentre il WER si basa sul fatto che la parola sia correttamente identificata o meno. Se la parola non è identificata correttamente, significa che anche piccoli errori grammaticali possono causare un WER elevato. Una parola identificata correttamente porta a un WER basso, che può comunque portare a una bassa probabilità, il che riduce l'affidabilità se la parola non è così frequente o l'audio è molto rumoroso.

Analogamente, una parola utilizzata di frequente può avere un'alta probabilità di essere trascritta correttamente dall'ASR, il che aumenta il punteggio di affidabilità. Ad esempio, quando viene identificata una differenza tra "I" e "occhio", potrebbe verificarsi un'affidabilità elevata, perché "I" è una parola più comune, ma la metrica WER viene abbassata da questa parola.

In sintesi, le metriche di confidenza e WER sono indipendenti e non è prevista una correlazione.

Normalizzazione

Durante il calcolo della metrica WER, la trascrizione automatica viene confrontata con una trascrizione basata su dati empirici reali fornita da persone. Il testo di entrambe le trascrizioni viene normalizzato prima del confronto. La punteggiatura viene rimossa e le lettere maiuscole vengono ignorate quando si confronta la trascrizione automatica con la trascrizione di dati empirici reali fornita dall'uomo.

Convenzioni sui dati empirici reali

È importante sapere che non esiste un solo formato di trascrizione accettato dall'utente per un dato audio. Ci sono molti aspetti da considerare. Ad esempio, l'audio potrebbe avere altre vocalizzazioni non vocali, come "eh", "yep", "umm". Alcuni modelli di Cloud STT, come "medical_conversation", includono queste vocalizzazioni, mentre altri no. Pertanto, è importante che le convenzioni basate sui dati empirici reali corrispondano a quelle del modello valutato. Le seguenti linee guida generali vengono utilizzate per preparare una trascrizione di testi empirici reali per un determinato audio.

  • Oltre alle lettere standard, puoi utilizzare i numeri da 0 a 9.
  • Non utilizzare simboli come "@", "#", "$", ".". Usa parole come "at", "hash", "Dollaro", "punto".
  • Utilizza il simbolo "%" ma solo se preceduto da un numero; in caso contrario, utilizza la parola "percentuale".
  • Utilizza "\$" solo quando seguito da un numero, ad esempio "Il latte è \$3,99".

  • Utilizza le parole per i numeri minori di 10.

    • Ad esempio, "Ho quattro gatti e 12 cappelli".
  • Usa i numeri per le misure, le valute e i grandi fattori, come milioni, miliardi o trilioni. Ad esempio, "7,5 milioni" invece di "sette e mezzo milione".

  • Non usare abbreviazioni nei seguenti casi:

    Cosa fare Cosa non fare
    Guerrieri contro Lakers Warriors - Lakers
    Vivo al 123 di Main Street Vivo al 123 di Main St

Misurazione dell'accuratezza della voce

Di seguito sono riportati i passaggi per iniziare a determinare la precisione dell'audio utilizzando l'audio:

Raccogli file audio di test

Raccogli un campione rappresentativo di file audio per misurarne la qualità. Questo campione deve essere casuale e il più vicino possibile all'ambiente di destinazione. Ad esempio, se vuoi trascrivere le conversazioni di un call center per garantire il controllo della qualità, devi selezionare casualmente alcune chiamate effettive registrate sulla stessa apparecchiatura da cui proviene l'audio di produzione. Se l'audio viene registrato sul microfono del cellulare o del computer e non rappresenta il tuo caso d'uso, non utilizzare l'audio registrato.

Registra almeno 30 minuti di audio per ottenere una metrica di accuratezza statisticamente significativa. Ti consigliamo di utilizzare da 30 minuti a 3 ore di audio. In questo lab, l'audio ti viene fornito.

Ricevere trascrizioni di dati empirici reali

Ottieni trascrizioni accurate dell'audio. Solitamente ciò prevede una trascrizione a passaggio singolo o in doppio passaggio da parte di persone fisiche dell'audio di destinazione. Il tuo obiettivo è avere una trascrizione precisa al 100% per misurare i risultati automatici.

È importante che le trascrizioni dei dati empirici reali corrispondano il più fedelmente possibile alle convenzioni di trascrizione del sistema ASR di destinazione. Ad esempio, assicurati che punteggiatura, numeri e lettere maiuscole siano coerenti.

Ottieni una trascrizione automatica e risolvi gli eventuali problemi del testo che noti.

Ottieni la trascrizione automatica

Invia l'audio all'API Speech-to-Text di Google e ricevi la trascrizione delle tue ipotesi utilizzando l'UI di Speech-to-Text.

Accoppia i dati empirici reali all'audio

Nello strumento UI, fai clic su "Allega dati empirici reali" per associare un determinato file audio ai dati empirici reali forniti. Dopo aver completato l'allegato, puoi visualizzare la metrica WER e la visualizzazione di tutte le differenze.