Panoramica
Il riconoscimento vocale automatico (ASR), noto anche come trascrizione automatica o Speech-to-Text (STT), utilizza il machine learning per trasformare l'audio contenente il parlato in testo. ASR ha molte applicazioni, dalla sottotitolazione agli assistenti virtuali, alle risposte vocali interattive (IVR), alla dettatura e altro ancora. Tuttavia, i sistemi di machine learning raramente sono accurati al 100% e ASR non fa eccezione. Se prevedi di fare affidamento su ASR per sistemi critici, è molto importante misurarne la precisione o la qualità complessiva per comprendere le prestazioni del tuo sistema più ampio che lo integra.
Una volta misurata la precisione, è possibile perfezionare i sistemi per fornire una precisione ancora maggiore per la tua situazione specifica. Nell'API Cloud Speech-to-Text di Google, la precisione può essere effettuata scegliendo il modello di riconoscimento più appropriato e utilizzando la nostra API SpeechAdattation. Offriamo un'ampia gamma di modelli adattati a diversi casi d'uso, come audio di lunga durata, medici o conversazioni telefoniche.
Definizione della precisione del parlato
La precisione del parlato può essere misurata in vari modi. Potrebbe esserti utile utilizzare più metriche, a seconda delle tue esigenze. Tuttavia, il metodo standard di settore per il confronto è Word Error Rate (WER), spesso abbreviato come WER. WER misura la percentuale di trascrizioni delle parole errate nell'intero set. Un WER inferiore indica che il sistema è più preciso.
Potresti inoltre visualizzare il termine dati empirici reali nel contesto dell'accuratezza ASR. La verità di base è la trascrizione accurata al 100%, generalmente fornita da persone fisiche, che utilizzate per confrontare e misurare l'accuratezza.
Percentuale di errori delle parole (WER)
WER è la combinazione di tre tipi di errori di trascrizione, che possono verificarsi:
- Errore di inserimento (I): parole presenti nella trascrizione dell'ipotesi che non sono presenti nella verità di base.
- Errori di sostituzione (S): parole che sono presenti sia nell'ipotesi sia nella verità di base, ma non vengono trascritte correttamente.
- Errori di eliminazione (D): parole mancanti dall'ipotesi ma presenti nella verità di base.
\[WER = {S+R+Q \over N}\]
Per trovare il WER, aggiungi il numero totale di ognuno di questi errori e dividi per il numero totale di parole (N) nella trascrizione dei dati empirici reali. Il WER può essere superiore al 100% in situazioni con accuratezza molto bassa, ad esempio quando viene inserita una grande quantità di nuovo testo. Nota: la sostituzione è essenzialmente l'eliminazione seguita dall'inserimento e alcune sostituzioni sono meno gravi di altre. Ad esempio, potrebbe esserci una differenza se si sostituisce una sola lettera con una parola.
Relazione tra WER e punteggio di confidenza
La metrica WER è indipendente da un punteggio di affidabilità e di solito non sono correlate tra loro. Un punteggio di affidabilità si basa sulla probabilità, mentre il WER si basa sul fatto che la parola è identificata correttamente o meno. Se la parola non viene identificata correttamente, significa che anche errori grammaticali minori possono causare un WER elevato. Una parola identificata correttamente porta a un WER basso, che può comunque portare a una bassa probabilità, il che riduce la fiducia se la parola non è così frequente o l'audio è molto rumoroso.
Analogamente, una parola usata spesso può avere un'alta probabilità di essere trascritta correttamente dall'ASR, il che aumenta il punteggio di affidabilità. Ad esempio, quando viene identificata una differenza tra "I" e "occhio", potrebbe verificarsi un livello di confidenza elevato, perché "I" è una parola più popolare, ma la metrica WER viene ridotta.
Per riassumere, le metriche di confidenza e WER sono indipendenti e non dovrebbero essere correlate.
Normalizzazione
Per il calcolo della metrica WER, la trascrizione automatica viene confrontata con una trascrizione basata su dati empirici reali. Il testo di entrambe le trascrizioni viene normalizzato prima del confronto. La punteggiatura viene rimossa e le lettere maiuscole vengono ignorate quando si confronta la trascrizione del computer con la trascrizione dei dati empirici reali fornita.
Convenzioni basate su dati empirici reali
È importante riconoscere che non esiste un unico formato di trascrizione concordato tra le persone per un dato audio. Ci sono molti aspetti da considerare. Ad esempio, l'audio potrebbe avere altre vocalizzazioni non vocali, come "huh", "sì", "umm". Alcuni modelli Cloud STT, come "medical_conversational", includono queste vocalizzazioni, mentre altre no. Pertanto, è importante che le convenzioni basate su dati empirici reali corrispondano a quelle del modello che viene valutato. Le seguenti linee guida di alto livello servono a preparare una trascrizione del testo vera e propria per un determinato audio.
- Oltre alle lettere standard, puoi utilizzare i numeri da 0 a 9.
- Non utilizzare simboli come "@", "#", "$", ".". Utilizza parole come "at", "hash", "dollaro", "punto".
- Utilizza "%" ma solo se preceduto da un numero; altrimenti usa la parola "percent".
Utilizza "\$" solo se seguito da un numero, ad esempio "Latte è \$3,99".
Utilizza parole per numeri inferiori a 10.
- Ad esempio, "Ho quattro gatti e 12 cappelli".
Utilizza i numeri per misurazioni, valute e fattori di grandi dimensioni come milioni, miliardi o miliardi. Ad esempio, "7,5 mln" invece di "sette e mezzo".
Non usare le abbreviazioni nei seguenti casi:
Da fare Cosa non fare Confronto tra Warriors e Lakers Warriors - Lakers Vivo all'indirizzo 123 Main Street Vivo all'indirizzo 123 Main St
Misurazione della precisione del parlato
Per determinare l'accuratezza dell'audio:
Raccogli i file audio di test
Raccogli un campione rappresentativo di file audio per misurarne la qualità. Questo campione deve essere casuale e il più vicino possibile all'ambiente di destinazione. Ad esempio, se vuoi trascrivere conversazioni da un call center per migliorare la qualità, seleziona in modo casuale alcune chiamate effettive registrate sulla stessa apparecchiatura che utilizza l'audio di produzione. Se l'audio viene registrato sul telefono cellulare o sul microfono del computer e non è rappresentativo del tuo caso d'uso, non utilizzare l'audio registrato.
Registra almeno 30 minuti di audio per ottenere una metrica di accuratezza statisticamente significativa. Ti consigliamo di utilizzare da 30 minuti a 3 ore di audio. In questo lab, l'audio viene fornito per te.
Ottieni trascrizioni di dati empirici reali
Ottieni trascrizioni accurate dell'audio. In genere, si tratta di una trascrizione umana o a due passaggi dell'audio di destinazione. Il tuo obiettivo è avere una trascrizione accurata al 100% rispetto alla quale misurare i risultati automatici.
È importante ottenere trascrizioni dei dati empirici reali che corrispondano il più possibile alle convenzioni di trascrizione del sistema ASR di destinazione. Ad esempio, verifica che la punteggiatura, i numeri e le lettere maiuscole siano coerenti.
Ottieni una trascrizione automatica e risolvi eventuali problemi di testo.
Scarica la trascrizione del computer
Invia l'audio all'API Google Speech-to-Text e ottieni la trascrizione delle ipotesi utilizzando la UI di Speech-to-Text.
Accoppia i dati empirici reali all'audio
Nello strumento di interfaccia utente, fai clic su "Allega i dati empirici reali" per associare un determinato file audio ai dati empirici reali forniti. Una volta completato l'allegato, puoi vedere la metrica WER e la visualizzazione di tutte le differenze.