Übersicht
Die automatische Spracherkennung (ASR), auch als maschinelle Transkription oder Speech-to-Text (STT) bezeichnet, verwendet maschinelles Lernen, um Audiodaten mit Sprache in Text umzuwandeln. ASR bietet zahlreiche Anwendungen, z. B. Untertitel, virtuelle Assistenten, interaktive Sprachdialogsysteme („Interactive Voice Responses“, IVRs) und Diktate. Systeme für maschinelles Lernen sind jedoch selten zu 100% genau und ASR ist keine Ausnahme. Wenn Sie bei kritischen Systemen auf ASR zurückgreifen möchten, ist es sehr wichtig, die Genauigkeit oder die Gesamtqualität zu messen, damit Sie verstehen, wie das System in Ihrem umfassenderen System funktioniert, in das es integriert ist.
Sobald Sie die Genauigkeit gemessen haben, können Sie die Systeme optimieren, um eine noch bessere Genauigkeit für Ihre spezifische Situation zu liefern. In der Cloud Speech-to-Text API von Google können Sie die Genauigkeit durch Auswahl des am besten geeigneten Erkennungsmodells und mithilfe der Speech Adaptation API optimieren. Wir bieten eine Vielzahl von Modellen an, die auf verschiedene Anwendungsfälle zugeschnitten sind, wie z. B. lange Audiodateien, medizinische Gespräche oder Telefongespräche.
Sprachgenauigkeit definieren
Die Sprachgenauigkeit kann auf verschiedene Arten gemessen werden. Je nach Bedarf kann es sinnvoll sein, mehrere Messwerte zu verwenden. Die branchenübliche Standardmethode für den Vergleich ist jedoch die Wortfehlerrate Word Error Rate (WER), oft als WER abgekürzt. Die WER misst den Prozentsatz der falschen Worttranskriptionen im gesamten Satz. Eine niedrigere WER bedeutet, dass das System genauer ist.
Im Zusammenhang mit der ASR-Genauigkeit wird auch der Begriff Ground Truth verwendet. Die Ground-Truth-Datei ist die 100% korrekte Transkription, die in der Regel von Menschen erstellt wird und mit der Sie die Genauigkeit vergleichen und messen.
Wortfehlerrate (Word Error Rate, WER)
Der Wert für die Worterkennungsgenauigkeit ist die Kombination aus drei Arten von Transkriptionsfehlern, die auftreten können:
- Einfügungsfehler („Insertion Error“, I): Wörter im Hypothesentranskript, die im Ground Truth nicht vorhanden sind.
- Ersetzungsfehler („Substitution Errors“, S): Wörter, die sowohl in der Hypothese als auch in der Ground-Truth vorhanden sind, aber nicht korrekt transkribiert sind.
- Löschfehler („Deletion Errors“, D): Wörter, die in der Hypothese fehlen, aber in der Ground-Truth vorhanden sind.
\[WER = {S+R+Q \over N}\]
Um den WER zu ermitteln, addieren Sie die Gesamtzahl dieser Fehler und teilen Sie sie durch die Gesamtzahl der Wörter (N) im Ground-Truth-Transkript. In Situationen mit sehr niedriger Genauigkeit kann die WER mehr als 100% betragen, z. B. wenn eine große Menge an neuem Text eingefügt wird. Hinweis: Das Ersetzen ist im Wesentlichen das Löschen und das Einfügen. Einige Substitutionen sind weniger wichtig als andere. So kann es beispielsweise einen Unterschied machen, ob ein einzelner Buchstabe oder ein Wort ersetzt wird.
Zusammenhang zwischen WER und Konfidenzwert
Der WER-Messwert ist unabhängig von einem Konfidenzwert und sie korrelieren normalerweise nicht miteinander. Ein Konfidenzwert basiert auf der Wahrscheinlichkeit, während der WER darauf basiert, ob das Wort richtig erkannt wurde oder nicht. Wenn das Wort nicht korrekt erkannt wird, bedeutet dies, dass selbst kleine grammatikalische Fehler eine hohe WER verursachen können. Ein korrekt erkanntes Wort führt zu einer niedrigen WER, was wiederum zu einer geringen Wahrscheinlichkeit führen kann, was die Konfidenz gering werden lässt, wenn das Wort nicht sehr häufig vorkommt oder das Audio sehr verrauscht ist.
Ebenso kann ein Wort, das häufig verwendet wird, mit hoher Wahrscheinlichkeit von der ASR richtig transkribiert werden, was den Konfidenzwert entsprechend erhöht. Wenn beispielsweise ein Unterschied zwischen „I“ und „eye“ erkannt wird, kann eine hohe Konfidenz auftreten, da „I“ ein gängigeres Wort ist, aber der WER-Messwert wird dadurch gesenkt.
Zusammenfassend lässt sich sagen, dass die Messwerte für Konfidenz und WER unabhängig voneinander sind und nicht miteinander korreliert werden sollten.
Normalisierung
Bei der Berechnung des WER-Messwerts wird die maschinelle Transkription mit einer von Menschen erstellten Ground-Truth-Transkription verglichen. Der Text aus beiden Transkripten wird vor dem Vergleich normalisiert. Satzzeichen werden entfernt und die Großschreibung ignoriert, wenn die maschinelle Transkription mit der von Menschen bereitgestellten Ground-Truth-Transkription verglichen wird.
Konventionen für Ground Truth
Beachten Sie, dass es kein einheitliches von Menschen erstelltes Transkriptionsformat für ein bestimmtes Audio gibt. Es gibt viele Aspekte zu berücksichtigen. Audiodaten können zum Beispiel andere nicht-sprachliche Vokalaussprachen enthalten, wie „huh“, „yep“, „ähm“. Einige Cloud STT-Modelle wie „medical_conversations“ verwenden diese Vokalaussprachen, andere dagegen nicht. Daher ist es wichtig, dass die Konventionen für Ground Truth mit den Konventionen des zu bewertenden Modells übereinstimmen. Die folgenden allgemeinen Richtlinien werden verwendet, um eine Ground-Truth-Texttranskription für eine bestimmte Audiodatei zu erstellen.
- Neben den normalen Buchstaben können Sie die Ziffern 0–9 verwenden.
- Verwenden Sie keine Symbole wie „@“, „#“, „$“, „.“. Verwenden Sie Wörter wie „at“, „hash“, „Dollar“, „Punkt“.
- Verwenden Sie „%“ nur, wenn dem Zeichen eine Zahl vorangestellt ist. Verwenden Sie andernfalls das Wort „Prozent“.
Verwenden Sie „\$“ nur, wenn eine Zahl folgt, z. B. „Milch kostet $ \3,99“.
Verwenden Sie Wörter für Zahlen unter 10.
- Beispiel: „Ich habe vier Katzen und 12 Hüte.“
Verwenden Sie Zahlen für Maße, Währungen und große Faktoren wie Millionen, Milliarden oder Billionen. Beispiel: „7,5 Millionen“ statt „siebeneinhalb Millionen“.
Verwenden Sie in folgenden Fällen keine Abkürzungen:
Do's Don'ts Warriors versus Lakers Warriors vs Lakers Ich wohne in der Hauptstraße 123. Ich wohne in der Hauptstr. 123
Sprachgenauigkeit messen
So ermitteln Sie die Genauigkeit mithilfe von Audiodateien:
Testaudiodateien erfassen
Erstellen Sie eine repräsentative Stichprobe von Audiodateien, um deren Qualität zu messen. Dieses Beispiel sollte zufällig sein und der Zielumgebung so nahe wie möglich kommen. Wenn Sie beispielsweise Gespräche aus einem Call Center zur Qualitätssicherung transkribieren möchten, sollten Sie nach dem Zufallsprinzip einige tatsächliche Anrufe auswählen, die mit denselben Geräten aufgezeichnet wurden, über die auch Ihr Produktionston läuft. Wenn die Audiodaten mit dem Mikrofon Ihres Mobiltelefons oder Computers aufgenommen wurden und nicht repräsentativ für Ihren Anwendungsfall sind, sollten Sie die Aufnahmen nicht verwenden.
Nehmen Sie mindestens 30 Minuten Audiodaten auf, um einen statistisch signifikanten Messwert zu erhalten. Wir empfehlen, zwischen 30 Minuten und 3 Stunden Audiomaterial zu verwenden. In diesem Lab wird das Audiomaterial für Sie bereitgestellt.
Ground-Truth-Transkriptionen abrufen
Genaue Transkriptionen der Audiodateien erstellen Dazu wird in der Regel eine manuelle Transkription des Zielaudios mit einer oder zwei Durchläufen durchgeführt. Ziel ist es, eine 100% korrekte Transkription zu erhalten, anhand derer die automatischen Ergebnisse gemessen werden können.
Bei der Erstellung von Ground-Truth-Transkriptionen ist es wichtig, dass sie den Transkriptionskonventionen Ihres Ziel-ASR-Systems so genau wie möglich entsprechen. Achten Sie beispielsweise darauf, dass Satzzeichen, Zahlen und Großschreibung einheitlich sind.
Erstelle eine Maschinentranskription und behebe alle Probleme im Text.
Maschinentranskription erstellen
Senden Sie die Audiodaten an die Google Speech-to-Text API und erhalten Sie Ihre Hypothesentranskription unter Verwendung der Speech-to-Text UI.
Ground Truth mit dem Audiomaterial verknüpfen
Klicken Sie im UI-Tool auf „Ground Truth anhängen“, um eine bestimmte Audiodatei mit der bereitgestellten Ground-Truth zu verknüpfen. Nachdem Sie den Anhang fertiggestellt haben, sehen Sie Ihren WER-Messwert und eine Darstellung aller Unterschiede.