Sprachgenauigkeit messen und verbessern

Überblick

Die automatische Spracherkennung (ASR), auch als maschinelle Transkription oder Speech-to-Text (STT) bezeichnet, verwendet maschinelles Lernen, um Audiodaten mit Sprache in Text umzuwandeln. ASR bietet zahlreiche Anwendungen, z. B. Untertitel, virtuelle Assistenten, interaktive Sprachdialogsysteme („Interactive Voice Responses“, IVRs) und Diktate. ML-Systeme sind jedoch oft zu 100% genau und ASR ist keine Ausnahme. Wenn Sie bei kritischen Systemen auf ASR zurückgreifen möchten, ist es sehr wichtig, die Genauigkeit oder die Gesamtqualität zu messen, damit Sie verstehen, wie das System in Ihrem umfassenderen System funktioniert, in das es integriert ist.

Sobald Sie die Genauigkeit gemessen haben, können Sie die Systeme optimieren, um eine noch bessere Genauigkeit für Ihre spezifische Situation zu liefern. In der Cloud Speech-to-Text API von Google kann die Genauigkeitsoptimierung durch Auswahl des am besten geeigneten Erkennungsmodells und mithilfe der Speech Adaptation API erfolgen. Wir bieten eine Vielzahl von Modellen an, die auf verschiedene Anwendungsfälle zugeschnitten sind, wie z. B. lange Audiodateien, medizinische Gespräche oder Telefongespräche.

Sprachgenauigkeit definieren

Die Sprachgenauigkeit kann auf verschiedene Arten gemessen werden. Möglicherweise ist es je nach Ihren Anforderungen sinnvoll, mehrere Messwerte zu verwenden. Die branchenübliche Standardmethode für den Vergleich ist jedoch die Wortfehlerrate Word Error Rate (WER), oft als WER abgekürzt. Die WER misst den Prozentsatz der falschen Worttranskriptionen im gesamten Satz. Eine niedrigere WER bedeutet, dass das System genauer ist.

Möglicherweise wird auch der Begriff Ground Truth angezeigt, der im Zusammenhang mit der ASR-Genauigkeit verwendet wird. Ground Truth ist die exakte Transkription, die in der Regel von Menschen bereitgestellt wird und die Sie zum Vergleichen und Messen der Genauigkeit verwenden.

Wortfehlerrate (WER)

WER ist eine Kombination aus drei Arten von Transkriptionsfehlern, die auftreten können:

  • Einfügungsfehler („Insertion Error“, I): Wörter im Hypothesentranskript, die im Ground Truth nicht vorhanden sind.
  • Ersetzungsfehler („Substitution Errors“, S): Wörter, die sowohl in der Hypothese als auch in der Ground-Truth vorhanden sind, aber nicht korrekt transkribiert sind.
  • Löschfehler („Deletion Errors“, D): Wörter, die in der Hypothese fehlen, aber in der Ground-Truth vorhanden sind.

\[WER = {S + R + Q \over N}\]

Um den WER zu ermitteln, addieren Sie die Gesamtzahl der Fehler, geteilt durch die Gesamtzahl der Wörter (N) im Ground-Truth-Transkript. In Situationen mit sehr niedriger Genauigkeit kann die WER mehr als 100% betragen, z. B. wenn eine große Menge an neuem Text eingefügt wird. Hinweis: Das Ersetzen ist im Wesentlichen das Löschen und das Einfügen. Einige Substitutionen sind weniger wichtig als andere. Es kann beispielsweise einen Unterschied bei der Ersetzung eines einzelnen Buchstabens anstelle eines Wortes geben.

Bezug von WER zu einem Konfidenzwert

Der WER-Messwert ist unabhängig von einem Konfidenzwert und sie korrelieren normalerweise nicht miteinander. Der Konfidenzwert basiert auf der Wahrscheinlichkeit, während der WER darauf basiert, ob das Wort korrekt identifiziert wird. Wenn das Wort nicht korrekt erkannt wird, bedeutet dies, dass selbst kleine grammatikalische Fehler eine hohe WER verursachen können. Ein korrekt erkanntes Wort führt zu einer niedrigen WER, was wiederum zu einer geringen Wahrscheinlichkeit führen kann, was die Konfidenz gering werden lässt, wenn das Wort nicht sehr häufig vorkommt oder das Audio sehr verrauscht ist.

Ebenso kann ein Wort, das häufig verwendet wird, mit hoher Wahrscheinlichkeit von der ASR richtig transkribiert werden, was den Konfidenzwert entsprechend erhöht. Wenn beispielsweise ein Unterschied zwischen „I“ und „eye“ erkannt wird, kann eine hohe Konfidenz auftreten, da „I“ ein gängigeres Wort ist, aber der WER-Messwert wird dadurch gesenkt.

Zusammenfassend lässt sich sagen, dass die Messwerte für Konfidenz und WER unabhängig voneinander sind und nicht miteinander korreliert werden sollten.

Normalisierung

Bei der Berechnung des WER-Messwerts wird die maschinelle Transkription mit einer von Menschen bereitgestellten Ground-Truth-Transkription verglichen. Der Text aus beiden Transkriptionen wird normalisiert, bevor der Vergleich abgeschlossen wird. Die Satzzeichen werden entfernt und die Großschreibung wird ignoriert, wenn die Maschinentranskription mit der von Menschen bereitgestellten Ground Truth-Transkription verglichen wird.

Ground Truth-Konventionen

Beachten Sie, dass es kein einheitliches von Menschen erstelltes Transkriptionsformat für ein bestimmtes Audio gibt. Dabei müssen viele Aspekte berücksichtigt werden. Audiodaten können zum Beispiel andere nicht-sprachliche Vokalaussprachen enthalten, wie „huh“, „yep“, „ähm“. Einige Cloud STT-Modelle wie „medical_conversations“ verwenden diese Vokalaussprachen, andere dagegen nicht. Daher ist es wichtig, dass die Ground-Truth-Konventionen den Konventionen des auszuwertenden Modells entsprechen. Die folgenden allgemeinen Richtlinien werden verwendet, um eine Ground-Truth-Texttranskription für eine bestimmte Audiodatei vorzubereiten.

  • Zusätzlich zu den Standardbuchstaben können Sie die Ziffern 0–9 verwenden.
  • Verwenden Sie keine Symbole wie „@“, „#“, „$“, „.“. Verwenden Sie Wörter wie „at“, „hash“, „Dollar“, „Punkt“.
  • Verwenden Sie „%“ nur, wenn dem Zeichen eine Zahl vorangestellt ist. Verwenden Sie andernfalls das Wort „Prozent“.
  • Verwenden Sie „\$“ nur, wenn eine Zahl folgt, z. B. „Milch kostet $ \3,99“.

  • Verwenden Sie Wörter für Zahlen unter 10.

    • Beispiel: „Ich habe vier Katzen und 12 Hüte.“
  • Verwenden Sie Zahlen für Messwerte, Währungen und große Faktoren wie Millionen, Milliarden oder Billionen. Beispiel: „7,5 Millionen“ statt „siebeneinhalb Millionen“.

  • Verwenden Sie in den folgenden Fällen keine Abkürzungen:

    Do's Don'ts
    Warriors versus Lakers Warriors vs Lakers
    Ich wohne in der Hauptstraße 123 Ich wohne in der Hauptstr. 123

Sprachgenauigkeit messen

So ermitteln Sie die Genauigkeit mithilfe von Audiodateien:

Test-Audiodateien erfassen

Erfassen Sie ein repräsentatives Beispiel für Audiodateien, um ihre Qualität zu messen. Dieses Beispiel sollte zufällig sein und der Zielumgebung so nahe wie möglich kommen. Wenn Sie beispielsweise Gespräche aus einem Call Center zur Qualitätssicherung transkribieren möchten, sollten Sie nach dem Zufallsprinzip einige tatsächliche Anrufe auswählen, die mit denselben Geräten aufgezeichnet wurden, über die auch Ihr Produktionston läuft. Wenn die Audiodaten mit dem Mikrofon Ihres Mobiltelefons oder Computers aufgenommen wurden und nicht repräsentativ für Ihren Anwendungsfall sind, sollten Sie die Aufnahmen nicht verwenden.

Nehmen Sie mindestens 30 Minuten Audiodaten auf, um einen statistisch signifikanten Messwert zu erhalten. Wir empfehlen einen Audiostream zwischen 30 Minuten und 3 Stunden. In diesem Lab wird das Audio für Sie bereitgestellt.

Ground-Truth-Transkriptionen erhalten

Genaue Transkriptionen der Audiodateien erstellen Dies umfasst in der Regel eine einzelne oder doppelte menschliche Transkription des Zielaudios. Ihr Ziel ist eine 100% genaue Transkription, mit der die automatisierten Ergebnisse gemessen werden können.

Es ist wichtig, dass Ground-Truth-Transkriptionen möglichst genau den Transkriptionskonventionen Ihres ASR-Systems entsprechen. Achten Sie beispielsweise auf konsistente Satzzeichen, Zahlen und Großschreibung.

Sie erhalten eine Maschinentranskription und beheben alle Probleme im erkannten Text.

Maschinentranskription erstellen

Senden Sie die Audiodaten an die Google Speech-to-Text API und erhalten Sie Ihre Hypothesentranskription unter Verwendung der Speech-to-Text UI.

Ground Truth mit dem Audio verbinden

Klicken Sie im UI-Tool auf „Ground Truth anhängen“, um eine bestimmte Audiodatei mit der bereitgestellten Ground-Truth zu verknüpfen. Nachdem Sie den Anhang fertiggestellt haben, sehen Sie Ihren WER-Messwert und eine Darstellung aller Unterschiede.