Genauigkeit messen und verbessern

In dieser Kurzanleitung erfahren Sie, wie Sie die Genauigkeit von Google Cloud Speech-to-Text für Ihre Audiodaten messen und verbessern. Außerdem können Sie die verschiedenen Modelle und Optionen der API ausprobieren, um die Genauigkeit der Transkription zu verbessern. Hier erfahren Sie, wie Sie die Speech-to-Text-Benutzeroberfläche in der Google Cloud Console und eine Referenzdatei verwenden, um die Genauigkeit zu messen und Einblicke in das Speech-to-Text-System zu gewinnen.

Systeme für maschinelles Lernen (ML) sind von Natur aus anfällig für Ungenauigkeiten. Systeme für die automatische Spracherkennung (ASR), auch als Speech-to-Text-Systeme bezeichnet, sind keine Ausnahme. Die genaue Messung der Genauigkeit hängt stark von den jeweiligen Anwendungsfällen und den zu bewertenden Systemen ab, da sich Unterschiede in der Qualität der Audioaufnahme und den akustischen Bedingungen erheblich auf die Genauigkeit auswirken können. Daher ist ein einzelner Genauigkeitswert für alle Kunden und Anwendungsfälle nicht praktikabel. Um die zuverlässige Leistung von ASR-Systemen in kritischen produktionsorientierten Systemen sicherzustellen. Außerdem ist es wichtig zu verstehen, wie die Funktion Speech-to-Text“ im weiteren Kontext Ihres Systems abschneidet.

In dieser Kurzanleitung verwenden wir die branchenübliche Standardmethode für den Vergleich,die Wortfehlerrate (Word Error Rate, WER), oft als WER abgekürzt. Weitere Informationen zur Berechnung und Interpretation des WER finden Sie unter Sprachgenauigkeit messen und verbessern. Los gehts!

Erste Schritte mit der Speech‑to‑Text Console

Achten Sie darauf, dass Sie sich für ein Google Cloud-Konto registriert und ein Projekt erstellt haben. 1. Rufen Sie in der Google Cloud Console „Sprache“ auf und verwenden Sie die Speech-to-Text-UI. 2. Verwenden Sie eine Audiodatei, die akustisch für Ihren Anwendungsfall und die geplante Verwendung des ASR-Systems repräsentativ ist, und folgen Sie der Kurzanleitung, um Ihre erste Transkription mit Speech-to-Text zu erstellen.

Transkriptionsgenauigkeit berechnen

  1. Nachdem Sie Ihre Audiodatei erfolgreich transkribiert haben, verwenden Sie den Bereich Transcription Accuracy. Dieser Abschnitt bleibt leer, bis die Genauigkeit für Ihre Transkription berechnet wurde.
  2. Mit der Schaltfläche Ground Truth hochladen oben im Bereich können Sie mit der Berechnung der Genauigkeit beginnen.
    Screenshot der Seite „Speech-to-Text-Transkriptionsdetails“ mit dem Bereich „Transkriptionsgenauigkeit“ und der Schaltfläche „Ground Truth hochladen“

Ground Truth angeben

  1. Geben Sie eine Ground-Truth-Datei an, um die Genauigkeit der Transkription zu berechnen. Dies ist eine .txt- oder .csv-Datei, in der sich normalerweise eine von Menschen erstellte Transkriptdatei mit den korrekten oder erwarteten Transkripten zum Vergleich befindet.
  2. Hier ein Beispiel für gs://cloud-samples-data/speech/brooklyn_bridge.wav: Die Ground-Truth-Datei enthält: How old is the Brooklyn Bridge. Wenn Sie keine Ground-Truth-Datei haben, sollten Sie die Transkription im Textformat herunterladen. Bearbeiten Sie die Transkriptdatei nach Bedarf. Laden Sie die Transkriptdatei als Ground-Truth-Datei hoch.
  3. Geben Sie über Hochladen oder eine vorhandene Cloud Storage-Datei die Ground-Truth-Datei an und klicken Sie auf Speichern.
    Screenshot der Seite zum Erstellen von Speech-to-Text-Transkriptionen, auf der die Auswahl oder der Upload einer Ground-Truth-Datei angezeigt werden.

Ground Truth bestätigen

  1. Nachdem Sie auf Speichern geklickt haben, werden Sie aufgefordert, die angegebene Ground-Truth-Datei zu bestätigen. Prüfen Sie, ob die Ground-Truth-Datei die richtigen Transkripte enthält, da sich dies direkt auf die Genauigkeitsmesswerte auswirkt.
  2. Klicken Sie auf Bestätigen, um fortzufahren.
    Screenshot der Speech-to-Text-Transkriptionsseite mit dem Inhalt der hochgeladenen Ground-Truth-Datei

Bewertungsergebnisse prüfen

  1. Je nach Größe der Eingabedaten kann die Auswertung einige Zeit in Anspruch nehmen. Die Ergebnisse werden nach Abschluss angezeigt.
  2. Nach Abschluss der Bewertung werden die folgenden Abschnitte angezeigt:
    • Die Tabelle Genauigkeit der Transkription, die Genauigkeitsmesswerte und ein Link zur Ground-Truth-Datei, die im Prozess verwendet wurden.
    • Das Symbol Transcription mit einer Ein/Aus-Schaltfläche zum Vergleichen mit der Ground-Truth-Datei sowie eine Aufschlüsselung der Genauigkeitsmesswerte und Highlights.
  3. Prüfen und interpretieren Sie die Ergebnisse zur Genauigkeit, um die Leistung des Speech-to-Text-Erkennungstools zu verstehen und Verbesserungsmöglichkeiten zu identifizieren. Die Ergebnisse variieren je nach Eingaben und verwendeter Transkription. In den folgenden Beispielen sehen Sie beispielhafte Ergebnisse für die Genauigkeit, die wertvolle Informationen zur Optimierung des Google Cloud Speech-to-Text-Systems liefern.
    • Beispiel für 0 % WER:
      Screenshot der Transkriptionsseite für die Speech-to-Text-Transkription mit berechneten Bewertungsergebnissen für das angegebene Transkript mit einer Fehlerrate von 0 %
    • Beispiel für einen WER von 40 %:
      Screenshot der Seite "Transkriptionsgenauigkeit" von Speech-to-Text mit berechneten Bewertungsergebnissen für das angegebene Transkript mit einer Fehlerrate von 40 %

Optional: Ground-Truth-Datei aktualisieren

Sie können eine andere Ground-Truth-Datei für die vorhandene Transkription testen, indem Sie eine andere Datei wieder anhängen und dann die Schritte 3 und 4 mit einer aktualisierten Ground-Truth-Datei wiederholen.

Überzeugen Sie sich selbst

Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie einfach ein Konto, um die Leistungsfähigkeit von Speech-to-Text in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

Speech-to-Text kostenlos testen