Genauigkeit messen und verbessern

In dieser Kurzanleitung erfahren Sie, wie Sie die Genauigkeit von Google Cloud Speech-to-Text für Ihre Audiodaten messen und verbessern. Sehen Sie sich auch die verschiedenen Modelle und Optionen an, die über die API verfügbar sind, um die Transkriptionsgenauigkeit zu verbessern. Hier erfahren Sie, wie Sie die Speech-to-Text-UI in der Google Cloud Console und eine Ground Truth-Datei verwenden, um die Genauigkeit zu messen und Einblicke in das Speech-to-Text-System zu erhalten.

ML-Systeme sind inhärent Ungenauigkeiten und automatische Spracherkennungssysteme (Automated Speech Recognition, ASR) werden auch als Speech-to-Text-Systeme bezeichnet. Die genaue Genauigkeit wird eng mit bestimmten Anwendungsfällen und Systemen verknüpft, da die Unterschiede bei der Qualität der Audioaufnahme und bei der akustischen Bedingung die Genauigkeit erheblich beeinträchtigen können. Daher ist eine einzelne Genauigkeitspunktzahl für alle Kunden und Anwendungsfälle unpraktisch. Um eine zuverlässige Leistung der ASR-Systeme in einer kritischen produktionsorientierten Systemleistung zu gewährleisten Außerdem ist es wichtig, die Leistung von Speech-to-Text im breiteren Kontext Ihres Systems zu verstehen.

Für die Zwecke dieser Kurzanleitung verwenden Sie die Industriestandardmethode zum Vergleich: Word Error Rate (WER), oft als WER abgekürzt. Weitere Informationen zur Berechnung und Interpretation des WER finden Sie unter Sprachgenauigkeit messen und verbessern. Los gehts!

Erste Schritte mit der Speech‑to‑Text Console

Achten Sie darauf, dass Sie sich für ein Google Cloud-Konto registriert und ein Projekt erstellt haben. 1. Rufen Sie in der Google Cloud Console Speech auf und verwenden Sie die Speech-to-Text-UI. 2. Folgen Sie der Kurzanleitung für eine erste Transkription mithilfe von Speech-to-Text und verwenden Sie eine Audiodatei, die für Ihren Anwendungsfall repräsentativ ist.

Berechnung der Transkriptionsgenauigkeit

  1. Nachdem Sie Ihre Audiodatei transkribiert haben, verwenden Sie den Abschnitt Transcription Accuracy. Dieser Abschnitt bleibt leer, bis die Genauigkeit für die Transkription berechnet wird.
  2. Über die Schaltfläche Ground Truth oben im Abschnitt können Sie die Genauigkeit berechnen.
    Screenshot der Detailseite der Speech-to-Text-Transkription mit dem Abschnitt zur Transkriptionsgenauigkeit und der Schaltfläche "Ground Truth hochladen"

Ground Truth festlegen

  1. Stellen Sie eine Ground-Truth-Datei bereit, um die Genauigkeit der Transkription zu berechnen. Dies ist eine .txt- oder .csv-Datei, die normalerweise eine von Menschen generierte Transkriptionsdatei ist, die die richtigen oder erwarteten Transkriptionen für den Vergleich enthält.
  2. Verwenden Sie gs://cloud-samples-data/speech/brooklyn_bridge.wav als Beispiel. Die Ground-Truth-Datei enthält How old is the Brooklyn Bridge. Wenn Sie keine Ground-Truth-Datei haben, empfiehlt es sich, die Transkription in einem Textformat herunterzuladen. Bearbeiten Sie die Transkriptionsdatei nach Bedarf. Laden Sie die Transkriptionsdatei als Ground-Truth-Datei hoch.
  3. Geben Sie über Upload oder eine vorhandene Cloud Storage-Datei die Ground-Truth-Datei an und klicken Sie dann auf Speichern.
    Screenshot der Speech-to-Text-Transkriptionsseite, in der die Auswahl oder der Upload für eine Ground-Truth-Datei angezeigt wird.

Ground Truth bestätigen

  1. Wenn Sie auf Speichern klicken, wird eine Meldung angezeigt, um zu bestätigen, dass die angegebene Ground-Truth-Datei korrekt ist. Prüfen Sie, ob die Ground-Truth-Datei genau die richtigen Transkriptionen darstellt, da sie sich direkt auf die Genauigkeitsmesswerte auswirkt.
  2. Klicken Sie auf Bestätigen, um fortzufahren.
    Screenshot der Speech-to-Text-Transkriptionsseite mit dem Inhalt der hochgeladenen Ground-Truth-Datei

Bewertungsergebnisse prüfen

  1. Je nach Größe der Eingabedaten kann der Bewertungsprozess einige Zeit in Anspruch nehmen. Die Ergebnisse werden nach Abschluss angezeigt.
  2. Sobald die Bewertung abgeschlossen ist, werden die folgenden Abschnitte angezeigt:
    • Die Tabelle Transkriptionsgenauigkeit, die Genauigkeitsmesswerte und ein Link zur Ground-Truth-Datei, die bei diesem Vorgang verwendet wurde.
    • Der Transcription mit einer Ein/Aus-Schaltfläche für den Vergleich mit der Ground-Truth-Datei sowie einer Aufschlüsselung der Genauigkeitsmesswerte und Highlights.
  3. Prüfen und interpretieren Sie die Genauigkeitsergebnisse, um die Leistung der Speech-to-Text-Erkennung zu ermitteln, mit der Verbesserungsbereiche identifiziert werden, da die Ergebnisse je nach Eingaben und Transkription variieren. In den folgenden Beispielen werden Beispiele für die Genauigkeit der Ergebnisse angezeigt, die wertvolle Informationen zur Optimierung des Google Cloud Speech-to-Text-Systems bieten.
    • Beispiel für 0 % WER:
      Screenshot der Transkriptionsseite für die Speech-to-Text-Transkription mit berechneten Bewertungsergebnissen für das angegebene Transkript mit einer Fehlerrate von 0 %
    • Beispiel für einen WER von 40 %:
      Screenshot der Seite "Transkriptionsgenauigkeit" von Speech-to-Text mit berechneten Bewertungsergebnissen für das angegebene Transkript mit einer Fehlerrate von 40 %

Optional: Ground Truth aktualisieren

Sie können eine andere Ground-Truth-Datei für die vorhandene Transkription testen, indem Sie eine andere Datei wieder anhängen und dann die Schritte 3 und 4 mit einer aktualisierten Ground-Truth-Datei wiederholen.

Überzeugen Sie sich selbst

Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie einfach ein Konto, um die Leistungsfähigkeit von Speech-to-Text in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

Speech-to-Text kostenlos testen