In dieser Kurzanleitung erfahren Sie, wie Sie die Genauigkeit von Google Cloud Speech-to-Text für Ihre Audiodaten messen und verbessern. Entdecken Sie auch die verschiedenen Modelle und Optionen, die über die API verfügbar sind, um die Transkriptionsgenauigkeit zu verbessern. Hier erfahren Sie, wie Sie mit der Speech-to-Text UI in der Google Cloud Console und einer Grundwahrheiten-Datei die Genauigkeit messen und Einblicke in das Speech-to-Text-System erhalten.
Systeme für maschinelles Lernen (ML) sind von Natur aus anfällig für Ungenauigkeiten. Systeme für die automatische Spracherkennung (ASR), auch als Speech-to-Text-Systeme bezeichnet, sind keine Ausnahme. Die genaue Messung der Genauigkeit ist eng mit bestimmten Anwendungsfällen und den zu bewertenden Systemen verknüpft, da Unterschiede bei der Qualität der Audioaufnahme und den akustischen Bedingungen die Genauigkeit erheblich beeinträchtigen können. Daher ist ein einzelner Genauigkeitswert für alle Kunden und Anwendungsfälle nicht praktikabel. Um die zuverlässige Leistung von ASR-Systemen in kritischen produktionsorientierten Systemen sicherzustellen. Außerdem ist es wichtig zu verstehen, wie die Funktion „Sprache in Text“ im Gesamtkontext Ihres Systems abschneidet.
In dieser Kurzanleitung verwenden wir die branchenübliche Standardmethode für den Vergleich, die Wortfehlerrate (Word Error Rate, WER), oft als WER abgekürzt. Weitere Informationen zur Berechnung und Interpretation des WER finden Sie unter Sprachgenauigkeit messen und verbessern. Los gehts!
Erste Schritte mit der Speech‑to‑Text Console
Achten Sie darauf, dass Sie sich für ein Google Cloud-Konto registriert und ein Projekt erstellt haben. 1. Rufen Sie in der Google Cloud Console „Sprache“ auf und verwenden Sie die Speech-to-Text-UI. 2. Verwenden Sie eine Audiodatei, die akustisch für Ihren Anwendungsfall und die geplante Verwendung des ASR-Systems repräsentativ ist, und folgen Sie der Kurzanleitung, um Ihre erste Transkription mit Speech-to-Text zu erstellen.
Genauigkeit der Transkription berechnen
- Nachdem Sie Ihre Audiodatei erfolgreich transkribiert haben, verwenden Sie den Abschnitt
Transcription Accuracy
. Dieser Abschnitt bleibt leer, bis die Genauigkeit für Ihre Transkription berechnet wurde. - Mit der Schaltfläche Ground Truth hochladen oben im Bereich können Sie mit der Berechnung der Genauigkeit beginnen.
Ground Truth festlegen
- Geben Sie eine Ground-Truth-Datei an, um die Genauigkeit der Transkription zu berechnen. Dies ist eine
.txt
- oder.csv
-Datei, in der Regel eine von Menschen erstellte Transkriptionsdatei, die die richtigen oder erwarteten Transkriptionen für einen Vergleich enthält. gs://cloud-samples-data/speech/brooklyn_bridge.wav
als Beispiel verwenden. Die Ground-Truth-Datei enthält Folgendes:How old is the Brooklyn Bridge
Wenn Sie keine Ground-Truth-Datei haben, empfehlen wir, die Transkription im Textformat herunterzuladen. Bearbeiten Sie die Transkriptdatei nach Bedarf. Laden Sie die Transkriptdatei als Ground-Truth-Datei hoch.- Geben Sie über Hochladen oder eine vorhandene Cloud Storage-Datei die Ground-Truth-Datei an und klicken Sie auf Speichern.
Ground Truth bestätigen
- Nachdem Sie auf Speichern geklickt haben, werden Sie aufgefordert, zu bestätigen, dass die angegebene Ground-Truth-Datei korrekt ist. Prüfen Sie, ob die Ground-Truth-Datei die korrekten Transkripte enthält, da sich dies direkt auf die Genauigkeitsmesswerte auswirkt.
- Klicken Sie auf Bestätigen, um fortzufahren.
Bewertungsergebnisse prüfen
- Je nach Größe der Eingabedaten kann der Evaluierungsprozess einige Zeit in Anspruch nehmen und die Ergebnisse werden nach Abschluss angezeigt.
- Nach Abschluss der Bewertung werden die folgenden Abschnitte angezeigt:
- Die Tabelle Transkriptionsgenauigkeit, die Genauigkeitsmesswerte und ein Link zur Ground-Truth-Datei, die im Prozess verwendet wurden.
- Die
Transcription
mit einer Ein/Aus-Schaltfläche zum Vergleichen mit der Ground-Truth-Datei sowie eine Aufschlüsselung der Genauigkeitsmesswerte und Highlights.
- Prüfen und interpretieren Sie die Genauigkeitsergebnisse, um die Leistung der Speech-to-Text-Erkennung zu verstehen, die zur Identifizierung von Verbesserungsbereichen verwendet wird, da die Ergebnisse je nach Eingabe und Transkription variieren. Die folgenden Beispiele zeigen Indikativfälle der Genauigkeitsergebnisse, die wertvolle Erkenntnisse zur Optimierung des Google Cloud Speech-to-Text-Systems liefern.
- Beispiel für 0 % WER:
- Beispiel für einen WER von 40 %:
Optional: Ground Truth aktualisieren
Sie können eine andere Ground-Truth-Datei für die vorhandene Transkription testen, indem Sie eine andere Datei wieder anhängen und dann die Schritte 3 und 4 mit einer aktualisierten Ground-Truth-Datei wiederholen.
Überzeugen Sie sich selbst
Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie einfach ein Konto, um die Leistungsfähigkeit von Speech-to-Text in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
Speech-to-Text kostenlos testen