Best Practices und bekannte Einschränkungen

Best Practices

  • Ein Labeler-Pool pro Projekt: Im BYOL-Szenario wird zwar in der HITL-Einrichtungs-UI das Erstellen neuer Labeler-Pools für jeden Prozessor unterstützt, es wird jedoch empfohlen, einen einzelnen Labeler-Pool für alle Prozessoren in einem Projekt zu verwenden, um die Dinge einfach zu halten. Das liegt daran, dass Nutzer aus mehreren Labeler-Pools derselben Aufgabe zugewiesen werden können. Wenn Sie einer Aufgabe einen Labeler-Pool zuweisen, wird der Labeling Manager nicht daran gehindert, andere Labeler dieser Aufgabe zuzuweisen.
  • Mehrere Aufgaben/Dokumenttyp: Für die Verarbeitung eines einzelnen Dokumenttyps können mehrere Aufgaben erforderlich sein. Dies ist in den folgenden Szenarien erforderlich:
    • Labelersteller mit unterschiedlichen Fähigkeiten oder Anmeldedaten, die zum Überprüfen/Validieren verschiedener Felder desselben Dokuments erforderlich sind.
    • Für Dokumente mit unterschiedlichen Feldern (z. B. Rechnungen von verschiedenen Anbietern) ist möglicherweise ein anderes Schema für die Validierung erforderlich. Daher müssen sie an unterschiedliche Aufgaben weitergeleitet werden.
    • Für Dokumente von verschiedenen Kunden sind unterschiedliche Labeler-Pools zuständig (z.B. Rechnungen von verschiedenen Kunden, in verschiedenen Sprachen oder aus verschiedenen Ländern).
    In diesem Szenario empfehlen wir, mehrere Prozessoren (und Aufgaben) zu erstellen und die Dokumente an die entsprechende Aufgabe zu senden. [Möglicherweise ist ein Klassifikator erforderlich, um diese Dokumente zu klassifizieren und an den richtigen Prozessor zu senden.]
  • Überprüfung auf die erforderlichen Felder beschränken (im Gegensatz zu allen extrahierten Feldern auf der Seite), um Zeit und Kosten für die Überprüfung zu sparen: Die Antwortzeit pro Seite hängt von der Anzahl der zu überprüfenden Felder ab. Die Kosten für die Google-Kennzeichnung basieren auf der Anzahl der überprüften Felder. Daher wird empfohlen, die zu überprüfenden Felder auf diejenigen zu beschränken, die im nachgelagerten Geschäftsprozess verwendet werden.
    • Eine Rechnung kann beispielsweise mehr als 30 Felder enthalten, aber Sie möchten die Überprüfung möglicherweise auf 4–5 Felder beschränken, die für die Begleichung der Rechnung wichtig sind.
  • HITL-fähige Prozessoren benennen: Der Name der HITL-Aufgabe entspricht dem Namen des Prozessors. Es wird empfohlen, einen Namen zu verwenden, der für die Labeling-Manager und Labelersteller verständlich ist und sich leicht von anderen Aufgaben unterscheidet, an denen sie arbeiten.
  • Aufgaben priorisieren: Wenn einem Labelersteller mehrere Aufgaben zugewiesen sind, werden diese nacheinander bearbeitet. Wenn ein Labeler die Aufgabe wechseln muss (z.B. um auf eine Kundeneskalierung zu reagieren oder ein SLO einzuhalten), sollte der Labeling Manager die aktuelle Aufgabe über den Tab „Assignments“ (Zuweisungen) in der Labeling Manager Console entfernen und die Aufgabe mit hoher Priorität dem Labeler zuweisen.
    • In der Console können Labeling Manager im Raster „Labeler × Aufgaben“ (siehe unten) alle Labeler-Zuweisungen für verschiedene Aufgaben sehen und festlegen, welcher Labeler an welcher Aufgabe arbeitet, um die Aufgabenprioritäten zu berücksichtigen.
  • Validierungsfilter festlegen Validierungsfilter
  • Abgelehnte Dokumente: Der abgelehnte Status des Dokuments sowie der Grundcode (z. B. anderer Dokumenttyp, gefälscht, Blendung, unscharf, abgeschnittener Rand usw.) werden in den JSON-Dokumentdateien erfasst (TextChange-Konstrukt für alle Änderungen, HumanReview für den Ablehnungsgrund) und im konfigurierten Cloud Storage-Bucket ausgegeben. Es wird empfohlen, diese Metadaten zu verwenden, um die abgelehnten Dokumente zu trennen.
  • Verarbeiten großer Mengen von Dokumenten: Die aktuellen Kontingente begrenzen die Anzahl der Online-Dokumentanfragen auf 600 Anfragen pro Minute und die Anzahl der gleichzeitigen Offline- (Batch-)Anfragen auf 5, wobei jede Anfrage bis zu 50 Dokumente verarbeiten kann. Es wird erwartet, dass 36.000 Onlineanfragen/Stunde und bis zu 15.000 Offline-Dokumentanfragen (Batchanfragen)/Stunde verarbeitet werden können [da jeder Batch bis zu 50 Dokumente umfasst]. Wenn Sie ein höheres Volumen benötigen, wenden Sie sich bitte an den Support.
  • Kosten und Zeit für die manuelle Überprüfung verwalten: Die manuelle Überprüfung kann teuer werden, unabhängig davon, ob Sie Ihre eigenen Labelersteller oder Google-Labelersteller verwenden. Die für die einzelnen Seiten aufgewendete Zeit hängt von der Anzahl der überprüften Felder ab. Google Workforce (in der privaten Vorschau) wird pro geprüftem Label in Rechnung gestellt. Sie können die Prüfung und Kosten im Blick behalten, indem Sie die Funktion auf die wichtigsten Felder beschränken, die überprüft und korrigiert werden müssen. Verwenden Sie dazu die Validierungsfilter auf Labelebene auf dem Bildschirm für die manuelle Überprüfung.
  • Single Sign-on-Zugriff mit Enterprise-Anmeldedaten: Die Labeler Workbench und die Labeling Manager Console unterstützen Google Workforce- oder Gmail-Anmeldedaten. Wenn eine Einmalanmeldung mit Anmeldedaten des Unternehmens erforderlich ist, erstellen Sie bitte Basic Google Workforce-Konten für Ihre Labeler. Google Workforce unterstützt SAML. Sie können Ihren SSO-Anbieter so konfigurieren, dass er sich mit Unternehmensanmeldedaten in der Labeler Workbench oder Labeling Manager Console anmeldet.

Bekannte Einschränkungen und Problemumgehungen

Im Folgenden finden Sie einige bekannte Einschränkungen und mögliche Problemumgehungen. Wir arbeiten derzeit daran, die Einschränkungen zu beheben.

  • Der Begrenzungsrahmen muss Text enthalten: Wenn HITL zum Annotieren von Dokumenten für das Training verwendet wird, muss jeder gezeichnete Begrenzungsrahmen OCR-Ergebnisse enthalten. Der Wert darf nicht leer sein. Wenn Sie einen Wert manuell eingeben, wird das Problem nicht behoben.
  • Neuer Labelerstellerpool
  • VPC-SC: Kunden, die VPC-SC in ihrem HITL-Projekt aktiviert haben, können möglicherweise keine Google-Labeler für die HITL-Überprüfung verwenden.
  • Latenz nach der Überprüfung: Nachdem ein Dokument überprüft wurde, kann es bis zu 30 Minuten dauern, bis es im vorkonfigurierten Cloud Storage-Ordner abgelegt wird.
  • Limit von 10 Seiten: Die HITL-Prüfung ist bei Rechnungen auf 10 Seiten begrenzt. Rechnungen mit mehr als 10 Seiten werden nicht zur manuellen Überprüfung gesendet.
  • Workflow mit einem einzelnen Labeler: Die aktuellen Workflow-Aufgaben sind auf eine einzelne Labeler-Überprüfung beschränkt. Wenn das Dokument von mehreren Prüfern überprüft werden muss (z. B. zur Qualitätssicherung oder zur Betrugsprävention), laden Sie die geprüften Dokumente in einen zweiten Prozessor im Modus „Prozessor überspringen, alle Dokumente zur manuellen Überprüfung senden“ hoch, damit sie überprüft werden.
  • Labeling-Administratoren des Labeling-Pools bearbeiten: Bei BYOL-Aufgaben können Labeling-Administratoren einem Labeling-Pool nach der Erstellung nicht mehr hinzugefügt oder daraus entfernt werden. Problemumgehung: Wenn Sie einen neuen Labeling-Pool erstellen,
    • Weisen Sie mehr als einen Labeling-Manager zu, damit die anderen den Pool und die Aufgabenzuweisungen verwalten können, falls einer vor Abschluss der Aufgabe ausscheidet.
    • Personen, die die Dashboards für Labeler- oder Aufgabenanalysen in der Labeling Manager-Benutzeroberfläche aufrufen müssen, sollten beim Erstellen des Pools als Pool-Manager hinzugefügt werden.
  • Aufgabe abbrechen: Eine Aufgabe kann nach dem Start nicht mehr abgebrochen werden. Der Labeling Manager kann die Aufgabe in der Labeling Manager Console pausieren oder die Labeler von der Aufgabe entfernen.
  • Aufgabe mit einem einzigen Klick einem gesamten Labeler-Pool zuweisen: Diese Funktion wird derzeit nicht unterstützt, ist aber in Kürze verfügbar. Als Workaround können Sie alle Labeler auswählen und ihnen die Aufgabe zuweisen.
  • Neuer Labelerstellerpool
  • BYOL-Labeler mit Google Workspace-Konten: Wenn BYOL-Labeling-Manager und ‑Labeler Google Workspace-Konten haben, muss der Google Workspace-Administrator möglicherweise „Andere Dienste“ unten auf der Seite „Google-Dienste“ aktivieren (siehe Screenshots unten), um den Zugriff auf die Labeling Manager Console und die Labeler Workbench zu ermöglichen. Google Workspace