Benutzerdefinierter Extraktor mit generativer KI

Abgeleitetes Feld und Signaturerkennung

Mit der Funktion für abgeleitete Felder in der öffentlichen Vorschau können Document AI-Kunden ein Feld so konfigurieren, dass es durch intelligente Inferenz oder Generierung basierend auf dem Dokumentkontext und nicht durch direkte Textextraktion ausgefüllt wird.

In dieser Version wird außerdem eine weitere Funktion zum Erkennen von Signaturen in Dokumenten eingeführt. Mit dem neuen Entitätstyp signature können Sie ein Schema für solche Entitäten angeben. Die Signatur-Entitäten werden anhand visueller Hinweise im Dokument abgeleitet.

Abgeleitete Felder im benutzerdefinierten Extraktor

Der benutzerdefinierte Extraktor unterstützt abgeleitete Felder in den folgenden Modellen:

  • pretrained-foundation-model-v1.4-2025-02-05 als General Availability (GA)
  • pretrained-foundation-model-v1.5-2025-05-05 als Vorschau
  • pretrained-foundation-model-v1.5-pro-2025-06-20 als Vorschau

Sie können diese Funktionen in der Konsolen-UI aktivieren, wenn Sie Labels in Ihrem Dokumentschema erstellen oder bearbeiten.

Abgeleitete Felder sind eine leistungsstarke Funktion, mit der Sie Informationen extrahieren können, die nicht explizit in einem Dokument enthalten sind. So können Sie ein Feld so konfigurieren, dass es durch intelligente Inferenz oder Generierung auf Grundlage des Gesamtkontexts des Dokuments ausgefüllt wird. Das geht über die rudimentäre Textextraktion hinaus und unterstützt erweiterte Anwendungsfälle wie:

  • Das Land aus einer Adresse ableiten.
  • Gesamtzahl der Elemente in einer Tabelle zählen.
  • Erkennen, ob ein Ausweis eine „Real ID“ ist.

Beispiel für die Schemaerstellung

Hier sehen Sie ein Beispiel für das Erstellen eines Schemas für abgeleitete Felder für solche Anwendungsfälle und die erwartete Ausgabe anhand eines US-Führerscheins.

  1. Wählen Sie beim Erstellen eines Schemaelements die Methode Derived aus.

    cde-signature-detection-derived-field-1

  2. Fügen Sie beschreibende Labels hinzu, um die Leistung zu verbessern.

    cde-signature-detection-derived-field-2

  3. Für abgeleitete Felder wie Signaturen müssen beim Labeln von Dokumenten keine Begrenzungsrahmen festgelegt werden. Wählen Sie für Wert die Option Erkannt aus.

    cde-signature-detection-derived-field-3

  4. Für abgeleitete Felder, die keine Signaturen sind, können Sie einen beliebigen Wert als Teil der Kennzeichnung eingeben, um die möglichen Ausgaben zu definieren.

    cde-signature-detection-derived-field-4

Die erwartete Ausgabe sieht in etwa so aus. Das Vorhandensein einer Signatur wird als „Detected“ (Erkannt) oder „“ zurückgegeben. Abgeleitete Felder werden als Text zurückgegeben, da die Beschreibung des Labels Anfragen auslöst.

cde-signature-detection-derived-field-5

Übersicht zu extrahierten und abgeleiteten Daten

Wenn Sie eine Entität in Ihrem Prozessorschema definieren, können Sie eine Methode für die Art und Weise auswählen, wie ihr Wert festgelegt wird.

  • Extrahieren:Dies ist die Standardmethode. Diese Methode eignet sich, wenn der Wert der Entität direkt aus dem Dokumenttext extrahiert werden soll. Das System erkennt den Text und füllt Felder wie textAnchor und pageAnchor aus, um den Speicherort anzugeben.

  • Abgeleitet:Diese Methode wird verwendet, wenn der Wert der Entität aus dem Inhalt des Dokuments abgeleitet werden muss. Da der Wert nicht direkt im Text enthalten ist, werden die Felder textAnchor und pageAnchor nicht ausgefüllt.

Beispielanwendungsfall: Währungscode finden

Angenommen, Sie müssen den Währungscode (z. B. USD, CAD, EUR) für Transaktionen in Ihren Dokumenten ermitteln.

  • Wann sollte Extract verwendet werden? Wenn die Dokumente durchgehend eindeutige Währungssymbole oder ‑codes wie „USD“ oder „€“ enthalten, verwenden Sie die Extract-Methode, um genau diesen Text zu finden und zu extrahieren.

  • Wann sollte Derived verwendet werden? Wenn in einem Dokument ein mehrdeutiges Symbol wie „$“ verwendet wird (das sich auf USD, CAD, AUD usw. beziehen könnte) oder gar kein Symbol vorhanden ist, verwenden Sie die Methode Derived. Das Modell analysiert den Kontext des Dokuments, z. B. eine Rechnungsadresse oder einen Unternehmensstandort, um den richtigen ISO 4217-Währungscode abzuleiten.

Best Practices für die Konfiguration

Damit Sie mit abgeleiteten Feldern optimale Ergebnisse erzielen, empfehlen wir Ihnen dringend, während der Kennzeichnung eine klare, anleitende description für die Property in Ihrem Schema zu schreiben. Das hilft dem Modell bei der Ableitung.

Im Beispiel für den Währungscode können Sie ein Feld mit dem Namen currency_code erstellen und die folgende Beschreibung angeben: „Ermittle den ISO 4217-Währungscode der Betragswerte im Dokument anhand von kontextbezogenen Signalen im Dokument, z. B. Währungssymbolen und Adressen.“

Beschränkungen

Abgeleitete Felder werden seitenweise generiert. Das bedeutet, dass Anwendungsfälle, für die Informationen von mehreren Seiten erforderlich sind, nicht vollständig unterstützt werden. Wenn Sie beispielsweise ein abgeleitetes Feld zum Zusammenfassen eines Dokuments konfigurieren, wird für jede einzelne Seite eine separate Zusammenfassung erstellt und nicht eine zusammenhängende Zusammenfassung für das gesamte Dokument. Diese Einschränkung gilt für alle Felder, in denen der Wert aus seitenübergreifenden Informationen abgeleitet werden muss.

Signaturerkennung in benutzerdefiniertem Extrahierer

Der benutzerdefinierte Extraktor von Document AI unterstützt die Erkennung von Signaturen in benutzerdefinierten Extraktormodellen pretrained-foundation-model-v1.4-2025-02-05 und pretrained-foundation-model-v1.5-2025-05-05. Sie können diese Funktion in der Console-Benutzeroberfläche aktivieren, wenn Sie Labels in Ihrem Dokumentschema erstellen oder bearbeiten.

Mit der Funktion Signaturerkennung können Sie feststellen, ob in Ihren Dokumenten eine Signatur vorhanden ist. Bei dieser Funktion wird anhand visueller Hinweise geprüft, ob eine Unterschrift vorhanden ist. Es wird kein Text extrahiert.

So funktioniert die Signaturerkennung

Zum Aktivieren dieser Funktion ist beim Definieren des Prozessorschemas der Datentyp signature verfügbar. Das Verhalten des Prozessors hängt davon ab, ob im Dokument eine Signatur erkannt wird.

Wenn eine Signatur gefunden wird, gibt der Extractor in seiner Antwort eine Signatur-Entität zurück. Für ein Feld mit dem Namen has_signed hat das Antwortobjekt die folgende Struktur:

"has_signed": {
  "mention_text": "Detected",
  "confidence": <confidence_score_between 0 to 1>,
  "normalized_value": {
    "text": "Detected",
    "signature_value": true
  }
}

Wenn keine Signatur gefunden wird, wird die Entität nicht in der Antwort des Prozessors zurückgegeben.

Wichtige Anforderungen konfigurieren und einrichten

So richten Sie die Signaturerkennung ein:

  1. Schema definieren:Fügen Sie in Ihrem Prozessorschema eine neue Entität für die Signatur hinzu, die Sie erkennen möchten.
  2. Datentyp festlegen:Wählen Sie „Signatur“ als Datentyp für diese neue Einheit aus.
  3. Methode auf „Abgeleitet“ festlegen:Für Entitäten mit dem Datentyp signature kann nur die Methode Derived verwendet werden. Da das Modell die Signatur visuell ableitet, wird kein Textwert extrahiert. Daher werden Felder wie textAnchor und pageAnchor für Signatur-Entitäten nicht ausgefüllt.

Anwendungsbeispiel

Stellen Sie sich vor, Sie verarbeiten Verträge und müssen überprüfen, ob sie unterzeichnet wurden. Sie können ein Schemefeld mit dem Namen is_contract_signed erstellen und seinen Datentyp auf signature festlegen. Wenn Sie einen unterzeichneten Vertrag verarbeiten, enthält die Antwort eine is_contract_signed-Entität, die die Unterschrift bestätigt. Wenn keine Signatur vorhanden ist, ist diese Entität nicht in der Antwort enthalten. So können Sie nicht unterzeichnete Dokumente schnell zur Überprüfung kennzeichnen.

Nächste Schritte

Spezialprozessor uptrainen