Anreichern
Document AI verwendet Enterprise Knowledge Graph, um die Ergebnisse der Entitätsextraktion (für unterstützte Felder) zu normalisieren und anzureichern. Beispielsweise könnten die Adressen 123 Main St Apt 1
und 123 Main street # 1
auf dieselbe standardisierte Adresse normalisiert werden.
Für jedes unterstützte Feld gibt Document AI zusätzlich zum extrahierten Rohfeld ein normalizedValue
zurück, in dem der Text normalisiert wird.
Diese enthält die Daten in einem standardisierten Format, um die Nachbearbeitung zu reduzieren.
Die meisten Daten fallen in eine der folgenden Kategorien:
- Money
- Datum
- Zeitstempel
- Adresse
- Boolesch
- Ganzzahl
- Float
Beispielantwort
Die angereicherten Werte finden Sie im Feld entities.normalizedValue
, wie im folgenden gekürzten Beispiel dargestellt:
{
"entities": [
{
"textAnchor": {
"textSegments": [ ... ],
"content": "Google Singapore"
},
"type": "employer_name",
"mentionText": "Google Singapore",
"confidence": 0.69933707,
"pageAnchor": {
"pageRefs": [
{
"boundingPoly": {
"normalizedVertices": [ ... ]
}
}
]
},
"id": "9",
"normalizedValue": {
"text": "Google Asia Pacific, Singapore"
}
}
]
}
Im Beispiel wurde das ursprüngliche employer_name
„Google Singapore“ zu „Google Asia Pacific, Singapore“ normalisiert.
In der Google Cloud Console sind die angereicherten und normalisierten Felder mit G gekennzeichnet. Beispiel:
Unterstützte Prozessoren
Im Folgenden sind die Prozessoren und Felder aufgeführt, die die Entitätsanreicherung unterstützen.
Prozessoren | Angereicherte Felder | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Kontoauszugsparser
|
|
||||||||||||
W2-Parser
|
|
||||||||||||
Lohnabrechnungsparser
|
|
||||||||||||
Kostenparser
|
|
||||||||||||
Rechnungsparser
|
|