L'output del processore di suddivisione contiene informazioni sulla suddivisione del documento di input, incluso un
punteggio di confidenza. L'API Document AI restituisce un oggetto JSON Document
e il formato di output utilizza il campo entities
per rappresentare le suddivisioni del documento. Le informazioni aggiuntive dipendono dal tipo specifico di splitter.
Entity.type
specifica la classificazione dei documenti. Per un elenco completo dei tipi di documenti che possono essere identificati, consulta gli elenchi seguenti.Entity.pageAnchor.pageRefs[]
specifica le pagine che contengono ogni sottodocumento. Tieni presente chepageRefs[].page
è in base zero ed è l'indice del campodocument.pages[]
.
Ecco una tipica risposta dello splitter JSON per un documento riconosciuto, che indica un documento della classe form_140
nella seconda e nella terza pagina del file di input:
{
"textAnchor": {
"textSegments": [
{
"startIndex": "5543",
"endIndex": "10470"
}
]
},
"type": "form_1040",
"confidence": 0.8983272,
"pageAnchor": {
"pageRefs": [
{
"page": "1",
"confidence": 0.8983272
},
{
"page": "2",
"confidence": 0.9636311
}
]
}
},
A differenza del classificatore personalizzato, gli splitter non forniscono più di una classe e i relativi punteggi di confidenza.
Lo strumento di divisione non è progettato per dividere documenti logici più lunghi di 30 pagine. I documenti logici più lunghi di 30 pagine (ad esempio un estratto conto bancario di 40 pagine) potrebbero essere suddivisi in due o più documenti e classificati separatamente.
I separatori identificano i limiti della pagina, ma non dividono effettivamente il documento di input. L'SDK Document AI Toolbox fornisce funzioni di utilità che possono dividere il documento di input in base all'output di un processore di suddivisione.
È consigliabile che le previsioni di suddivisione vengano esaminate da persone fisiche prima della suddivisione effettiva dei file, a meno che non sia dimostrato che abbiano un'accuratezza accettabile per le esigenze aziendali.
Tipi di documenti identificati
Questa sezione descrive in dettaglio le classi di documenti riconosciute dai processori di separazione preaddestrati.
[1] L'analizzatore corrispondente per questo modulo non supporta questo tipo di documento. Ciò significa che il separatore può identificare e classificare i documenti di questo tipo, ma Document AI non fornisce un analizzatore per estrarre le informazioni.
Esempi di output
Processori | Esempi di output |
---|
Esempi di codice
I separatori identificano i limiti delle pagine, ma non dividono effettivamente il documento di input. Puoi utilizzare Document AI Toolbox per dividere fisicamente un file PDF utilizzando i limiti della pagina. I seguenti esempi di codice stampano gli intervalli di pagine senza dividere il PDF:
Java
Per saperne di più, consulta la documentazione di riferimento dell'API Document AI Java.
Per eseguire l'autenticazione in Document AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per saperne di più, consulta la documentazione di riferimento dell'API Document AI Node.js.
Per eseguire l'autenticazione in Document AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per saperne di più, consulta la documentazione di riferimento dell'API Document AI Python.
Per eseguire l'autenticazione in Document AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Document
elaborato.
Python
Per saperne di più, consulta la documentazione di riferimento dell'API Document AI Python.
Per eseguire l'autenticazione in Document AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.