Comportamento degli splitter
L'output dell'elaboratore dello splitter contiene informazioni sulla suddivisione per il documento di input, incluso un
voto di attendibilità. L'API Document AI restituisce un oggetto JSON Document
e il formato di output utilizza il campo entities
per rappresentare le suddivisioni dei documenti. Le informazioni aggiuntive dipendono dal tipo specifico di scollettore.
Entity.type
specifica la classificazione del documento. Per un elenco completo dei tipi di documenti che possono essere identificati, consulta i seguenti elenchi.Entity.pageAnchor.pageRefs[]
specifica le pagine che contengono ogni sottodocumento. Tieni presente chepageRefs[].page
è basato su zero ed è l'indice nel campodocument.pages[]
.
Ecco una tipica risposta dello strumento per la divisione JSON per un documento riconosciuto, che indica un documento di classe form_140
nelle pagine 2 e 3 del file di input:
{
"textAnchor": {
"textSegments": [
{
"startIndex": "5543",
"endIndex": "10470"
}
]
},
"type": "form_1040",
"confidence": 0.8983272,
"pageAnchor": {
"pageRefs": [
{
"page": "1",
"confidence": 0.8983272
},
{
"page": "2",
"confidence": 0.9636311
}
]
}
},
A differenza del classificatore personalizzato, i separatori non forniscono più di una classe e i relativi scorci di attendibilità.
Lo strumento per la divisione non è progettato per suddividere documenti logici di più di 30 pagine. I documenti logici di più di 30 pagine (ad esempio un estratto conto bancario di 40 pagine) possono essere suddivisi in due o più documenti e classificati separatamente.
Gli elementi divisori identificano i limiti delle pagine, ma non suddividono effettivamente il documento di input. L'SDK Document AI Toolbox fornisce funzioni di utilità che possono suddividere il documento di input in base all'output di un processore di suddivisione.
È vivamente consigliato che le previsioni di suddivisione vengano esaminate da persone prima della suddivisione effettiva dei file, a meno che non sia dimostrata un'accuratezza accettabile per le esigenze aziendali.
Tipi di documenti identificati
Questa sezione descrive in dettaglio le classi di documenti riconosciute dai processori di separazione preaddestrati.
[1] L'analizzatore corrispondente per questo modulo non supporta questo tipo di documento. Ciò significa che lo splitter può identificare e classificare i documenti di questo tipo, ma Document AI non fornisce un parser per estrarre le informazioni.
Esempi di output
Processori | Esempi di output |
---|
Esempi di codice
Gli elementi di suddivisione identificano i limiti di pagina, ma non suddividono effettivamente il documento di input. Puoi utilizzare Document AI Toolbox per suddividere fisicamente un file PDF utilizzando i confini di pagina. I seguenti esempi di codice stampano gli intervalli di pagine senza suddividere il PDF:
Java
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Document AI Java.
Per autenticarti a Document AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Document AI Node.js.
Per autenticarti a Document AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Document AI Python.
Per autenticarti a Document AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Document
elaborato.
Python
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Document AI Python.
Per autenticarti a Document AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.