Questo documento è una guida ai concetti fondamentali sull'utilizzo di Document AI. Ti consigliamo di leggere questa pagina prima di consultare qualsiasi altra documentazione o guida rapida.
Automatizzare i flussi di lavoro di elaborazione dei documenti
Le attività di tutto il mondo si affidano molto ai documenti per archiviare e trasmettere informazioni. Spesso queste informazioni devono essere digitalizzate per diventare utili. Tuttavia, questo risultato viene solitamente ottenuto tramite procedure manuali che richiedono molto tempo.
Ad esempio:
- Digitalizzazione di libri per e-reader.
- Elaborazione dei moduli di anamnesi medica negli studi medici.
- Analisi di ricevute e fatture per la convalida delle note spese.
- Autenticazione dell'identità basata su documenti di identità.
- Estrazione di informazioni sul reddito dai moduli fiscali per l'approvazione dei prestiti.
- Comprensione dei contratti per i termini chiave degli accordi commerciali.
Ciascuno di questi flussi di lavoro prevede l'estrazione del testo non elaborato dai documenti, quindi l'estrazione di un testo specifico che corrisponde ai dati necessari (i campi o le entità). Tuttavia, ogni tipo di documento ha una struttura e un layout diversi e il pattern dei campi varia a seconda del caso d'uso specifico.
Componenti di Document AI
Document AI è una piattaforma di elaborazione e comprensione dei documenti che prende i dati non strutturati dai documenti e li trasforma in dati strutturati (campi specifici, adatti a un database), rendendoli più facili da comprendere, analizzare e utilizzare.
Document AI è basato sui prodotti di Vertex AI con l'IA generativa per aiutarti a creare applicazioni di elaborazione dei documenti scalabili, end-to-end e basate sul cloud senza competenze specialistiche di machine learning.
Con Document AI puoi:
- Digitalizza i documenti utilizzando l'OCR per ottenere testo, layout e vari componenti aggiuntivi come il rilevamento della qualità delle immagini (per la leggibilità) e la correzione della distorsione (completamente automatica).
- Estrai testo e informazioni sul layout dai file di documenti e normalizza le entità.
- Identifica le coppie chiave-valore nei moduli strutturati e nelle tabelle regolari. Ad esempio:
Name: Jill Smith
è una coppia chiave-valore. - Classifica i tipi di documenti per guidare i processi downstream come l'estrazione e l'archiviazione.
- Suddividi e classifica i documenti per tipo. Ad esempio, un file PDF con più documenti reali.
- Prepara i set di dati da utilizzare nel fine tuning e nelle valutazioni dei modelli utilizzando l'etichettatura automatica, la gestione degli schemi e le funzionalità di gestione dei set di dati come la revisione di documenti e previsioni.
- Integralo con prodotti come Cloud Storage, BigQuery e Vertex AI Search per archiviare, cercare, organizzare, gestire e analizzare documenti e metadati.
Questo diagramma illustra tutti i passaggi chiave di elaborazione dei documenti supportati da Document AI e come possono connettersi tra loro.
Processore
Un processore Document AI si trova tra il file del documento e un modello di machine learning che esegue azioni di elaborazione e comprensione dei documenti. Possono essere utilizzati per classificare, dividere, analizzare o analizzare un documento.
Ogni Google Cloud progetto deve creare le proprie istanze del processore.
I processori rientrano in una delle seguenti categorie:
- Digitalizza: OCR.
- Estrai: estrattore personalizzato, analizzatore sintattico di moduli, analizzatore sintattico di layout e analizzatori sintattici preaddestrati.
- Classifica: classificatore personalizzato e strumento per la divisione personalizzato.
Per informazioni su tutti i tipi di processore disponibili per Document AI, consulta l'elenco completo dei processori e dei dettagli.
Quale processore devo utilizzare?
Per decidere quale tipo di processore utilizzare per una specifica applicazione, ecco alcune linee guida generali:
Category | Caso d'uso | Tipo di processore |
---|---|---|
Digitalizza | Estrai testo e informazioni sul layout dai documenti. | Enterprise Document OCR |
Analizza la qualità (leggibilità) dell'immagine scansionata di un documento. | Enterprise Document OCR con l' analisi della qualità delle immagini abilitata | |
Estrai entità da un documento personalizzato che non soddisfa i criteri del processore personalizzato. | ||
Estrarre | Estrai tabelle o coppie chiave-valore da un modulo strutturato in un documento. | Analizzatore sintattico di moduli |
Estrai elementi come testo, tabelle ed elenchi in un documento e restituisci blocchi sensibili al contesto. | Parser del layout | |
Estrai entità da un documento personalizzato che soddisfa i criteri del processore personalizzato. | Creare un estrattore personalizzato | |
Estrai entità da un tipo di documento specializzato. | Un processore preaddestrato (ottimizza l'addestramento per migliorare la qualità). | |
Classificazione | Classificare i documenti. | Creare un classificatore personalizzato |
Dividere i documenti. | Creare un separatore personalizzato |
Questo diagramma aiuta a determinare quale processore funziona meglio per ogni caso d'uso.
Utilizzare i processori Document AI
Di seguito sono riportati i passaggi principali per utilizzare Document AI per iniziare a elaborare i documenti:
Scegli un processore adatto al tuo caso d'uso.
- Per informazioni complete su ciascun processore, consulta l'elenco completo di processori e dettagli.
Crea un processore utilizzando la console Google Cloud o l'API Document AI.
Document AI crea un endpoint di previsione a cui puoi inviare i tuoi documenti.
Per istruzioni dettagliate, vedi Creazione di un processore.
Addestra un processore con dati di addestramento e test da zero oppure esegui l'uptraining di una nuova versione del processore (preaddestrato) in base a una esistente.
- Per istruzioni dettagliate, vedi Addestra il processore.
Invia i documenti per l'elaborazione.
Document AI elabora i documenti e restituisce uno o più oggetti
Document
, che contengono le informazioni strutturate estratte.Per istruzioni dettagliate, vedi Invio di una richiesta di elaborazione e Gestire la risposta di elaborazione.