Strumento per la divisione personalizzato
Lo Strumento per la divisione personalizzato è progettato per essere utilizzato per suddividere i documenti composti (documenti composti da più classi) in una serie di documenti di classe singola identificando ogni documento logico. Ad esempio, un pacchetto mutui contiene più classi come richiesta, verifica del reddito e documento di identità con fotografia. Per poter essere utilizzati, i processori di Strumenti per la divisione personalizzati vengono addestrati da zero utilizzando i tuoi documenti e le tue classi personalizzate.
Descrizione e utilizzo dello Strumento per la divisione
Puoi creare Strumenti per la divisione personalizzati, specificamente adatti ai tuoi documenti, addestrati e valutati con i tuoi dati. Questo processore identifica le classi di documenti in un insieme di classi definito dall'utente. Quindi puoi utilizzare questo processore addestrato su documenti di produzione. In genere, utilizzerai uno strumento per la divisione personalizzato per i file composti da diversi tipi di documenti logici e poi userai l'identificazione della classe di ognuno per passare i documenti a un processore di estrazione appropriato per estrarre le entità.
Poiché i modelli ML non sono perfetti e presentano una determinata percentuale di errori, e dato che gli errori di suddivisione sono in genere molto problematici (una suddivisione errata causa due documenti errati e causa errori di estrazione), una best practice è avere sempre un passaggio di revisione da parte di persone fisiche dopo la previsione di suddivisione, ma prima della suddivisione effettiva del file. In base ai requisiti aziendali, esistono alternative alla revisione che avviene sempre da parte di persone fisiche:
- Utilizza i punteggi di affidabilità nella previsione per decidere se ignorare la revisione umana (se sufficientemente elevati). La soglia del punteggio di confidenza deve essere determinata in base ai dati storici relativi ai tassi di errore in determinati punteggi di confidenza. Deve trattarsi di una decisione aziendale basata sulla tolleranza del processo aziendale per gli errori e il requisito di evitare la revisione umana.
- In alcuni casi d'uso, i documenti suddivisi possono essere indirizzati direttamente all'estrazione appropriata in base alla classe prevista. Quindi, se l'estrazione è incompleta o ha punteggi di affidabilità bassi, isola i documenti suddivisi e attiva la revisione per il documento composito originale e la decisione di suddivisione. Prevede requisiti di flusso di lavoro piuttosto complessi.
Crea uno Strumento per la divisione personalizzato nella console Google Cloud
Questa guida rapida descrive come utilizzare Document AI per creare e addestrare uno Strumento per la divisione personalizzato che suddivide e classifica i documenti di approvvigionamento. Viene meseguita la maggior parte delle preparazioni dei documenti, in modo che tu possa concentrarti sulla creazione di uno Strumento per la divisione personalizzato.
Di seguito è riportato un flusso di lavoro tipico per creare e utilizzare uno Strumento per la divisione personalizzato:
- Crea uno Strumento per la divisione personalizzato in Document AI.
- Crea un set di dati utilizzando un bucket Cloud Storage vuoto.
- Definisci e crea lo schema del processore (classi).
- Importa i documenti.
- Assegna i documenti ai set di addestramento e test.
- Annota manualmente i documenti in Document AI o con attività di etichettatura.
- Addestra il processore.
- Valuta il processore.
- Esegui il deployment del processore.
- Testa il processore.
- Utilizza il processore sui documenti.
Se i documenti si trovano in cartelle separate per classe, puoi saltare il passaggio 6 specificando la classe al momento dell'importazione.
Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Procedura guidata:
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Crea un processore
Nella sezione Document AI della console Google Cloud, vai alla pagina Workbench.
In Strumento per la divisione di documenti personalizzato, seleziona
Crea processore .Nel menu Crea processore, inserisci un nome per il processore, ad esempio
my-custom-document-splitter
.Seleziona la regione più vicina a te.
Seleziona Crea. Viene visualizzata la scheda Dettagli del processore.
Configura set di dati
Per addestrare questo nuovo processore, devi creare un set di dati con dati di addestramento e test per aiutare il processore a identificare i documenti che vuoi separare e classificare.
Questo set di dati richiede una nuova posizione. Può essere un bucket Cloud Storage vuoto o una cartella vuota oppure consentire una località gestita da Google (interna).
- Se vuoi uno spazio di archiviazione gestito da Google, seleziona questa opzione.
- Se vuoi utilizzare il tuo spazio di archiviazione per usare chiavi di crittografia gestite dal cliente (CMEK, Customer-Managed Encryption Keys), seleziona Specificherò personalmente la località di archiviazione e segui la procedura successiva.
Crea un bucket Cloud Storage per il set di dati
Vai alla scheda
Addestramento del tuo processore.Seleziona Imposta località del set di dati. Ti verrà chiesto di selezionare o creare una cartella o un bucket Cloud Storage vuoto.
Seleziona Sfoglia per aprire Seleziona cartella.
Fai clic sull'icona Crea nuovo bucket e segui i comandi per creare un nuovo bucket. Dopo aver creato il bucket, viene visualizzata la pagina Seleziona cartella. Per ulteriori informazioni sulla creazione di un bucket Cloud Storage, consulta Bucket Cloud Storage.
Nella pagina Seleziona cartella per il tuo bucket, scegli il pulsante Seleziona nella parte inferiore della finestra di dialogo.
Assicurati che il percorso di destinazione sia completato con il nome del bucket che hai selezionato. Seleziona Crea set di dati. La creazione del set di dati potrebbe richiedere diversi minuti.
Definisci lo schema del processore
Puoi creare lo schema del processore sia prima che dopo aver importato i documenti nel set di dati. Lo schema fornisce etichette che utilizzerai per annotare i documenti.
Nella scheda Addestramento, seleziona
Modifica schema in basso a sinistra. Viene visualizzata la pagina Gestisci etichette.Seleziona
Crea etichetta .Inserisci il nome dell'etichetta. Seleziona Crea. Consulta Definisci lo schema del processore per istruzioni dettagliate su come creare e modificare uno schema.
Crea ognuna delle seguenti etichette per lo schema del processore.
bank_statement
form_1040
form_w2
form_w9
paystub
Seleziona
Salva quando le etichette sono complete.
Importa un documento senza etichetta in un set di dati
Il passaggio successivo prevede di iniziare a importare documenti non etichettati nel set di dati ed etichettarle. Un'alternativa consigliata è importare i documenti organizzati in cartelle per classe, se disponibili.
Se lavori al tuo progetto, devi decidere come etichettare i tuoi dati. Consulta Opzioni di etichettatura.
I processori Document AI personalizzati richiedono un minimo di 10 documenti sia nel set di addestramento che in quello di test, oltre a 10 istanze di ogni etichetta in ciascun set. Per ottenere prestazioni ottimali, ti consigliamo di avere almeno 50 documenti in ciascun set, con 50 istanze di ogni etichetta. In generale, una maggiore quantità di dati di addestramento produce una maggiore accuratezza.
Nella scheda Addestra, seleziona
Importa documenti .Per questo esempio, inserisci il percorso seguente in
Percorso di origine . Contiene un documento PDF.cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-Unlabeled
Imposta
Etichetta documento su Nessuna.Imposta il menu a discesa
Suddivisione set di dati su Non assegnato.Il documento in questa cartella non viene etichettato né viene assegnato al set di test o addestramento per impostazione predefinita.
Seleziona
Importa . Document AI legge i documenti del bucket nel set di dati. Non modifica il bucket di importazione né legge il bucket dopo che l'importazione è stata completata.
Quando importi documenti, puoi facoltativamente assegnarli al set Addestramento o Test al momento dell'importazione oppure farlo in un secondo momento.
Se vuoi eliminare uno o più documenti importati, selezionali nella scheda Addestra e seleziona Elimina.
Per saperne di più sulla preparazione dei dati per l'importazione, consulta la guida alla preparazione dei dati.
Facoltativo: etichettatura batch dei documenti al momento dell'importazione
Puoi etichettare tutti i documenti che si trovano in una determinata directory al momento dell'importazione per risparmiare tempo con l'etichettatura. Se i documenti di addestramento sono organizzati per classe in cartelle, puoi utilizzare il campo Etichetta documento per specificare la classe di questi documenti ed evitare di etichettare manualmente ogni documento.
Nell'immagine Bank_statements e Fattura sono disponibili etichette definite (classi di documenti) che puoi selezionare. In alternativa, puoi utilizzare CREATE LABEL
e definire una nuova classe.
- Fai clic su Importa documenti.
Inserisci il seguente percorso in Percorso di origine. Questo bucket contiene documenti senza etichetta in formato PDF.
cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
Dall'elenco Suddivisione dati, seleziona Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test.
Nella sezione Applica le etichette, seleziona Scegli un'etichetta.
Per questi documenti di esempio, seleziona Altro.
Fai clic su Importa e attendi l'importazione dei documenti. Puoi chiudere questa pagina e tornare più tardi.
Etichetta un documento
La procedura per applicare etichette a un documento è chiamata annotazione.
Torna alla scheda Addestra e seleziona
un documento per aprire la console Gestione etichette.Questo documento contiene più gruppi di pagine che devono essere identificati ed etichettati. Innanzitutto, devi identificare i punti di suddivisione. Muovi il mouse tra le pagine 1 e 2 nella visualizzazione immagine e seleziona il simbolo
+ .Crea punti di suddivisione prima dei seguenti numeri di pagina: 2, 3, 4, 5.
Al termine, la console dovrebbe avere questo aspetto.
Nel menu a discesa
Tipo di documento , seleziona l'etichetta appropriata per ogni gruppo di pagine.Pagine Tipo di documento 1 paystub
2 form_w9
3 bank_statement
4 form_w2
5 e 6 form_1040
Al termine, il documento con etichetta avrà il seguente aspetto:
Seleziona
Contrassegna come etichettato quando hai finito di annotare il documento.Nella scheda Addestra, il riquadro a sinistra mostra che un documento è stato etichettato.
Assegna il documento annotato al set di addestramento
Ora che hai etichettato questo documento di esempio, puoi assegnarlo al set di addestramento.
Nella scheda Addestra, seleziona la casella di controllo
Seleziona tutto .Dall'elenco a discesa
Assegna al set , seleziona Addestramento.
Il riquadro a sinistra mostra che un documento è stato assegnato al set di addestramento.
Importa i dati con l'etichettatura in batch
Importa i file PDF senza etichetta che sono ordinati in diverse cartelle Cloud Storage per tipo. L'etichettatura in batch consente di risparmiare tempo perché viene assegnata un'etichetta al momento dell'importazione in base al percorso.
Nella scheda Addestra, seleziona
Importa documenti .Inserisci il seguente percorso in
Percorso di origine . Questa cartella contiene estratti conto bancari in formato PDF.cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/bank-statement
Imposta
Etichetta documento subank_statement
.Nel menu di
Suddivisione set di dati , imposta l'opzione Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test.Seleziona
Aggiungi un'altra cartella per aggiungere altre cartelle.Ripeti i passaggi precedenti con i seguenti percorsi e le seguenti etichette dei documenti:
Percorso del bucket Etichetta documento cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/1040
form_1040
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w2
form_w2
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w9
form_w9
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/paystub
paystub
Al termine, la console dovrebbe avere il seguente aspetto:
Seleziona
Importa . L'importazione richiede diversi minuti.
Al termine dell'importazione, vedrai i documenti nella scheda Addestra.
Importa dati preetichettati
In questa guida vengono forniti dati preetichettati in formato Document
come file JSON.
Si tratta dello stesso formato restituito da Document AI durante l'elaborazione di un documento, l'etichettatura con human-in-the-loop o l'esportazione di un set di dati.
Nella scheda Addestra, seleziona
Importa documenti .Inserisci il seguente percorso in
Percorso di origine .cloud-samples-data/documentai/Custom/Lending-Splitter/JSON-Labeled
Imposta
Etichetta documento su Nessuna.Imposta il menu a discesa
Suddivisione set di dati su Suddivisione automatica.Seleziona
Importa .
Al termine dell'importazione, vedrai i documenti nella scheda Addestra.
Addestra il processore
Ora che hai importato i dati di addestramento e test, puoi addestrare il processore. Poiché l'addestramento potrebbe richiedere diverse ore, assicurati di aver configurato il processore con i dati e le etichette appropriati prima di iniziare l'addestramento.
Seleziona
Addestra nuova versione .Nel campo
Nome versione , inserisci un nome per la versione del processore, ad esempiomy-cds-version-1
.(Facoltativo) Seleziona Visualizza statistiche etichette per visualizzare le informazioni sulle etichette dei documenti. In questo modo puoi stabilire la copertura. Seleziona Chiudi per tornare alla configurazione dell'addestramento.
Seleziona
Inizia addestramento . Puoi controllare lo stato nel riquadro a destra.
Esegui il deployment della versione del processore
Al termine dell'addestramento, vai alla scheda
Gestisci versioni . Puoi visualizzare i dettagli della versione appena addestrata.Seleziona i
tre puntini verticali a destra della versione di cui eseguire il deployment e seleziona Esegui il deployment della versione.Seleziona
Esegui il deployment dalla finestra popup.Il deployment richiede alcuni minuti.
Valuta e testa il processore
Al termine del deployment, vai alla scheda
Valutazione e test .In questa pagina, puoi visualizzare le metriche di valutazione, tra cui il punteggio F1, precisione e richiamo per l'intero documento e le singole etichette. Per ulteriori informazioni sulla valutazione e sulle statistiche, vedi Valuta il processore.
Scarica un documento che non è stato incluso nei precedenti corsi o test in modo da poterlo utilizzare per valutare la versione del processore. Se utilizzi i tuoi dati, dovrai utilizzare un set di documenti separato.
Seleziona
Carica documento di test e seleziona il documento appena scaricato.Viene visualizzata la pagina Analisi Strumento per la divisione personalizzato. L'output sullo schermo mostrerà la qualità della separazione e classificazione del documento.
Al termine, la console dovrebbe avere il seguente aspetto:
Puoi anche eseguire nuovamente la valutazione con un set di test o una versione del processore diversi.
(Facoltativo) Importa i dati con l'etichettatura automatica
Dopo aver implementato una versione addestrata del processore, puoi utilizzare l'etichettatura automatica per risparmiare tempo durante l'importazione di nuovi documenti.
Nella scheda Addestra, seleziona
Importa documenti .Inserisci il seguente percorso in
Percorso di origine . Questa cartella contiene PDF senza etichetta di diversi tipi di documenti.cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-AutoLabel
Imposta
Etichetta documento come Etichetta automaticamente.Imposta il menu a discesa
Suddivisione set di dati su Suddivisione automatica.Nella sezione Etichettatura automatica, imposta come
Versione quella addestrata in precedenza.- Ad esempio:
2af620b2fd4d1fcf
- Ad esempio:
Seleziona
Importa e attendi l'importazione dei documenti.Non puoi utilizzare i documenti con etichetta automatica per l'addestramento o i test senza contrassegnarli come etichettati. Vai alla sezione
Con etichetta automatica per visualizzare i documenti con etichetta automatica.Seleziona il primo documento per accedere alla console di etichettatura.
Verifica che l'etichetta sia corretta e, in caso contrario, modificala.
Al termine, seleziona
Contrassegna come etichettato .Ripeti la verifica dell'etichetta per ogni documento etichettato automaticamente.
Torna alla pagina Addestra e seleziona Addestra nuova versione per utilizzare i dati per l'addestramento.
Utilizza il processore
Hai creato e addestrato un processore di Strumento per la divisione personalizzato.
Puoi gestire le versioni del processore con addestramento personalizzato come qualsiasi altra versione del processore. Per saperne di più, consulta Gestione delle versioni del processore.
Dopo il deployment, puoi inviare una richiesta di elaborazione al processore personalizzato e la risposta può essere gestita come gli altri processori separatori.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
Per evitare addebiti non necessari per Google Cloud , utilizza la console Google Cloud per eliminare il processore e il progetto se non ti servono.
Se hai creato un nuovo progetto per prendere dimestichezza con Document AI, ma non ne hai più bisogno, elimina il progetto.
Se hai utilizzato un progetto Google Cloud esistente, elimina le risorse che hai creato per evitare addebiti sul tuo account:
Nel menu di navigazione della console Google Cloud, seleziona Document AI e I miei processori.
Seleziona
Altre azioni nella stessa riga del processore da eliminare.Seleziona Elimina processore, digita il nome del processore e seleziona di nuovo Elimina per confermare.