Strumento per la divisione personalizzato

Lo Strumento per la divisione personalizzato è progettato per essere utilizzato per suddividere i documenti composti (documenti composti da più classi) in una serie di documenti di classe singola identificando ogni documento logico. Ad esempio, un pacchetto mutui contiene più classi come richiesta, verifica del reddito e documento di identità con fotografia. Per poter essere utilizzati, i processori di Strumenti per la divisione personalizzati vengono addestrati da zero utilizzando i tuoi documenti e le tue classi personalizzate.

Descrizione e utilizzo dello Strumento per la divisione

Puoi creare Strumenti per la divisione personalizzati, specificamente adatti ai tuoi documenti, addestrati e valutati con i tuoi dati. Questo processore identifica le classi di documenti in un insieme di classi definito dall'utente. Quindi puoi utilizzare questo processore addestrato su documenti di produzione. In genere, utilizzerai uno strumento per la divisione personalizzato per i file composti da diversi tipi di documenti logici e poi userai l'identificazione della classe di ognuno per passare i documenti a un processore di estrazione appropriato per estrarre le entità.

Poiché i modelli ML non sono perfetti e presentano una determinata percentuale di errori, e dato che gli errori di suddivisione sono in genere molto problematici (una suddivisione errata causa due documenti errati e causa errori di estrazione), una best practice è avere sempre un passaggio di revisione da parte di persone fisiche dopo la previsione di suddivisione, ma prima della suddivisione effettiva del file. In base ai requisiti aziendali, esistono alternative alla revisione che avviene sempre da parte di persone fisiche:

  • Utilizza i punteggi di affidabilità nella previsione per decidere se ignorare la revisione umana (se sufficientemente elevati). La soglia del punteggio di confidenza deve essere determinata in base ai dati storici relativi ai tassi di errore in determinati punteggi di confidenza. Deve trattarsi di una decisione aziendale basata sulla tolleranza del processo aziendale per gli errori e il requisito di evitare la revisione umana.
  • In alcuni casi d'uso, i documenti suddivisi possono essere indirizzati direttamente all'estrazione appropriata in base alla classe prevista. Quindi, se l'estrazione è incompleta o ha punteggi di affidabilità bassi, isola i documenti suddivisi e attiva la revisione per il documento composito originale e la decisione di suddivisione. Prevede requisiti di flusso di lavoro piuttosto complessi.

Crea uno Strumento per la divisione personalizzato nella console Google Cloud

Questa guida rapida descrive come utilizzare Document AI per creare e addestrare uno Strumento per la divisione personalizzato che suddivide e classifica i documenti di approvvigionamento. Viene meseguita la maggior parte delle preparazioni dei documenti, in modo che tu possa concentrarti sulla creazione di uno Strumento per la divisione personalizzato.

Di seguito è riportato un flusso di lavoro tipico per creare e utilizzare uno Strumento per la divisione personalizzato:

  1. Crea uno Strumento per la divisione personalizzato in Document AI.
  2. Crea un set di dati utilizzando un bucket Cloud Storage vuoto.
  3. Definisci e crea lo schema del processore (classi).
  4. Importa i documenti.
  5. Assegna i documenti ai set di addestramento e test.
  6. Annota manualmente i documenti in Document AI o con attività di etichettatura.
  7. Addestra il processore.
  8. Valuta il processore.
  9. Esegui il deployment del processore.
  10. Testa il processore.
  11. Utilizza il processore sui documenti.

Se i documenti si trovano in cartelle separate per classe, puoi saltare il passaggio 6 specificando la classe al momento dell'importazione.


Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Procedura guidata:

Procedura guidata


Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

Crea un processore

  1. Nella sezione Document AI della console Google Cloud, vai alla pagina Workbench.

    Workbench

  2. In Strumento per la divisione di documenti personalizzato, seleziona Crea processore. custom-splitter-1

  3. Nel menu Crea processore, inserisci un nome per il processore, ad esempio my-custom-document-splitter.

    custom-splitter-2

  4. Seleziona la regione più vicina a te.

  5. Seleziona Crea. Viene visualizzata la scheda Dettagli del processore.

Configura set di dati

Per addestrare questo nuovo processore, devi creare un set di dati con dati di addestramento e test per aiutare il processore a identificare i documenti che vuoi separare e classificare.

Questo set di dati richiede una nuova posizione. Può essere un bucket Cloud Storage vuoto o una cartella vuota oppure consentire una località gestita da Google (interna).

  • Se vuoi uno spazio di archiviazione gestito da Google, seleziona questa opzione.
  • Se vuoi utilizzare il tuo spazio di archiviazione per usare chiavi di crittografia gestite dal cliente (CMEK, Customer-Managed Encryption Keys), seleziona Specificherò personalmente la località di archiviazione e segui la procedura successiva.

custom-splitter-3

Crea un bucket Cloud Storage per il set di dati

  1. Vai alla scheda Addestramento del tuo processore.

  2. Seleziona Imposta località del set di dati. Ti verrà chiesto di selezionare o creare una cartella o un bucket Cloud Storage vuoto.

    custom-splitter-4

  3. Seleziona Sfoglia per aprire Seleziona cartella.

  4. Fai clic sull'icona Crea nuovo bucket e segui i comandi per creare un nuovo bucket. Dopo aver creato il bucket, viene visualizzata la pagina Seleziona cartella. Per ulteriori informazioni sulla creazione di un bucket Cloud Storage, consulta Bucket Cloud Storage.

  5. Nella pagina Seleziona cartella per il tuo bucket, scegli il pulsante Seleziona nella parte inferiore della finestra di dialogo.

    custom-splitter-5

Assicurati che il percorso di destinazione sia completato con il nome del bucket che hai selezionato. Seleziona Crea set di dati. La creazione del set di dati potrebbe richiedere diversi minuti.

Definisci lo schema del processore

Puoi creare lo schema del processore sia prima che dopo aver importato i documenti nel set di dati. Lo schema fornisce etichette che utilizzerai per annotare i documenti.

  1. Nella scheda Addestramento, seleziona Modifica schema in basso a sinistra. Viene visualizzata la pagina Gestisci etichette.

  2. Seleziona Crea etichetta.

  3. Inserisci il nome dell'etichetta. Seleziona Crea. Consulta Definisci lo schema del processore per istruzioni dettagliate su come creare e modificare uno schema.

  4. Crea ognuna delle seguenti etichette per lo schema del processore.

    • bank_statement
    • form_1040
    • form_w2
    • form_w9
    • paystub
  5. Seleziona Salva quando le etichette sono complete.

    custom-splitter-6

Importa un documento senza etichetta in un set di dati

Il passaggio successivo prevede di iniziare a importare documenti non etichettati nel set di dati ed etichettarle. Un'alternativa consigliata è importare i documenti organizzati in cartelle per classe, se disponibili.

Se lavori al tuo progetto, devi decidere come etichettare i tuoi dati. Consulta Opzioni di etichettatura.

I processori Document AI personalizzati richiedono un minimo di 10 documenti sia nel set di addestramento che in quello di test, oltre a 10 istanze di ogni etichetta in ciascun set. Per ottenere prestazioni ottimali, ti consigliamo di avere almeno 50 documenti in ciascun set, con 50 istanze di ogni etichetta. In generale, una maggiore quantità di dati di addestramento produce una maggiore accuratezza.

  1. Nella scheda Addestra, seleziona Importa documenti.

    custom-splitter-7

  2. Per questo esempio, inserisci il percorso seguente in Percorso di origine. Contiene un documento PDF.

    cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-Unlabeled
    
  3. Imposta Etichetta documento su Nessuna.

  4. Imposta il menu a discesa Suddivisione set di dati su Non assegnato.

    Il documento in questa cartella non viene etichettato né viene assegnato al set di test o addestramento per impostazione predefinita.

  5. Seleziona Importa. Document AI legge i documenti del bucket nel set di dati. Non modifica il bucket di importazione né legge il bucket dopo che l'importazione è stata completata.

Quando importi documenti, puoi facoltativamente assegnarli al set Addestramento o Test al momento dell'importazione oppure farlo in un secondo momento.

Se vuoi eliminare uno o più documenti importati, selezionali nella scheda Addestra e seleziona Elimina.

Per saperne di più sulla preparazione dei dati per l'importazione, consulta la guida alla preparazione dei dati.

Facoltativo: etichettatura batch dei documenti al momento dell'importazione

Puoi etichettare tutti i documenti che si trovano in una determinata directory al momento dell'importazione per risparmiare tempo con l'etichettatura. Se i documenti di addestramento sono organizzati per classe in cartelle, puoi utilizzare il campo Etichetta documento per specificare la classe di questi documenti ed evitare di etichettare manualmente ogni documento.

custom-splitter-8

Nell'immagine Bank_statements e Fattura sono disponibili etichette definite (classi di documenti) che puoi selezionare. In alternativa, puoi utilizzare CREATE LABEL e definire una nuova classe.

  1. Fai clic su Importa documenti.
  2. Inserisci il seguente percorso in Percorso di origine. Questo bucket contiene documenti senza etichetta in formato PDF.

    cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel

  3. Dall'elenco Suddivisione dati, seleziona Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test.

  4. Nella sezione Applica le etichette, seleziona Scegli un'etichetta.

  5. Per questi documenti di esempio, seleziona Altro.

  6. Fai clic su Importa e attendi l'importazione dei documenti. Puoi chiudere questa pagina e tornare più tardi.

Etichetta un documento

La procedura per applicare etichette a un documento è chiamata annotazione.

  1. Torna alla scheda Addestra e seleziona un documento per aprire la console Gestione etichette.

  2. Questo documento contiene più gruppi di pagine che devono essere identificati ed etichettati. Innanzitutto, devi identificare i punti di suddivisione. Muovi il mouse tra le pagine 1 e 2 nella visualizzazione immagine e seleziona il simbolo +.

    custom-splitter-9

  3. Crea punti di suddivisione prima dei seguenti numeri di pagina: 2, 3, 4, 5.

    Al termine, la console dovrebbe avere questo aspetto. custom-splitter-10

  4. Nel menu a discesa Tipo di documento, seleziona l'etichetta appropriata per ogni gruppo di pagine.

    Pagine Tipo di documento
    1 paystub
    2 form_w9
    3 bank_statement
    4 form_w2
    5 e 6 form_1040

    Al termine, il documento con etichetta avrà il seguente aspetto: custom-splitter-11

  5. Seleziona Contrassegna come etichettato quando hai finito di annotare il documento.

    Nella scheda Addestra, il riquadro a sinistra mostra che un documento è stato etichettato.

Assegna il documento annotato al set di addestramento

Ora che hai etichettato questo documento di esempio, puoi assegnarlo al set di addestramento.

  1. Nella scheda Addestra, seleziona la casella di controllo Seleziona tutto.

  2. Dall'elenco a discesa Assegna al set, seleziona Addestramento.

Il riquadro a sinistra mostra che un documento è stato assegnato al set di addestramento.

Importa i dati con l'etichettatura in batch

Importa i file PDF senza etichetta che sono ordinati in diverse cartelle Cloud Storage per tipo. L'etichettatura in batch consente di risparmiare tempo perché viene assegnata un'etichetta al momento dell'importazione in base al percorso.

  1. Nella scheda Addestra, seleziona Importa documenti.

  2. Inserisci il seguente percorso in Percorso di origine. Questa cartella contiene estratti conto bancari in formato PDF.

    cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/bank-statement
    
  3. Imposta Etichetta documento su bank_statement.

  4. Nel menu di Suddivisione set di dati, imposta l'opzione Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test.

  5. Seleziona Aggiungi un'altra cartella per aggiungere altre cartelle.

  6. Ripeti i passaggi precedenti con i seguenti percorsi e le seguenti etichette dei documenti:

    Percorso del bucket Etichetta documento
    cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/1040 form_1040
    cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w2 form_w2
    cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w9 form_w9
    cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/paystub paystub

    Al termine, la console dovrebbe avere il seguente aspetto: custom-splitter-12

  7. Seleziona Importa. L'importazione richiede diversi minuti.

Al termine dell'importazione, vedrai i documenti nella scheda Addestra.

Importa dati preetichettati

In questa guida vengono forniti dati preetichettati in formato Document come file JSON.

Si tratta dello stesso formato restituito da Document AI durante l'elaborazione di un documento, l'etichettatura con human-in-the-loop o l'esportazione di un set di dati.

  1. Nella scheda Addestra, seleziona Importa documenti.

  2. Inserisci il seguente percorso in Percorso di origine.

    cloud-samples-data/documentai/Custom/Lending-Splitter/JSON-Labeled
    
  3. Imposta Etichetta documento su Nessuna.

  4. Imposta il menu a discesa Suddivisione set di dati su Suddivisione automatica.

  5. Seleziona Importa.

Al termine dell'importazione, vedrai i documenti nella scheda Addestra.

Addestra il processore

Ora che hai importato i dati di addestramento e test, puoi addestrare il processore. Poiché l'addestramento potrebbe richiedere diverse ore, assicurati di aver configurato il processore con i dati e le etichette appropriati prima di iniziare l'addestramento.

  1. Seleziona Addestra nuova versione.

  2. Nel campo Nome versione, inserisci un nome per la versione del processore, ad esempio my-cds-version-1.

  3. (Facoltativo) Seleziona Visualizza statistiche etichette per visualizzare le informazioni sulle etichette dei documenti. In questo modo puoi stabilire la copertura. Seleziona Chiudi per tornare alla configurazione dell'addestramento.

    custom-splitter-13

  4. Seleziona Inizia addestramento. Puoi controllare lo stato nel riquadro a destra.

Esegui il deployment della versione del processore

  1. Al termine dell'addestramento, vai alla scheda Gestisci versioni. Puoi visualizzare i dettagli della versione appena addestrata.

  2. Seleziona i tre puntini verticali a destra della versione di cui eseguire il deployment e seleziona Esegui il deployment della versione.

  3. Seleziona Esegui il deployment dalla finestra popup.

    Il deployment richiede alcuni minuti.

Valuta e testa il processore

  1. Al termine del deployment, vai alla scheda Valutazione e test.

    In questa pagina, puoi visualizzare le metriche di valutazione, tra cui il punteggio F1, precisione e richiamo per l'intero documento e le singole etichette. Per ulteriori informazioni sulla valutazione e sulle statistiche, vedi Valuta il processore.

  2. Scarica un documento che non è stato incluso nei precedenti corsi o test in modo da poterlo utilizzare per valutare la versione del processore. Se utilizzi i tuoi dati, dovrai utilizzare un set di documenti separato.

    Scarica il PDF

  3. Seleziona Carica documento di test e seleziona il documento appena scaricato.

    Viene visualizzata la pagina Analisi Strumento per la divisione personalizzato. L'output sullo schermo mostrerà la qualità della separazione e classificazione del documento.

    Al termine, la console dovrebbe avere il seguente aspetto: custom-splitter-14

    Puoi anche eseguire nuovamente la valutazione con un set di test o una versione del processore diversi.

(Facoltativo) Importa i dati con l'etichettatura automatica

Dopo aver implementato una versione addestrata del processore, puoi utilizzare l'etichettatura automatica per risparmiare tempo durante l'importazione di nuovi documenti.

  1. Nella scheda Addestra, seleziona Importa documenti.

  2. Inserisci il seguente percorso in Percorso di origine. Questa cartella contiene PDF senza etichetta di diversi tipi di documenti.

    cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-AutoLabel
    
  3. Imposta Etichetta documento come Etichetta automaticamente.

  4. Imposta il menu a discesa Suddivisione set di dati su Suddivisione automatica.

  5. Nella sezione Etichettatura automatica, imposta come Versione quella addestrata in precedenza.

    • Ad esempio: 2af620b2fd4d1fcf
  6. Seleziona Importa e attendi l'importazione dei documenti.

  7. Non puoi utilizzare i documenti con etichetta automatica per l'addestramento o i test senza contrassegnarli come etichettati. Vai alla sezione Con etichetta automatica per visualizzare i documenti con etichetta automatica.

  8. Seleziona il primo documento per accedere alla console di etichettatura.

  9. Verifica che l'etichetta sia corretta e, in caso contrario, modificala.

  10. Al termine, seleziona Contrassegna come etichettato.

  11. Ripeti la verifica dell'etichetta per ogni documento etichettato automaticamente.

  12. Torna alla pagina Addestra e seleziona Addestra nuova versione per utilizzare i dati per l'addestramento.

Utilizza il processore

Hai creato e addestrato un processore di Strumento per la divisione personalizzato.

Puoi gestire le versioni del processore con addestramento personalizzato come qualsiasi altra versione del processore. Per saperne di più, consulta Gestione delle versioni del processore.

Dopo il deployment, puoi inviare una richiesta di elaborazione al processore personalizzato e la risposta può essere gestita come gli altri processori separatori.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Per evitare addebiti non necessari per Google Cloud , utilizza la console Google Cloud per eliminare il processore e il progetto se non ti servono.

Se hai creato un nuovo progetto per prendere dimestichezza con Document AI, ma non ne hai più bisogno, elimina il progetto.

Se hai utilizzato un progetto Google Cloud esistente, elimina le risorse che hai creato per evitare addebiti sul tuo account:

  1. Nel menu di navigazione della console Google Cloud, seleziona Document AI e I miei processori.

  2. Seleziona Altre azioni nella stessa riga del processore da eliminare.

  3. Seleziona Elimina processore, digita il nome del processore e seleziona di nuovo Elimina per confermare.

Passaggi successivi