Meccanismi di estrattore personalizzato

Puoi creare estrattori personalizzati specifici per i tuoi documenti, addestrati e valutati in base ai tuoi dati. Questo processore identifica ed estrae le entità dai tuoi documenti. Quindi puoi utilizzare questo processore addestrato su documenti aggiuntivi.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

Crea un processore

  1. Nella sezione Document AI della console Google Cloud, vai alla pagina Workbench.

    Workbench

  2. Per l'estrattore personalizzato, seleziona Crea processore.

    updated-cde-2.0-path-to-docai-1

  3. Nel menu Crea processore, inserisci un nome per il processore, ad esempio my-custom-document-extractor.

    updated-cde-2.0-path-to-docai-2

  4. Seleziona la regione più vicina a te.

  5. (Facoltativo) Apri Opzioni avanzate.

  6. Seleziona Crea per creare il tuo processore.

Definisci i campi del processore

Ora ti trovi nella pagina Panoramica del processore per il processore che hai appena creato.

updated-cde-2.0-path-to-docai-3

Puoi specificare i campi in cui il processore deve estrarre i documenti e iniziare a etichettarli.

  1. Seleziona la scheda Inizia. Viene visualizzato il menu Campi.

  2. Seleziona Crea nuovo campo.

  3. Inserisci il nome del campo. Seleziona il Tipo di dati e Occorrenza. Assegna all'etichetta una descrizione distinta e dettagliata. La descrizione della proprietà consente di fornire contesto aggiuntivo, approfondimenti e conoscenze precedenti per ogni entità al fine di migliorare l'accuratezza e il rendimento dell'estrazione.

updated-cde-2.0-path-to-docai-9
  1. Seleziona Crea. Consulta Definisci lo schema del processore per istruzioni dettagliate su come creare e modificare uno schema.
  1. Crea ognuna delle seguenti etichette per lo schema del processore.

    Nome Tipo di dati Occorrenza
    control_number Numero Multiplo facoltativo
    employees_social_security_number Numero Multipla obbligatoria
    employer_identification_number Numero Multipla obbligatoria
    employers_name_address_and_zip_code Indirizzo Multipla obbligatoria
    federal_income_tax_withheld Denaro Multipla obbligatoria
    social_security_tax_withheld Denaro Multipla obbligatoria
    social_security_wages Denaro Multipla obbligatoria
    wages_tips_other_compensation Denaro Multipla obbligatoria

    Puoi anche creare e utilizzare altri tipi di etichette nello schema del processore, ad esempio caselle di controllo ed entità tabulari. Ad esempio, i moduli W-2 contengono le caselle di controllo Dipendente statutario, Piano pensionistico e Indennità di malattia di terze parti che puoi aggiungere a lo schema.

    updated-cde-2.0-path-to-docai-4

Carica un documento di esempio

Esegui il test con un documento di esempio.

  1. Seleziona Carica documento di esempio.

  2. Nella barra laterale, seleziona Importa documenti da Cloud Storage.

  3. Per questo esempio, inserisci il nome di questo bucket in Percorso di origine. Questo link rimanda direttamente a un documento.

    cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
    
  4. Seleziona Importa.

Viene visualizzata la console di etichettatura.

Etichetta un documento

Il processo di selezione del testo in un documento e applicazione di etichette è noto come annotazione o etichettatura.

  1. Nella console di etichettatura, puoi notare che molte etichette sono già compilate. Questo perché il tipo di modello di estrattore personalizzato predefinito è un modello di base, in grado di eseguire previsioni zero-shot, ovvero senza addestramento.

    updated-cde-2.0-path-to-docai-5

  2. Per utilizzare le etichette suggerite, tieni il puntatore del mouse su ogni etichetta nel riquadro laterale e seleziona il segno di spunta per confermare che l'etichetta sia corretta. Non modificare il testo, anche se il riconoscimento ottico dei caratteri lo legge in modo errato.

  3. In questo esempio, i valori in fondo al documento non sono stati identificati automaticamente, quindi occorre etichettarli manualmente.

  4. Utilizza le icone nella barra degli strumenti sopra il documento da etichettare. Usa lo strumento predefinito Riquadro di delimitazione, oppure lo strumento Seleziona testo per i valori su più righe, per selezionare i contenuti e applicare l'etichetta.

  5. Una volta selezionato il testo, viene visualizzato un menu a discesa con tutti i campi definiti (entità) per selezionarne una. In questo esempio, è stato selezionato il valore wages_tips_other_compensation con lo strumento riquadro di delimitazione, quindi viene applicata questa etichetta.

    updated-cde-2.0-path-to-docai-6

  6. Rivedi i valori di testo rilevati per assicurarti che riflettano la posizione corretta del testo per ogni campo. Al termine, il documento W2 con etichetta avrà l'aspetto seguente:

    updated-cde-2.0-path-to-docai-7

  7. Se necessario, puoi selezionare Crea nuovo campo per aggiungere un nuovo campo allo schema da questa pagina.

  8. Seleziona Contrassegna come etichettato quando hai finito di annotare il documento. Viene visualizzata la scheda Per iniziare.

Crea la versione del processore utilizzando il foundation model

Dopo aver etichettato un singolo documento, puoi creare una versione del processore utilizzando il foundation model preaddestrato per estrarre le entità.

  1. Seleziona la scheda Crea.

    updated-cde-2.0-path-to-docai-8

  2. In Foundation model di chiamata, seleziona Crea nuova versione.

  3. Inserisci un nome per la versione del processore, ad esempio w2-foundation-model.

  4. Seleziona Crea versione. La creazione richiede qualche minuto.

  5. (Facoltativo) Seleziona la scheda Deployment e utilizzo. In questa pagina puoi visualizzare le versioni disponibili del processore e lo stato del deployment della nuova versione.

Utilizza l'IA generativa per etichettare automaticamente i documenti

Il foundation model è in grado di estrarre con precisione i campi per vari tipi di documenti, ma puoi anche fornire dati di addestramento aggiuntivi per migliorare l'accuratezza del modello per strutture di documenti specifiche.

L'estrattore personalizzato utilizza i nomi delle etichette che definisci e le annotazioni precedenti per rendere più rapida e semplice l'etichettatura dei documenti su larga scala grazie all'etichettatura automatica.

  1. Vai alla pagina Crea.

  2. Seleziona Importa documenti.

  3. Nella barra laterale, seleziona Importa documenti da Google Cloud Storage.

  4. Inserisci il nome del bucket contenente i tuoi documenti.

  5. Dall'elenco Suddivisione dati, seleziona Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test.

  6. Nella sezione Etichettatura automatica, seleziona la casella di controllo Importa con etichettatura automatica.

  7. Seleziona la versione del processore del foundation model per etichettare i documenti.

  8. Seleziona Importa e attendi l'importazione dei documenti. Puoi chiudere questa pagina e tornare più tardi.

  9. Devi verificare i documenti etichettati automaticamente prima di poterli utilizzare per l'addestramento o i test. Seleziona Inizia a creare etichette per visualizzare i documenti etichettati automaticamente.

  10. Per utilizzare le etichette suggerite, tieni il puntatore del mouse su ogni annotazione e seleziona il segno di spunta per confermare che l'etichetta sia corretta. Ai fini dell'addestramento, non modificare i valori se non corrispondono al testo del documento. Modifica il riquadro di delimitazione solo se è stato selezionato il testo sbagliato.

  11. Seleziona Contrassegna come etichettato quando hai finito di annotare il documento.

  12. Ripeti l'operazione per ogni documento etichettato automaticamente.

Importa documenti di addestramento preetichettati

  1. Vai alla pagina Crea.

  2. Seleziona Importa documenti.

  3. Nella barra laterale, seleziona Importa documenti da Cloud Storage.

  4. Inserisci il tuo percorso nel Percorso di origine contenente i tuoi documenti. Questo bucket deve contenere documenti preetichettati nel formato Documento JSON.

  5. Dall'elenco Suddivisione dati, seleziona Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test. Lascia deselezionata l'opzione Importa con etichettatura automatica.

  6. Seleziona Importa. L'importazione richiede diversi minuti.

(Facoltativo) Visualizza e gestisci il set di dati

  1. Dalla pagina Crea puoi accedere alla console Gestisci set di dati per visualizzare e modificare tutti i documenti e le etichette nel set di dati.

Addestra processore basato su modello personalizzato

L'addestramento potrebbe richiedere diverse ore, assicurati di aver configurato il processore con i dati e le etichette appropriati prima di iniziare l'addestramento.

  1. Per informazioni sui requisiti del set di dati, in Addestra un modello personalizzato, seleziona Crea nuova versione o Visualizza i requisiti completi. Questo non è un modello di AI generativa. Per un processore basato su modello personalizzato sono necessarie almeno 10 istanze di addestramento e 10 istanze di test per ciascun campo.

  2. Nel campo Nome versione, inserisci un nome per la versione del processore, ad esempio w2-custom-model.

  3. (Facoltativo) Seleziona Visualizza statistiche etichette per visualizzare le informazioni sulle etichette dei documenti. In questo modo puoi stabilire la copertura. Seleziona Chiudi per tornare alla configurazione dell'addestramento.

  4. In Metodo di addestramento del modello, seleziona Basato su modello.

  5. Seleziona Inizia addestramento. L'addestramento richiede alcune ore. Puoi abbandonare questa pagina e tornare più tardi.

  6. (Facoltativo) Seleziona la scheda Deployment e utilizzo. In questa pagina puoi visualizzare le versioni disponibili del processore e lo stato di addestramento della nuova versione.

Esegui il deployment della versione del processore

  1. Al termine dell'addestramento, seleziona la scheda Deployment e utilizzo.

  2. Seleziona la casella di controllo a sinistra della versione di cui vuoi eseguire il deployment e seleziona Esegui il deployment.

  3. Seleziona Esegui il deployment nella finestra di dialogo. Il deployment richiede alcuni minuti.

  4. Una volta completato il deployment della versione, puoi impostarla come versione predefinita oppure fornire l'ID versione durante l'elaborazione dei documenti con l'API.

Valuta e testa il processore

  1. Seleziona la scheda Valuta per testare la versione del processore. In questa pagina, puoi visualizzare le metriche di valutazione, tra cui il punteggio F1, precisione e richiamo per l'intero documento e le singole etichette. Per ulteriori informazioni sulla valutazione e sulle statistiche, vedi Valuta il processore.

  2. Seleziona il selettore Versione e seleziona la versione che utilizza il foundation model.

  3. Scarica un documento che non è stato incluso nei precedenti corsi o test in modo da poterlo utilizzare per valutare la versione del processore. Se utilizzi i tuoi dati, dovrai utilizzare un set di documenti separato.

    Scarica il PDF

  4. Seleziona Carica documento di test e seleziona il documento appena scaricato. Si apre la pagina Analisi dell'estrattore di documenti personalizzato. L'output sullo schermo mostra l'efficacia dell'estrazione del documento.

  5. Testa di nuovo il documento utilizzando la versione utilizzando un modello con addestramento personalizzato.

Utilizza il processore

Hai creato e addestrato un processore di estrattore di documenti personalizzato.

Puoi gestire le versioni del processore con addestramento personalizzato come qualsiasi altra versione del processore. Per saperne di più, consulta Gestione delle versioni del processore.

Per utilizzare l'API Document AI:

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Per evitare addebiti non necessari per Google Cloud , utilizza la console Google Cloud per eliminare il processore e il progetto se non ti servono.

Se hai creato un nuovo progetto per prendere dimestichezza con Document AI, ma non ne hai più bisogno, elimina il progetto.

Se hai utilizzato un progetto Google Cloud esistente, elimina le risorse che hai creato per evitare addebiti sul tuo account:

  1. Nel menu di navigazione della console Google Cloud, seleziona Document AI e I miei processori.

  2. Seleziona Altre azioni nella stessa riga del processore da eliminare.

  3. Seleziona Elimina processore, inserisci il nome del processore, quindi seleziona di nuovo Elimina per confermare.

Passaggi successivi

Per maggiori dettagli, vedi Guide.