Addestrare un processore preaddestrato

Utilizzando il Parser delle fatture, puoi eseguire l'uptraining di un processore preaddestrato per migliorarne l'accuratezza. Inizi con un modello predefinito, quindi lo addestri con i tuoi dati, aggiungendo campi personalizzati. I formati delle fatture sono diversi e l'uptraining di un parser delle fatture generico con i tuoi dati può migliorare l'accuratezza di formati specifici e consentire al parser di estrarre i campi non supportati dal modello preaddestrato. Vengono forniti dati di esempio, ma puoi seguire le stesse procedure utilizzando i tuoi dati.


Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Procedura guidata:

Procedura guidata


Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

Crea un processore

  1. Nel menu di navigazione della console Google Cloud, seleziona Document AI e seleziona Galleria processori.

    Galleria processori

  2. Nella Galleria processori, cerca Analizzatore sintattico delle fatture e seleziona Crea.

    uptrain-a-legacy-processor-1

  3. Inserisci il Nome processore, ad esempio invoice-parser-for-uptraining.

  4. Seleziona la regione più vicina a te.

  5. Seleziona Crea. Viene visualizzata la scheda Dettagli del processore.

    uptrain-a-legacy-processor-2

Crea un bucket Cloud Storage per il set di dati

Per addestrare questo nuovo processore, devi creare un set di dati con dati di addestramento e test per aiutare il processore a identificare le entità che vuoi estrarre.

Questo set di dati richiede un nuovo bucket Cloud Storage. Non utilizzare lo stesso bucket in cui sono archiviati i documenti.

  1. Vai alla scheda Addestramento del tuo processore.

  2. Seleziona Imposta località del set di dati. Ti verrà chiesto di selezionare o creare una cartella o un bucket Cloud Storage vuoto.

    uptrain-a-legacy-processor-3

  3. Seleziona Sfoglia per aprire Seleziona cartella.

  4. Seleziona Crea un nuovo bucket e segui i prompt per creare un nuovo bucket. Per ulteriori informazioni sulla creazione di un bucket Cloud Storage, consulta Bucket Cloud Storage.

    Nota: un bucket è l'entità di archiviazione di primo livello in cui puoi nidificare le cartelle. Anziché creare e selezionare un bucket, puoi anche creare e selezionare una cartella vuota all'interno di un bucket esistente, se preferisci. Fai riferimento alla sezione sulle cartelle simulate.

    Dopo aver creato il bucket, viene visualizzata la pagina Seleziona cartella.

  5. Nella pagina Seleziona cartella per il tuo bucket, seleziona Seleziona nella parte inferiore della finestra di dialogo.

    uptrain-a-legacy-processor-4

  6. Assicurati che il percorso di destinazione sia completato con il nome del bucket che hai selezionato. Seleziona Crea set di dati. La creazione del set di dati potrebbe richiedere diversi minuti.

    uptrain-a-legacy-processor-5

  • Vai direttamente all'addestramento avanzato: vai a Importare i dati preetichettati. Anziché importare un documento di esempio, utilizza gli strumenti per etichettare manualmente i campi e aggiungi il documento ai dati di addestramento.

  • Etichetta e aggiungi manualmente i documenti al set di addestramento: prima di procedere con l'addestramento avanzato, vai a Importa un documento di esempio per l'etichettatura manuale e segui le istruzioni riportate.

Importa un documento di esempio per l'etichettatura manuale

Successivamente, importa un file PDF di fattura di esempio nel tuo set di dati. Puoi etichettare i campi in questo documento per facilitare il successivo processo di uptraining.

In questa guida, ti viene fornito un file rappresentativo che funge da documento di esempio.

  1. Nella scheda Addestra, seleziona Importa documenti.

    uptrain-a-legacy-processor-6

  2. Per questo esempio, inserisci il nome di questo bucket in Percorso di origine. Questo link rimanda direttamente a un documento.

    cloud-samples-data/documentai/codelabs/uptraining/pdfs
    
  3. Per Suddivisione dati, seleziona Non assegnato. Il documento in questa cartella non è assegnato al set di test o di addestramento. Lascia deselezionata l'opzione Importa con etichettatura automatica.

  4. Seleziona Importa. Document AI legge i documenti del bucket nel set di dati. Non modifica il bucket di importazione né legge il bucket dopo che l'importazione è stata completata.

Quando importi documenti, puoi facoltativamente assegnarli al set Addestramento o Test al momento dell'importazione oppure farlo in un secondo momento.

Se vuoi eliminare uno o più documenti importati, selezionali nella scheda Addestra e seleziona Elimina.

Per saperne di più sulla preparazione dei dati per l'importazione, consulta la guida alla preparazione dei dati.

Definisci lo schema del processore

Il tuo set di dati potrebbe non contenere tutte le etichette supportate dall'analizzatore sintattico delle fatture. In questo caso, devi contrassegnare le etichette che non vengono utilizzate come Inactive prima di iniziare l'addestramento. Puoi anche aggiungere una o più etichette personalizzate prima di iniziare l'uptraining.

  1. Nella scheda Addestramento, seleziona Modifica schema in basso a sinistra. Viene visualizzata la pagina Gestisci etichette.

  2. Per disattivare le etichette inutilizzate, seleziona le caselle di controllo per i campi che non sono presenti nell'elenco seguente, quindi seleziona Disattiva. I seguenti campi devono rimanere attivi:

    invoice_date
    line_item
      amount
      description
    receiver_address
    receiver_name
    supplier_address
    supplier_name
    total_amount
    

    Nota: le etichette non possono essere eliminate. Puoi invece disattivare le etichette che non vuoi utilizzare.

  3. Seleziona Salva quando le etichette sono complete.

    uptrain-a-legacy-processor-7

  4. Seleziona Freccia indietro per tornare alla pagina Addestra.

Etichetta un documento

Il processo di selezione del testo in un documento e di applicazione delle etichette è noto come annotazione.

  1. Torna alla scheda Addestra e seleziona un documento per aprire la console Gestione etichette.

  2. Poi seleziona l'etichetta dello schema nel riquadro a sinistra corrispondente al valore a cui vuoi aggiungere un'annotazione e applica l'etichetta.

  3. Usa lo strumento predefinito Riquadro di delimitazione, oppure lo strumento Seleziona testo per i valori su più righe, per selezionare i contenuti e applicare l'etichetta.

    Ad esempio, al testo "McWilliam Piping International Piping Company" dovrebbe essere assegnata l'etichetta supplier_name. Puoi utilizzare il filtro di testo per cercare i nomi delle etichette.

    Nota: lo strumento Seleziona testo non funziona per tutti i valori di testo, quindi utilizza lo strumento Riquadro di delimitazione, se necessario. Puoi anche selezionare campi non di testo, come le caselle di controllo, con lo strumento Riquadro di delimitazione.

  4. Rivedi i valori di testo rilevati per assicurarti che riflettano il testo corretto presente nel documento.

    • Quando selezioni un testo che corrisponde a un'etichetta, assicurati di includere solo il testo pertinente. Ad esempio, per un'etichetta invoice_id, non includere caratteri come # che spesso precedono il valore numerico. Non includere simboli di valuta come $ per il denaro.

      • Assicurati di annotare tutte le istanze di un'entità. Ad esempio, supplier_name o invoice_id potrebbero essere presenti più volte nel documento e ogni istanza deve essere annotata.
  5. Ripeti l'operazione per ogni campo a cui vuoi aggiungere un'etichetta.

Di seguito è riportato un esempio di tutte le etichette e il testo corrispondente.

Nome etichetta Testo
supplier_name McWilliam Piping International Piping Company
supplier_address 14368 Pipeline Ave Chino, CA 91710, Stati Uniti
invoice_id 10001
due_date 2020-01-02
line_item/description Giunti a snodo
line_item/quantity 9
line_item/unit_price 74,43
line_item/amount 669,87
line_item/description Tubo in PVC da 12"
line_item/quantity 7
line_item/unit_price 15,90
line_item/amount 111,30
line_item/description Tubo di rame
line_item/quantity 7
line_item/unit_price 91,20
line_item/amount 638,40
net_amount 1.419,57
total_tax_amount 113,57
total_amount 1.533,14
currency $
  1. Seleziona Contrassegna come etichettato quando hai finito di annotare il documento.

    Nella scheda Addestra, il riquadro a sinistra mostra che un documento è stato etichettato.

Assegna il documento annotato al set di addestramento

Ora che hai etichettato questo documento di esempio, puoi assegnarlo al set di addestramento.

  1. Nella scheda Addestra, seleziona la casella di controllo Seleziona tutto.

  2. Dall'elenco a discesa Assegna al set, seleziona Addestramento.

Il riquadro a sinistra mostra che un documento è stato assegnato al set di addestramento.

Importa dati pre-etichettati nei set di addestramento e test

L'ottimizzazione dell'addestramento di Document AI richiede un minimo di 10 documenti sia nel set di addestramento che nel set di test, insieme a 10 istanze di ogni etichetta in ogni set.

Per ottenere prestazioni ottimali, ti consigliamo di avere almeno 50 documenti in ciascun set, con 50 istanze di ogni etichetta. Una maggiore quantità di dati di addestramento corrisponde in genere a una maggiore accuratezza.

In questa guida vengono forniti dati pre-etichettati. Se lavori al tuo progetto, dovrai decidere come etichettare i tuoi dati. Consulta Opzioni di etichettatura.

  1. Seleziona Importa documenti.

  2. Inserisci il seguente percorso in Percorso di origine. Questo bucket contiene documenti pre-etichettati nel formato Documento JSON.

    cloud-samples-data/documentai/Custom/Invoices/JSON
    
  3. Dall'elenco Suddivisione dati, seleziona Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test. Lascia deselezionata l'opzione Importa con etichettatura automatica.

  4. Seleziona Importa. L'importazione potrebbe richiedere alcuni minuti. Successivamente, vedrai i documenti nella scheda Addestramento.

Facoltativo: etichettatura automatica dei documenti appena importati

Quando importi documenti non etichettati per un processore con una versione del processore di cui è già stato eseguito il deployment, puoi utilizzare l'etichettatura automatica per risparmiare tempo.

  1. Nella pagina Addestra, seleziona Importa documenti.

  2. Copia e incolla il seguente percorso di Cloud Storage. Questa directory contiene cinque PDF di fatture senza etichetta. Nell'elenco a discesa Suddivisione dati, seleziona Addestramento.

    cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
    
  3. Nella sezione Etichettatura automatica, seleziona la casella di controllo Importa con etichettatura automatica.

  4. Seleziona una versione di processore esistente per etichettare i documenti.

    • Ad esempio: pretrained-invoice-v1.3-2022-07-15
  5. Seleziona Importa e attendi l'importazione dei documenti. Puoi uscire da questa pagina e tornare più tardi.

    • Al termine, i documenti verranno visualizzati nella pagina Addestra nella sezione Con etichetta automatica.
  6. Non puoi utilizzare i documenti con etichetta automatica per l'addestramento o i test senza contrassegnarli come etichettati. Vai alla sezione Con etichetta automatica per visualizzare i documenti con etichetta automatica.

  7. Seleziona il primo documento per accedere alla console di etichettatura.

  8. Verifica che l'etichetta sia corretta. In caso contrario, correggila.

  9. Al termine, seleziona Contrassegna come etichettato.

  10. Ripeti la verifica delle etichette per ogni documento con etichetta automatica, quindi torna alla pagina Addestra per utilizzare i dati per l'addestramento.

Addestra il processore

Ora che hai importato i dati di addestramento e test, puoi addestrare il processore. Poiché l'addestramento potrebbe richiedere diverse ore, assicurati di aver configurato il processore con i dati e le etichette appropriati prima di iniziare l'addestramento.

  1. Seleziona Esegui l'uptraining di una nuova versione.

  2. Nel campo Nome versione, inserisci un nome per la versione del processore, ad esempio invoice-uptrain-1.

  3. (Facoltativo) Seleziona Visualizza statistiche etichette per visualizzare le informazioni sulle etichette dei documenti. In questo modo puoi stabilire la copertura. Seleziona Chiudi per tornare alla configurazione dell'addestramento.

  4. Seleziona Inizia addestramento. Puoi controllare lo stato nel riquadro a destra.

    Viene visualizzata la pagina Gestione dei set di dati. Puoi visualizzare lo stato di addestramento sul lato destro. È probabile che l'addestramento richieda alcune ore, a seconda delle dimensioni del tuo set di dati. Puoi uscire da questa pagina e tornare più tardi.

Esegui il deployment della versione del processore

  1. Al termine dell'addestramento, vai alla scheda Gestisci versioni. Puoi visualizzare i dettagli della versione appena addestrata.

  2. Seleziona i tre puntini verticali a destra della versione di cui eseguire il deployment e seleziona Esegui il deployment della versione.

  3. Seleziona Esegui il deployment dalla finestra popup.

    Il deployment richiede alcuni minuti.

Valuta e testa il processore

  1. Al termine del deployment, vai alla scheda Valutazione e test.

    In questa pagina, puoi visualizzare le metriche di valutazione, tra cui il punteggio F1, la precisione-identificazione per l'intero documento e le singole etichette. Per ulteriori informazioni sulla valutazione e sulle statistiche, vedi Valuta il processore.

  2. Scarica un documento che non è stato incluso nelle precedenti attività di addestramento o test in modo da poterlo utilizzare per valutare la versione del processore. Se utilizzi i tuoi dati, dovrai utilizzare un set di documenti separato.

    Scarica il PDF

  3. Seleziona Carica documento di test e seleziona il documento appena scaricato.

    Si apre la pagina Analisi analizzatore sintattico delle fatture. L'output sullo schermo mostra la qualità della classificazione del documento.

    Puoi anche eseguire nuovamente la valutazione con un set di test o una versione del processore diversi.

Utilizza il processore

Hai creato un processore analizzatore sintattico delle fatture e ne hai eseguito l'uptraining.

Puoi gestire le versioni del processore con addestramento personalizzato come qualsiasi altra versione del processore, ad esempio quando esegui la migrazione a un processore più recente se uno viene ritirato. Per saperne di più, consulta Gestione delle versioni del processore.

Puoi inviare una richiesta di elaborazione al processore personalizzato e la risposta può essere gestita come gli altri processori di estrazione di entità.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Per evitare addebiti non necessari per Google Cloud , utilizza la console Google Cloud per eliminare il processore e il progetto se non ti servono.

Se hai creato un nuovo progetto per prendere dimestichezza con Document AI, ma non ne hai più bisogno, elimina il progetto, [delete the project][delete-project].

Se hai utilizzato un progetto Google Cloud esistente, elimina le risorse che hai creato per evitare addebiti sul tuo account:

  1. Nel menu di navigazione della console Google Cloud, seleziona Document AI e I miei processori.

  2. Seleziona Altre azioni nella stessa riga del processore da eliminare.

  3. Seleziona Elimina processore, inserisci il nome del processore, quindi seleziona di nuovo Elimina per confermare.

Passaggi successivi