Addestrare un processore preaddestrato
Utilizzando il Parser delle fatture, puoi eseguire l'uptraining di un processore preaddestrato per migliorarne l'accuratezza. Inizi con un modello predefinito, quindi lo addestri con i tuoi dati, aggiungendo campi personalizzati. I formati delle fatture sono diversi e l'uptraining di un parser delle fatture generico con i tuoi dati può migliorare l'accuratezza di formati specifici e consentire al parser di estrarre i campi non supportati dal modello preaddestrato. Vengono forniti dati di esempio, ma puoi seguire le stesse procedure utilizzando i tuoi dati.
Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Procedura guidata:
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Crea un processore
Nel menu di navigazione della console Google Cloud, seleziona Document AI e seleziona Galleria processori.
Nella Galleria processori,
cerca Analizzatore sintattico delle fatture e seleziona Crea.Inserisci il Nome processore, ad esempio
invoice-parser-for-uptraining
.Seleziona la regione più vicina a te.
Seleziona Crea. Viene visualizzata la scheda Dettagli del processore.
Crea un bucket Cloud Storage per il set di dati
Per addestrare questo nuovo processore, devi creare un set di dati con dati di addestramento e test per aiutare il processore a identificare le entità che vuoi estrarre.
Questo set di dati richiede un nuovo bucket Cloud Storage. Non utilizzare lo stesso bucket in cui sono archiviati i documenti.
Vai alla scheda
Addestramento del tuo processore.Seleziona
Imposta località del set di dati . Ti verrà chiesto di selezionare o creare una cartella o un bucket Cloud Storage vuoto.Seleziona
Sfoglia per aprire Seleziona cartella.Seleziona
Crea un nuovo bucket e segui i prompt per creare un nuovo bucket. Per ulteriori informazioni sulla creazione di un bucket Cloud Storage, consulta Bucket Cloud Storage.Nota: un bucket è l'entità di archiviazione di primo livello in cui puoi nidificare le cartelle. Anziché creare e selezionare un bucket, puoi anche creare e selezionare una cartella vuota all'interno di un bucket esistente, se preferisci. Fai riferimento alla sezione sulle cartelle simulate.
Dopo aver creato il bucket, viene visualizzata la pagina Seleziona cartella.
Nella pagina Seleziona cartella per il tuo bucket, seleziona
Seleziona nella parte inferiore della finestra di dialogo.Assicurati che il percorso di destinazione sia completato con il nome del bucket che hai selezionato. Seleziona
Crea set di dati . La creazione del set di dati potrebbe richiedere diversi minuti.
Vai direttamente all'addestramento avanzato: vai a Importare i dati preetichettati. Anziché importare un documento di esempio, utilizza gli strumenti per etichettare manualmente i campi e aggiungi il documento ai dati di addestramento.
Etichetta e aggiungi manualmente i documenti al set di addestramento: prima di procedere con l'addestramento avanzato, vai a Importa un documento di esempio per l'etichettatura manuale e segui le istruzioni riportate.
Importa un documento di esempio per l'etichettatura manuale
Successivamente, importa un file PDF di fattura di esempio nel tuo set di dati. Puoi etichettare i campi in questo documento per facilitare il successivo processo di uptraining.
In questa guida, ti viene fornito un file rappresentativo che funge da documento di esempio.
Nella scheda Addestra, seleziona
Importa documenti .Per questo esempio, inserisci il nome di questo bucket in
Percorso di origine . Questo link rimanda direttamente a un documento.cloud-samples-data/documentai/codelabs/uptraining/pdfs
Per Suddivisione dati, seleziona Non assegnato. Il documento in questa cartella non è assegnato al set di test o di addestramento. Lascia deselezionata l'opzione Importa con etichettatura automatica.
Seleziona Importa. Document AI legge i documenti del bucket nel set di dati. Non modifica il bucket di importazione né legge il bucket dopo che l'importazione è stata completata.
Quando importi documenti, puoi facoltativamente assegnarli al set Addestramento o Test al momento dell'importazione oppure farlo in un secondo momento.
Se vuoi eliminare uno o più documenti importati, selezionali nella scheda Addestra e seleziona Elimina.
Per saperne di più sulla preparazione dei dati per l'importazione, consulta la guida alla preparazione dei dati.
Definisci lo schema del processore
Il tuo set di dati potrebbe non contenere tutte le etichette supportate dall'analizzatore sintattico delle fatture.
In questo caso, devi contrassegnare le etichette che non vengono utilizzate come Inactive
prima di iniziare l'addestramento. Puoi anche aggiungere una o più etichette personalizzate prima di iniziare l'uptraining.
Nella scheda Addestramento, seleziona
Modifica schema in basso a sinistra. Viene visualizzata la pagina Gestisci etichette.Per disattivare le etichette inutilizzate, seleziona le
caselle di controllo per i campi che non sono presenti nell'elenco seguente, quindi seleziona Disattiva. I seguenti campi devono rimanere attivi:invoice_date line_item amount description receiver_address receiver_name supplier_address supplier_name total_amount
Nota: le etichette non possono essere eliminate. Puoi invece disattivare le etichette che non vuoi utilizzare.
Seleziona
Salva quando le etichette sono complete.Seleziona
Freccia indietro per tornare alla pagina Addestra.
Etichetta un documento
Il processo di selezione del testo in un documento e di applicazione delle etichette è noto come annotazione.
Torna alla scheda Addestra e seleziona
un documento per aprire la console Gestione etichette.Poi seleziona l'etichetta dello schema nel riquadro a sinistra corrispondente al valore a cui vuoi aggiungere un'annotazione e applica l'etichetta.
Usa lo strumento predefinito
Riquadro di delimitazione , oppure lo strumentoSeleziona testo per i valori su più righe, per selezionare i contenuti e applicare l'etichetta.Ad esempio, al testo "McWilliam Piping International Piping Company" dovrebbe essere assegnata l'etichetta
supplier_name
. Puoi utilizzare il filtro di testo per cercare i nomi delle etichette.Nota: lo strumento Seleziona testo non funziona per tutti i valori di testo, quindi utilizza lo strumento Riquadro di delimitazione, se necessario. Puoi anche selezionare campi non di testo, come le caselle di controllo, con lo strumento Riquadro di delimitazione.
Rivedi i valori di testo rilevati per assicurarti che riflettano il testo corretto presente nel documento.
Quando selezioni un testo che corrisponde a un'etichetta, assicurati di includere solo il testo pertinente. Ad esempio, per un'etichetta
invoice_id
, non includere caratteri come#
che spesso precedono il valore numerico. Non includere simboli di valuta come$
per il denaro.- Assicurati di annotare tutte le istanze di un'entità. Ad esempio,
supplier_name
oinvoice_id
potrebbero essere presenti più volte nel documento e ogni istanza deve essere annotata.
- Assicurati di annotare tutte le istanze di un'entità. Ad esempio,
Ripeti l'operazione per ogni campo a cui vuoi aggiungere un'etichetta.
Di seguito è riportato un esempio di tutte le etichette e il testo corrispondente.
Nome etichetta | Testo |
---|---|
supplier_name |
McWilliam Piping International Piping Company |
supplier_address |
14368 Pipeline Ave Chino, CA 91710, Stati Uniti |
invoice_id |
10001 |
due_date |
2020-01-02 |
line_item/description |
Giunti a snodo |
line_item/quantity |
9 |
line_item/unit_price |
74,43 |
line_item/amount |
669,87 |
line_item/description |
Tubo in PVC da 12" |
line_item/quantity |
7 |
line_item/unit_price |
15,90 |
line_item/amount |
111,30 |
line_item/description |
Tubo di rame |
line_item/quantity |
7 |
line_item/unit_price |
91,20 |
line_item/amount |
638,40 |
net_amount |
1.419,57 |
total_tax_amount |
113,57 |
total_amount |
1.533,14 |
currency |
$ |
Seleziona
Contrassegna come etichettato quando hai finito di annotare il documento.Nella scheda Addestra, il riquadro a sinistra mostra che un documento è stato etichettato.
Assegna il documento annotato al set di addestramento
Ora che hai etichettato questo documento di esempio, puoi assegnarlo al set di addestramento.
Nella scheda Addestra, seleziona la casella di controllo
Seleziona tutto .Dall'elenco a discesa
Assegna al set , seleziona Addestramento.
Il riquadro a sinistra mostra che un documento è stato assegnato al set di addestramento.
Importa dati pre-etichettati nei set di addestramento e test
L'ottimizzazione dell'addestramento di Document AI richiede un minimo di 10 documenti sia nel set di addestramento che nel set di test, insieme a 10 istanze di ogni etichetta in ogni set.
Per ottenere prestazioni ottimali, ti consigliamo di avere almeno 50 documenti in ciascun set, con 50 istanze di ogni etichetta. Una maggiore quantità di dati di addestramento corrisponde in genere a una maggiore accuratezza.
In questa guida vengono forniti dati pre-etichettati. Se lavori al tuo progetto, dovrai decidere come etichettare i tuoi dati. Consulta Opzioni di etichettatura.
Seleziona
Importa documenti .Inserisci il seguente percorso in
Percorso di origine . Questo bucket contiene documenti pre-etichettati nel formato Documento JSON.cloud-samples-data/documentai/Custom/Invoices/JSON
Dall'elenco Suddivisione dati, seleziona Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test. Lascia deselezionata l'opzione Importa con etichettatura automatica.
Seleziona Importa. L'importazione potrebbe richiedere alcuni minuti. Successivamente, vedrai i documenti nella scheda Addestramento.
Facoltativo: etichettatura automatica dei documenti appena importati
Quando importi documenti non etichettati per un processore con una versione del processore di cui è già stato eseguito il deployment, puoi utilizzare l'etichettatura automatica per risparmiare tempo.
Nella pagina Addestra, seleziona
Importa documenti .Copia e incolla il seguente percorso di Cloud Storage. Questa directory contiene cinque PDF di fatture senza etichetta. Nell'elenco a discesa Suddivisione dati, seleziona Addestramento.
cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
Nella sezione Etichettatura automatica, seleziona la casella di controllo
Importa con etichettatura automatica .Seleziona una versione di processore esistente per etichettare i documenti.
- Ad esempio:
pretrained-invoice-v1.3-2022-07-15
- Ad esempio:
Seleziona Importa e attendi l'importazione dei documenti. Puoi uscire da questa pagina e tornare più tardi.
- Al termine, i documenti verranno visualizzati nella pagina Addestra nella sezione Con etichetta automatica.
Non puoi utilizzare i documenti con etichetta automatica per l'addestramento o i test senza contrassegnarli come etichettati. Vai alla sezione
Con etichetta automatica per visualizzare i documenti con etichetta automatica.Seleziona il primo documento per accedere alla console di etichettatura.
Verifica che l'etichetta sia corretta. In caso contrario, correggila.
Al termine, seleziona
Contrassegna come etichettato .Ripeti la verifica delle etichette per ogni documento con etichetta automatica, quindi torna alla pagina Addestra per utilizzare i dati per l'addestramento.
Addestra il processore
Ora che hai importato i dati di addestramento e test, puoi addestrare il processore. Poiché l'addestramento potrebbe richiedere diverse ore, assicurati di aver configurato il processore con i dati e le etichette appropriati prima di iniziare l'addestramento.
Seleziona
Esegui l'uptraining di una nuova versione .Nel campo
Nome versione , inserisci un nome per la versione del processore, ad esempioinvoice-uptrain-1
.(Facoltativo) Seleziona Visualizza statistiche etichette per visualizzare le informazioni sulle etichette dei documenti. In questo modo puoi stabilire la copertura. Seleziona Chiudi per tornare alla configurazione dell'addestramento.
Seleziona
Inizia addestramento . Puoi controllare lo stato nel riquadro a destra.Viene visualizzata la pagina Gestione dei set di dati. Puoi visualizzare lo stato di addestramento sul lato destro. È probabile che l'addestramento richieda alcune ore, a seconda delle dimensioni del tuo set di dati. Puoi uscire da questa pagina e tornare più tardi.
Esegui il deployment della versione del processore
Al termine dell'addestramento, vai alla scheda
Gestisci versioni . Puoi visualizzare i dettagli della versione appena addestrata.Seleziona i
tre puntini verticali a destra della versione di cui eseguire il deployment e seleziona Esegui il deployment della versione.Seleziona
Esegui il deployment dalla finestra popup.Il deployment richiede alcuni minuti.
Valuta e testa il processore
Al termine del deployment, vai alla scheda
Valutazione e test .In questa pagina, puoi visualizzare le metriche di valutazione, tra cui il punteggio F1, la precisione-identificazione per l'intero documento e le singole etichette. Per ulteriori informazioni sulla valutazione e sulle statistiche, vedi Valuta il processore.
Scarica un documento che non è stato incluso nelle precedenti attività di addestramento o test in modo da poterlo utilizzare per valutare la versione del processore. Se utilizzi i tuoi dati, dovrai utilizzare un set di documenti separato.
Seleziona
Carica documento di test e seleziona il documento appena scaricato.Si apre la pagina Analisi analizzatore sintattico delle fatture. L'output sullo schermo mostra la qualità della classificazione del documento.
Puoi anche eseguire nuovamente la valutazione con un set di test o una versione del processore diversi.
Utilizza il processore
Hai creato un processore analizzatore sintattico delle fatture e ne hai eseguito l'uptraining.
Puoi gestire le versioni del processore con addestramento personalizzato come qualsiasi altra versione del processore, ad esempio quando esegui la migrazione a un processore più recente se uno viene ritirato. Per saperne di più, consulta Gestione delle versioni del processore.
Puoi inviare una richiesta di elaborazione al processore personalizzato e la risposta può essere gestita come gli altri processori di estrazione di entità.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
Per evitare addebiti non necessari per Google Cloud , utilizza la console Google Cloud per eliminare il processore e il progetto se non ti servono.
Se hai creato un nuovo progetto per prendere dimestichezza con Document AI, ma non ne hai più bisogno, elimina il progetto, [delete the project][delete-project].
Se hai utilizzato un progetto Google Cloud esistente, elimina le risorse che hai creato per evitare addebiti sul tuo account:
Nel menu di navigazione della console Google Cloud, seleziona Document AI e I miei processori.
Seleziona
Altre azioni nella stessa riga del processore da eliminare.Seleziona Elimina processore, inserisci il nome del processore, quindi seleziona di nuovo Elimina per confermare.