Crea un classificatore di documenti personalizzato nella console Google Cloud
Un classificatore personalizzato è progettato per classificare i documenti. Viene costruito da zero utilizzando i tuoi documenti e le tue classi personalizzate.
Creare un classificatore personalizzato nella console Google Cloud
Puoi creare classificatori personalizzati specifici per i tuoi documenti, addestrati e valutati in base ai tuoi dati. Questo processore identifica le classi di documenti in un insieme di classi definito dall'utente. Quindi puoi utilizzare questo processore addestrato su documenti aggiuntivi. Di norma si usa un classificatore di documenti personalizzato su documenti di tipo diverso, quindi si utilizza l'identificazione per trasmettere i documenti a un processore di estrazione per estrarre le entità.
Di seguito è riportato un flusso di lavoro tipico per creare e utilizzare un classificatore personalizzato:
- Crea un classificatore personalizzato in Document AI.
- Crea un set di dati utilizzando un bucket Cloud Storage vuoto.
- Importa i documenti.
- Annota manualmente i documenti in Document AI Workbench o con Attività di etichettatura.
- Assegna i documenti ai set di addestramento e test.
- Addestra il processore.
- Valuta il processore.
- Esegui il deployment del processore.
- Testa il processore.
- Utilizza il processore sui documenti.
Puoi effettuare scelte di configurazione personalizzate in base al tuo flusso di lavoro.
Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Procedura guidata:
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Crea un processore
1. Vai alla console Google Cloud, quindi seleziona: WorkbenchIn Classificatore di documenti personalizzato, seleziona
Crea processore .Nel menu Crea processore, inserisci un nome per il processore, ad esempio
my-custom-document-classifier
.Seleziona la regione più vicina a te.
Seleziona Crea. Viene visualizzata la scheda Dettagli del processore.
Configura set di dati
Per addestrare questo nuovo processore, devi creare un set di dati con dati di addestramento e test per aiutare il processore a identificare i documenti che vuoi separare e classificare.
Questo set di dati richiede una nuova posizione. Può essere un bucket Cloud Storage vuoto o una cartella vuota oppure consentire una posizione gestita internamente.
Quando viene visualizzata la scheda Dettagli del processore, puoi:
- Selezionare Archiviazione gestita da Google se vuoi utilizzare Cloud Storage.
- Selezionare Specificherò personalmente la località di archiviazione se vuoi utilizzare il tuo spazio di archiviazione per usare chiavi di crittografia gestite dal cliente (CMEK) e seguire la procedura successiva.
Crea un bucket Cloud Storage per il set di dati
Scegli il tipo di processore
Addestra .Seleziona
Imposta località del set di dati . Ti verrà chiesto di selezionare o creare una cartella o un bucket Cloud Storage vuoto.Seleziona
Sfoglia per aprire Seleziona cartella.Seleziona l'icona
Crea nuovo bucket e segui i comandi per creare un nuovo bucket. Per ulteriori informazioni sulla creazione di un bucket Cloud Storage, consulta Bucket Cloud Storage.Nota: un bucket è l'entità di archiviazione di primo livello in cui puoi nidificare le cartelle. Anziché creare e selezionare un bucket, puoi anche creare e selezionare una cartella vuota all'interno di un bucket esistente. Per ulteriori informazioni, consulta Cartelle simulate di Cloud Storage.
Dopo aver creato il bucket, viene visualizzata la pagina Seleziona cartella.
Nella pagina Seleziona cartella per il tuo bucket, seleziona il pulsante
Seleziona nella parte inferiore della finestra di dialogo.Assicurati che il percorso di destinazione sia completato con il nome del bucket che hai selezionato. Seleziona
Crea set di dati . La creazione del set di dati potrebbe richiedere diversi minuti.
Importa documenti in un set di dati
Ora importa i tuoi documenti nel set di dati.
Nella scheda Addestra, seleziona
Importa documenti .Per questo esempio, inserisci il nome di questo bucket in
Percorso di origine . Questo link rimanda direttamente a un documento.cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
Per Suddivisione dati, seleziona Non assegnato. Il documento in questa cartella non è assegnato al set di test o di addestramento. Lascia deselezionata l'opzione Importa con etichettatura automatica.
Seleziona Importa. Document AI legge i documenti del bucket nel set di dati. Non modifica il bucket di importazione né legge il bucket dopo che l'importazione è stata completata.
Quando importi documenti, puoi facoltativamente assegnarli al set Addestramento o Test al momento dell'importazione oppure farlo in un secondo momento.
Se vuoi eliminare uno o più documenti importati, selezionali nella scheda Addestra e seleziona Elimina.
Per saperne di più sulla preparazione dei dati per l'importazione, consulta la guida alla preparazione dei dati.
Definisci lo schema del processore
Puoi creare lo schema del processore sia prima che dopo aver importato i documenti nel set di dati. Lo schema fornisce etichette che utilizzerai per annotare i documenti.
Nella scheda Addestramento, seleziona
Modifica schema in basso a sinistra. Viene visualizzata la pagina Gestisci etichette.Seleziona
Crea etichetta .Inserisci il nome dell'etichetta. Seleziona il Tipo di dati. Seleziona Crea. Consulta Definisci lo schema del processore per istruzioni dettagliate su come creare e modificare uno schema.
Crea ognuna delle seguenti etichette per lo schema del processore.
Nome Tipo di dati computer_vision
Tipo di documento crypto
Tipo di documento med_tech
Tipo di documento other
Tipo di documento Seleziona
Salva quando le etichette sono complete.
Etichetta un documento
Il processo di selezione del testo in un documento e di applicazione delle etichette è noto come annotazione.
Torna alla scheda Addestra e seleziona
un documento per aprire la console Gestione etichette.Nel menu a discesa
Tipo di documento , seleziona l'etichetta appropriata per il documento.Se utilizzi il documento di esempio fornito, seleziona
computer_vision
.Al termine, il documento con etichetta avrà il seguente aspetto:
Seleziona
Contrassegna come etichettato quando hai finito di annotare il documento.Nella scheda Addestra, il riquadro a sinistra mostra che un documento è stato etichettato.
Assegna il documento annotato al set di addestramento
Ora che hai etichettato questo documento di esempio, puoi assegnarlo al set di addestramento.
Nella scheda Addestra, seleziona la casella di controllo
Seleziona tutto .Dall'elenco a discesa
Assegna al set , seleziona Addestramento.
Il riquadro a sinistra mostra che un documento è stato assegnato al set di addestramento.
Importa dati pre-etichettati nei set di addestramento e test
In questa guida vengono forniti dati pre-etichettati.
Se lavori al tuo progetto, dovrai decidere come etichettare i tuoi dati. Consulta Opzioni di etichettatura. I processori Document AI personalizzati richiedono un minimo di 10 documenti sia nel set di addestramento che in quello di test, oltre a 10 istanze di ogni etichetta in ciascun set. Per ottenere prestazioni ottimali, ti consigliamo di avere almeno 50 documenti in ciascun set, con 50 istanze di ogni etichetta. In generale, una maggiore quantità di dati di addestramento produce una maggiore accuratezza.
Seleziona
Importa documenti .Inserisci il seguente percorso in
Percorso di origine . Questo bucket contiene documenti pre-etichettati nel formato Documento JSON.cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
Dall'elenco Suddivisione dati, seleziona Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test. Ignora la sezione Applica le etichette.
Seleziona Importa. Il completamento dell'importazione potrebbe richiedere alcuni minuti.
Al termine dell'importazione, vedrai i documenti nella scheda Addestra.
Facoltativo: etichettatura batch dei documenti al momento dell'importazione
Dopo aver configurato lo schema, puoi etichettare tutti i documenti che si trovano in una determinata directory al momento dell'importazione per risparmiare tempo con l'etichettatura.
Seleziona
Importa documenti .Inserisci il seguente percorso in
Percorso di origine . Questo bucket contiene documenti senza etichetta in formato PDF.cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
Dall'elenco Suddivisione dati, seleziona Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test.
Nella sezione Applica le etichette, seleziona Scegli un'etichetta.
Per questi documenti di esempio, seleziona
other
.Seleziona Importa e attendi il completamento del processo. Puoi uscire da questa pagina e tornare più tardi. Al termine, vedrai i documenti nella scheda Addestra con l'etichetta applicata.
Addestra il processore
Ora che hai importato i dati di addestramento e test, puoi addestrare il processore. Poiché l'addestramento potrebbe richiedere diverse ore, assicurati di aver configurato il processore con i dati e le etichette appropriati prima di iniziare l'addestramento.
Seleziona
Addestra nuova versione .Nel campo
Nome versione , inserisci un nome per la versione del processore, ad esempiomy-cdc-version-1
.(Facoltativo) Seleziona Visualizza statistiche etichette per visualizzare le informazioni sulle etichette dei documenti. In questo modo puoi stabilire la copertura. Seleziona Chiudi per tornare alla configurazione dell'addestramento.
Seleziona
Inizia addestramento . Puoi controllare lo stato nel riquadro a destra.
Esegui il deployment della versione del processore
Al termine dell'addestramento, vai alla scheda
Gestisci versioni . Puoi visualizzare i dettagli della versione appena addestrata.Seleziona i
tre puntini verticali a destra della versione di cui eseguire il deployment e seleziona Esegui il deployment della versione.Seleziona
Esegui il deployment dalla finestra popup.Il deployment richiede alcuni minuti.
Valuta e testa il processore
Al termine del deployment, vai alla scheda
Valutazione e test .In questa pagina, puoi visualizzare le metriche di valutazione, tra cui il punteggio F1, la precisione-identificazione per l'intero documento e le singole etichette. Per ulteriori informazioni sulla valutazione e sulle statistiche, vedi Valuta il processore.
Scarica un documento che non è stato incluso nei precedenti corsi o test in modo da poterlo utilizzare per valutare la versione del processore. Se utilizzi i tuoi dati, dovrai utilizzare un set di documenti separato.
Seleziona
Carica documento di test e seleziona il documento appena scaricato.Si apre la pagina Analisi del classificatore di documenti personalizzato. L'output mostra la qualità della classificazione del documento.
Puoi anche eseguire nuovamente la valutazione con un set di test o una versione del processore diversi.
Facoltativo: etichettatura automatica dei documenti appena importati
Dopo aver implementato una versione addestrata del processore, puoi utilizzare l'etichettatura automatica per risparmiare tempo durante l'importazione di nuovi documenti.
Nella pagina Addestra,
Importa documenti .Copia e incolla il seguente percorso di Cloud Storage. Questa directory contiene cinque PDF di brevetti senza etichetta. Nell'elenco a discesa Suddivisione dati, seleziona Addestramento.
cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
Nella sezione Applica le etichette, seleziona Etichettatura automatica.
Seleziona una versione di processore esistente per etichettare i documenti.
- Ad esempio:
2af620b2fd4d1fcf
- Ad esempio:
Seleziona Importa e attendi il completamento del processo. Puoi uscire da questa pagina e tornare più tardi. Al termine, i documenti vengono visualizzati nella sezione Con etichetta automatica della pagina Addestra.
Non puoi utilizzare i documenti con etichetta automatica per l'addestramento o i test senza contrassegnarli come etichettati. Vai alla sezione
Con etichetta automatica per visualizzare i documenti con etichetta automatica.Seleziona il primo documento per accedere alla console di etichettatura.
Verifica che l'etichetta sia corretta. In caso contrario, correggila.
Al termine, seleziona
Contrassegna come etichettato .Ripeti la verifica delle etichette per ogni documento con etichetta automatica, quindi torna alla pagina Addestra per utilizzare i dati per l'addestramento.
Utilizza il processore
Hai creato e addestrato un processore classificatore di documenti personalizzato.
Puoi gestire le versioni del processore con addestramento personalizzato come qualsiasi altra versione del processore. Per saperne di più, consulta Gestione delle versioni del processore.
Puoi inviare una richiesta di elaborazione al processore personalizzato e la risposta può essere gestita come gli altri processori classificatori.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
Per evitare addebiti non necessari per Google Cloud , utilizza la console Google Cloud per eliminare il processore e il progetto se non ti servono.
Se hai creato un nuovo progetto per prendere dimestichezza con Document AI, ma non ne hai più bisogno, elimina il progetto.
Se hai utilizzato un progetto Google Cloud esistente, elimina le risorse che hai creato per evitare addebiti sul tuo account:
Nel menu di navigazione della console Google Cloud, seleziona Document AI e poi I miei processori.
Seleziona
Altre azioni nella stessa riga del processore da eliminare.Seleziona Elimina processore, inserisci il nome del processore, quindi seleziona di nuovo Elimina per confermare.
Passaggi successivi
- Per maggiori dettagli, vedi Guide.
- Esamina l'elenco dei processori.
- Separa i documenti in chunk leggibili con il parser di layout.
- Utilizza la funzionalità di Enterprise Document OCR per rilevare ed estrarre il testo.