Crea un classificatore di documenti personalizzato nella console Google Cloud

Un classificatore personalizzato è progettato per classificare i documenti. Viene costruito da zero utilizzando i tuoi documenti e le tue classi personalizzate.

Creare un classificatore personalizzato nella console Google Cloud

Puoi creare classificatori personalizzati specifici per i tuoi documenti, addestrati e valutati in base ai tuoi dati. Questo processore identifica le classi di documenti in un insieme di classi definito dall'utente. Quindi puoi utilizzare questo processore addestrato su documenti aggiuntivi. Di norma si usa un classificatore di documenti personalizzato su documenti di tipo diverso, quindi si utilizza l'identificazione per trasmettere i documenti a un processore di estrazione per estrarre le entità.

Di seguito è riportato un flusso di lavoro tipico per creare e utilizzare un classificatore personalizzato:

  1. Crea un classificatore personalizzato in Document AI.
  2. Crea un set di dati utilizzando un bucket Cloud Storage vuoto.
  3. Importa i documenti.
  4. Annota manualmente i documenti in Document AI Workbench o con Attività di etichettatura.
  5. Assegna i documenti ai set di addestramento e test.
  6. Addestra il processore.
  7. Valuta il processore.
  8. Esegui il deployment del processore.
  9. Testa il processore.
  10. Utilizza il processore sui documenti.
.

Puoi effettuare scelte di configurazione personalizzate in base al tuo flusso di lavoro.


Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Procedura guidata:

Procedura guidata


Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

Crea un processore

1. Vai alla console Google Cloud, quindi seleziona: Workbench
  1. In Classificatore di documenti personalizzato, seleziona Crea processore.

    custom-classifier-1

  2. Nel menu Crea processore, inserisci un nome per il processore, ad esempio my-custom-document-classifier.

    custom-classifier-2

  3. Seleziona la regione più vicina a te.

  4. Seleziona Crea. Viene visualizzata la scheda Dettagli del processore.

Configura set di dati

Per addestrare questo nuovo processore, devi creare un set di dati con dati di addestramento e test per aiutare il processore a identificare i documenti che vuoi separare e classificare.

Questo set di dati richiede una nuova posizione. Può essere un bucket Cloud Storage vuoto o una cartella vuota oppure consentire una posizione gestita internamente.

Quando viene visualizzata la scheda Dettagli del processore, puoi:

  • Selezionare Archiviazione gestita da Google se vuoi utilizzare Cloud Storage.
  • Selezionare Specificherò personalmente la località di archiviazione se vuoi utilizzare il tuo spazio di archiviazione per usare chiavi di crittografia gestite dal cliente (CMEK) e seguire la procedura successiva.

custom-classifier-3

Crea un bucket Cloud Storage per il set di dati

  1. Scegli il tipo di processore Addestra .

  2. Seleziona Imposta località del set di dati. Ti verrà chiesto di selezionare o creare una cartella o un bucket Cloud Storage vuoto.

    custom-classifier-4

  3. Seleziona Sfoglia per aprire Seleziona cartella.

  4. Seleziona l'icona Crea nuovo bucket e segui i comandi per creare un nuovo bucket. Per ulteriori informazioni sulla creazione di un bucket Cloud Storage, consulta Bucket Cloud Storage.

    Nota: un bucket è l'entità di archiviazione di primo livello in cui puoi nidificare le cartelle. Anziché creare e selezionare un bucket, puoi anche creare e selezionare una cartella vuota all'interno di un bucket esistente. Per ulteriori informazioni, consulta Cartelle simulate di Cloud Storage.

    Dopo aver creato il bucket, viene visualizzata la pagina Seleziona cartella.

  5. Nella pagina Seleziona cartella per il tuo bucket, seleziona il pulsante Seleziona nella parte inferiore della finestra di dialogo.

    custom-classifier-5

  6. Assicurati che il percorso di destinazione sia completato con il nome del bucket che hai selezionato. Seleziona Crea set di dati. La creazione del set di dati potrebbe richiedere diversi minuti.

Importa documenti in un set di dati

Ora importa i tuoi documenti nel set di dati.

  1. Nella scheda Addestra, seleziona Importa documenti.

    custom-classifier-6

  2. Per questo esempio, inserisci il nome di questo bucket in Percorso di origine. Questo link rimanda direttamente a un documento.

    cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
    
  3. Per Suddivisione dati, seleziona Non assegnato. Il documento in questa cartella non è assegnato al set di test o di addestramento. Lascia deselezionata l'opzione Importa con etichettatura automatica.

  4. Seleziona Importa. Document AI legge i documenti del bucket nel set di dati. Non modifica il bucket di importazione né legge il bucket dopo che l'importazione è stata completata.

Quando importi documenti, puoi facoltativamente assegnarli al set Addestramento o Test al momento dell'importazione oppure farlo in un secondo momento.

Se vuoi eliminare uno o più documenti importati, selezionali nella scheda Addestra e seleziona Elimina.

Per saperne di più sulla preparazione dei dati per l'importazione, consulta la guida alla preparazione dei dati.

Definisci lo schema del processore

Puoi creare lo schema del processore sia prima che dopo aver importato i documenti nel set di dati. Lo schema fornisce etichette che utilizzerai per annotare i documenti.

  1. Nella scheda Addestramento, seleziona Modifica schema in basso a sinistra. Viene visualizzata la pagina Gestisci etichette.

  2. Seleziona Crea etichetta.

  3. Inserisci il nome dell'etichetta. Seleziona il Tipo di dati. Seleziona Crea. Consulta Definisci lo schema del processore per istruzioni dettagliate su come creare e modificare uno schema.

  1. Crea ognuna delle seguenti etichette per lo schema del processore.

    Nome Tipo di dati
    computer_vision Tipo di documento
    crypto Tipo di documento
    med_tech Tipo di documento
    other Tipo di documento
  2. Seleziona Salva quando le etichette sono complete.

    custom-classifier-7

Etichetta un documento

Il processo di selezione del testo in un documento e di applicazione delle etichette è noto come annotazione.

  1. Torna alla scheda Addestra e seleziona un documento per aprire la console Gestione etichette.

  2. Nel menu a discesa Tipo di documento, seleziona l'etichetta appropriata per il documento.

  3. Se utilizzi il documento di esempio fornito, seleziona computer_vision.

    Al termine, il documento con etichetta avrà il seguente aspetto: custom-classifier-8

  4. Seleziona Contrassegna come etichettato quando hai finito di annotare il documento.

    Nella scheda Addestra, il riquadro a sinistra mostra che un documento è stato etichettato.

Assegna il documento annotato al set di addestramento

Ora che hai etichettato questo documento di esempio, puoi assegnarlo al set di addestramento.

  1. Nella scheda Addestra, seleziona la casella di controllo Seleziona tutto.

  2. Dall'elenco a discesa Assegna al set, seleziona Addestramento.

Il riquadro a sinistra mostra che un documento è stato assegnato al set di addestramento.

Importa dati pre-etichettati nei set di addestramento e test

In questa guida vengono forniti dati pre-etichettati.

Se lavori al tuo progetto, dovrai decidere come etichettare i tuoi dati. Consulta Opzioni di etichettatura. I processori Document AI personalizzati richiedono un minimo di 10 documenti sia nel set di addestramento che in quello di test, oltre a 10 istanze di ogni etichetta in ciascun set. Per ottenere prestazioni ottimali, ti consigliamo di avere almeno 50 documenti in ciascun set, con 50 istanze di ogni etichetta. In generale, una maggiore quantità di dati di addestramento produce una maggiore accuratezza.

  1. Seleziona Importa documenti.

  2. Inserisci il seguente percorso in Percorso di origine. Questo bucket contiene documenti pre-etichettati nel formato Documento JSON.

    cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
    
  3. Dall'elenco Suddivisione dati, seleziona Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test. Ignora la sezione Applica le etichette.

  4. Seleziona Importa. Il completamento dell'importazione potrebbe richiedere alcuni minuti.

Al termine dell'importazione, vedrai i documenti nella scheda Addestra.

Facoltativo: etichettatura batch dei documenti al momento dell'importazione

Dopo aver configurato lo schema, puoi etichettare tutti i documenti che si trovano in una determinata directory al momento dell'importazione per risparmiare tempo con l'etichettatura.

custom-classifier-9

  1. Seleziona Importa documenti.

  2. Inserisci il seguente percorso in Percorso di origine. Questo bucket contiene documenti senza etichetta in formato PDF.

    cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
    
  3. Dall'elenco Suddivisione dati, seleziona Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test.

  4. Nella sezione Applica le etichette, seleziona Scegli un'etichetta.

  5. Per questi documenti di esempio, seleziona other.

  6. Seleziona Importa e attendi il completamento del processo. Puoi uscire da questa pagina e tornare più tardi. Al termine, vedrai i documenti nella scheda Addestra con l'etichetta applicata.

Addestra il processore

Ora che hai importato i dati di addestramento e test, puoi addestrare il processore. Poiché l'addestramento potrebbe richiedere diverse ore, assicurati di aver configurato il processore con i dati e le etichette appropriati prima di iniziare l'addestramento.

  1. Seleziona Addestra nuova versione.

  2. Nel campo Nome versione, inserisci un nome per la versione del processore, ad esempio my-cdc-version-1.

  3. (Facoltativo) Seleziona Visualizza statistiche etichette per visualizzare le informazioni sulle etichette dei documenti. In questo modo puoi stabilire la copertura. Seleziona Chiudi per tornare alla configurazione dell'addestramento.

  4. Seleziona Inizia addestramento. Puoi controllare lo stato nel riquadro a destra.

Esegui il deployment della versione del processore

  1. Al termine dell'addestramento, vai alla scheda Gestisci versioni. Puoi visualizzare i dettagli della versione appena addestrata.

  2. Seleziona i tre puntini verticali a destra della versione di cui eseguire il deployment e seleziona Esegui il deployment della versione.

  3. Seleziona Esegui il deployment dalla finestra popup.

    Il deployment richiede alcuni minuti.

Valuta e testa il processore

  1. Al termine del deployment, vai alla scheda Valutazione e test.

    In questa pagina, puoi visualizzare le metriche di valutazione, tra cui il punteggio F1, la precisione-identificazione per l'intero documento e le singole etichette. Per ulteriori informazioni sulla valutazione e sulle statistiche, vedi Valuta il processore.

  2. Scarica un documento che non è stato incluso nei precedenti corsi o test in modo da poterlo utilizzare per valutare la versione del processore. Se utilizzi i tuoi dati, dovrai utilizzare un set di documenti separato.

    Scarica il PDF

  3. Seleziona Carica documento di test e seleziona il documento appena scaricato.

    Si apre la pagina Analisi del classificatore di documenti personalizzato. L'output mostra la qualità della classificazione del documento.

    Puoi anche eseguire nuovamente la valutazione con un set di test o una versione del processore diversi.

Facoltativo: etichettatura automatica dei documenti appena importati

Dopo aver implementato una versione addestrata del processore, puoi utilizzare l'etichettatura automatica per risparmiare tempo durante l'importazione di nuovi documenti.

  1. Nella pagina Addestra, Importa documenti.

  2. Copia e incolla il seguente percorso di Cloud Storage. Questa directory contiene cinque PDF di brevetti senza etichetta. Nell'elenco a discesa Suddivisione dati, seleziona Addestramento.

    cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
    
  3. Nella sezione Applica le etichette, seleziona Etichettatura automatica.

  4. Seleziona una versione di processore esistente per etichettare i documenti.

    • Ad esempio: 2af620b2fd4d1fcf
  5. Seleziona Importa e attendi il completamento del processo. Puoi uscire da questa pagina e tornare più tardi. Al termine, i documenti vengono visualizzati nella sezione Con etichetta automatica della pagina Addestra.

  6. Non puoi utilizzare i documenti con etichetta automatica per l'addestramento o i test senza contrassegnarli come etichettati. Vai alla sezione Con etichetta automatica per visualizzare i documenti con etichetta automatica.

  7. Seleziona il primo documento per accedere alla console di etichettatura.

  8. Verifica che l'etichetta sia corretta. In caso contrario, correggila.

  9. Al termine, seleziona Contrassegna come etichettato.

  10. Ripeti la verifica delle etichette per ogni documento con etichetta automatica, quindi torna alla pagina Addestra per utilizzare i dati per l'addestramento.

Utilizza il processore

Hai creato e addestrato un processore classificatore di documenti personalizzato.

Puoi gestire le versioni del processore con addestramento personalizzato come qualsiasi altra versione del processore. Per saperne di più, consulta Gestione delle versioni del processore.

Puoi inviare una richiesta di elaborazione al processore personalizzato e la risposta può essere gestita come gli altri processori classificatori.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Per evitare addebiti non necessari per Google Cloud , utilizza la console Google Cloud per eliminare il processore e il progetto se non ti servono.

Se hai creato un nuovo progetto per prendere dimestichezza con Document AI, ma non ne hai più bisogno, elimina il progetto.

Se hai utilizzato un progetto Google Cloud esistente, elimina le risorse che hai creato per evitare addebiti sul tuo account:

  1. Nel menu di navigazione della console Google Cloud, seleziona Document AI e poi I miei processori.

  2. Seleziona Altre azioni nella stessa riga del processore da eliminare.

  3. Seleziona Elimina processore, inserisci il nome del processore, quindi seleziona di nuovo Elimina per confermare.

Passaggi successivi