Creare, utilizzare e gestire un classificatore di documenti personalizzato

Utilizza il classificatore personalizzato per classificare i documenti. Costruiscilo da zero con i tuoi documenti e le tue classi personalizzate. Il suo aspetto di AI generativa consente l'apprendimento e l'ottimizzazione con pochi esempi. Questi migliorano l'accuratezza con meno campioni e correzioni con l'etichettatura automatica iterativa.

Il classificatore personalizzato copre questi tre casi d'uso generali.

  • Modello preaddestrato:utilizza il foundation model di AI generativa preaddestrato per classificare rapidamente i documenti con le etichette fornite da te.
  • Ottimizza: migliora l'accuratezza addestrando il foundation model di AI generativa con i tuoi dati ed etichette.
  • Addestra un modello personalizzato: addestra un estrattore personalizzato di AI non generativa utilizzando i tuoi dati ed etichette.

Versioni del modello di categoria di classificazione personalizzata

Versione del modello Descrizione Canale di rilascio Elaborazione ML negli Stati Uniti/UE Ottimizzazione negli Stati Uniti/UE Data di uscita
pretrained-foundation-model-v1.4-2025-05-16 Candidato per la release basato sul modello LLM Gemini 2.0 Flash. Include anche funzionalità OCR avanzate. Candidato per la release Stati Uniti, UE (anteprima) 16 maggio 2025
pretrained-classifier-v1.5-2025-08-05 Candidato per la release basato sul modello LLM Gemini 2.5 Flash. Include anche funzionalità OCR avanzate. Candidato per la release Stati Uniti, UE (anteprima) 5 agosto 2025

I punteggi di confidenza non sono supportati per i modelli di classificazione personalizzati.

Creare un classificatore personalizzato nella Google Cloud console

Puoi creare classificatori personalizzati specifici per i tuoi documenti, addestrati e valutati in base ai tuoi dati. Questo processore identifica le classi di documenti in un insieme di classi definito dall'utente. Quindi puoi utilizzare questo processore addestrato su documenti aggiuntivi. Di norma si usa un classificatore di documenti personalizzato su documenti di tipo diverso, quindi si utilizza l'identificazione per trasmettere i documenti a un processore di estrazione per estrarre le entità.

Per la procedura generale su come creare e utilizzare un processore, consulta la sezione Istruzioni.

Puoi effettuare scelte di configurazione personalizzate in base al tuo flusso di lavoro.


Per seguire le indicazioni dettagliate per questa attività direttamente nella Google Cloud console, fai clic su Procedura guidata:

Procedura guidata


Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  8. Crea un processore

    Completa i seguenti passaggi.

    1. Vai a Workbench.

    2. Per classificatore di documenti personalizzato, seleziona Crea processore.

      custom-classifier-1

    3. Nel menu Crea processore, inserisci un nome per il processore, ad esempio my-custom-document-classifier.

      custom-classifier-2

    4. Seleziona la regione più vicina a te.

    5. Seleziona Crea. Viene visualizzata la scheda Dettagli del processore.

    Configura set di dati

    Per addestrare questo nuovo processore, devi creare un set di dati con dati di addestramento e test per aiutare il processore a identificare i documenti che vuoi separare e classificare. Questo set di dati richiede una nuova posizione. Può essere un bucket Cloud Storage vuoto o una cartella vuota oppure consentire una posizione gestita internamente.

    Quando viene visualizzata la scheda Dettagli del processore, puoi:

    1. Selezionare Archiviazione gestita da Google se vuoi utilizzare Cloud Storage.
    2. Selezionare Specificherò personalmente la località di archiviazione se vuoi utilizzare il tuo spazio di archiviazione per usare chiavi di crittografia gestite dal cliente (CMEK) e segui la procedura descritta in Creare un set di dati.

    custom-classifier-3

    Importa documenti in un set di dati

    Ora importa i tuoi documenti nel set di dati.

    1. Nella scheda Crea, seleziona Importa documenti.

      custom-classifier-6

    2. Se scegli di utilizzare un bucket di archiviazione, devi inserire il percorso di origine del bucket. Per questo esempio di addestramento, inserisci il nome di questo bucket in Percorso di origine. Questo link rimanda direttamente a un documento.

      cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
      
    3. Per Suddivisione dati, seleziona Non assegnato. Il documento in questa cartella non è assegnato al set di test o di addestramento. Lascia deselezionata l'opzione Importa con etichettatura automatica.

    4. Seleziona Importa. Document AI legge i documenti del bucket nel set di dati. Non modifica il bucket di importazione né legge il bucket dopo che l'importazione è stata completata.

    5. (Facoltativo) Per eliminare i documenti importati, nella scheda Crea, vai a Gestisci set di dati > seleziona i documenti > fai clic su Elimina.

    Quando importi documenti, puoi facoltativamente assegnarli al set Addestramento o Test al momento dell'importazione oppure farlo in un secondo momento.

    Per saperne di più sulla preparazione dei dati per l'importazione, consulta la guida alla preparazione dei dati.

    Definisci lo schema del processore

    Puoi creare lo schema del processore sia prima che dopo aver importato i documenti nel set di dati. Lo schema fornisce etichette che utilizzerai per annotare i documenti.

    1. Nella scheda Crea, seleziona Gestisci set di dati > Modifica schema. Viene visualizzata la pagina Modifica schema.

    2. Seleziona Crea etichetta.

    3. Inserisci il nome dell'etichetta.

    4. Seleziona Crea. Consulta Definisci lo schema del processore per istruzioni dettagliate su come creare e modificare uno schema.

    5. Crea ognuna delle seguenti etichette per lo schema del processore.

      • computer_vision
      • crypto
      • med_tech
      • other
    6. Seleziona Salva quando le etichette sono complete.

      custom-classifier-7

    Etichetta un documento

    Il processo di selezione del testo in un documento e di applicazione delle etichette è noto come annotazione.

    1. Torna alla scheda Crea e seleziona un documento per aprire la console Gestisci set di dati.

    2. Tra le opzioni, seleziona l'etichetta appropriata per il documento. Se utilizzi il documento di esempio fornito, seleziona computer_vision.

      Una volta etichettato, il documento dovrebbe avere l'aspetto seguente: custom-classifier-8

    3. Seleziona Contrassegna come etichettato quando hai finito di annotare il documento.

      Nella scheda Gestisci set di dati, il riquadro Documento mostra che un documento è stato etichettato.

    Assegna il documento annotato al set di addestramento

    Ora che hai etichettato questo documento di esempio, puoi assegnarlo al set di addestramento.

    1. Nella scheda Gestisci set di dati, seleziona la casella di controllo Seleziona tutto.

    2. Dall'elenco a discesa Assegna al set, seleziona Addestramento.

    Nel riquadro Documenti, puoi vedere che un documento è stato assegnato al set di addestramento.

    Importa dati pre-etichettati nei test set e nell'addestramento

    In questa guida vengono forniti dati pre-etichettati. Se lavori al tuo progetto, dovrai decidere come etichettare i tuoi dati. Consulta Opzioni di etichettatura.

    I processori Document AI personalizzati richiedono un minimo di un documento sia nel set di addestramento che in quello di test per ogni tipo di documento da etichettare. Per ottenere prestazioni ottimali, ti consigliamo di avere almeno 10 documenti per ogni etichetta. Per 5 etichette, avresti bisogno di 50 documenti per l'addestramento e 50 per il test. Una maggiore quantità di dati di addestramento in genere produce una maggiore accuratezza.

    1. Seleziona Importa documenti.

    2. Inserisci il seguente percorso in Percorso di origine. Questo bucket contiene documenti pre-etichettati nel formato Documento JSON.

      cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
      
    3. Dall'elenco Suddivisione dati, seleziona Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test. Ignora la sezione Applica le etichette.

    4. Seleziona Importa. Il completamento dell'importazione potrebbe richiedere alcuni minuti.

    Al termine dell'importazione, vedrai i documenti nella scheda Gestisci set di dati.

    Etichettatura batch dei documenti al momento dell'importazione

    In modo facoltativo, dopo aver configurato lo schema, puoi etichettare tutti i documenti che si trovano in una determinata directory al momento dell'importazione per risparmiare tempo con l'etichettatura.

    custom-classifier-9

    1. Seleziona Importa documenti.

    2. Inserisci il seguente percorso in Percorso di origine. Questo bucket contiene documenti senza etichetta in formato PDF.

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
      
    3. Dall'elenco Suddivisione dati, seleziona Suddivisione automatica. In questo modo, i documenti vengono suddivisi automaticamente per includere l'80% nel set di addestramento e il 20% nel set di test.

    4. Nella sezione Applica le etichette, seleziona Scegli un'etichetta.

    5. Per questi documenti di esempio, seleziona other.

    6. Seleziona Importa e attendi il completamento del processo. Puoi chiudere questa pagina e tornare più tardi. Al termine, vedrai i documenti nella scheda Gestisci set di dati con l'etichetta applicata.

    Addestra il processore

    Ora che hai importato i dati di addestramento e test, puoi addestrare il processore. Poiché l'addestramento potrebbe richiedere diverse ore, assicurati di aver configurato il processore con i dati e le etichette appropriati prima di iniziare l'addestramento.

    Puoi addestrare modelli personalizzati e ottimizzati con i tuoi dati etichettati. I modelli ottimizzati utilizzano l'AI generativa. I modelli personalizzati addestrano un modello LLM unico utilizzando i tuoi dati etichettati. Sono necessarie almeno due etichette nello schema, con un minimo di 10 documenti di addestramento e 10 documenti di test (minimo 1).

    1. Seleziona Addestra nuova versione.
    custom-classifier-10
    1. Nel campo Nome versione, inserisci un nome per la versione del processore, ad esempio my-cdc-version-1.

    2. (Facoltativo) Seleziona Visualizza statistiche etichette per visualizzare le informazioni sulle etichette dei documenti che possono aiutarti a determinare la copertura. Seleziona Chiudi per tornare alla configurazione dell'addestramento.

    3. Seleziona Inizia addestramento. Puoi controllare lo stato nel riquadro laterale.

    Esegui il deployment della versione del processore

    1. Al termine dell'addestramento, vai alla scheda Gestisci versioni. Puoi visualizzare i dettagli della versione appena addestrata.

    2. Seleziona accanto alla versione di cui vuoi eseguire il deployment e seleziona Esegui il deployment della versione.

    3. Seleziona Esegui il deployment nella finestra di dialogo.

      Il deployment richiede alcuni minuti.

    Valuta e testa il processore

    1. Al termine del deployment, vai alla scheda Valutazione e test.

      In questa pagina, puoi visualizzare le metriche di valutazione, tra cui il punteggio F1, precisione e richiamo per l'intero documento e le singole etichette. Per ulteriori informazioni sulla valutazione e sulle statistiche, vedi Valuta il processore.

    2. Scarica un documento che non è stato incluso nei precedenti corsi o test in modo da poterlo utilizzare per valutare la versione del processore. Se utilizzi i tuoi dati, dovrai utilizzare un set di documenti separato.

      Scarica il PDF

    3. Seleziona Carica documento di test e seleziona il documento appena scaricato.

      Si apre la pagina Analisi del classificatore di documenti personalizzato. L'output mostra la qualità della classificazione del documento.

      Puoi anche eseguire nuovamente la valutazione con un set di test o una versione del processore diversi.

    Etichettatura automatica dei documenti appena importati

    Dopo aver implementato una versione addestrata del processore, puoi utilizzare l'etichettatura automatica per risparmiare tempo durante l'importazione di nuovi documenti.

    1. Nella pagina Gestisci set di dati, Importa documenti.

    2. Copia e incolla il seguente percorso di Cloud Storage. Questa directory contiene cinque PDF di brevetti senza etichetta. Nell'elenco a discesa Suddivisione dati, seleziona Addestramento.

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
      
    3. Nella sezione Applica le etichette, seleziona Etichettatura automatica.

    4. Seleziona una versione di processore esistente per etichettare i documenti.

      • Ad esempio: 2af620b2fd4d1fcf
    5. Seleziona Importa e attendi il completamento del processo. Puoi chiudere questa pagina e tornare più tardi. Al termine, i documenti vengono visualizzati nella sezione Con etichetta automatica della pagina Gestisci set di dati.

    6. Non puoi utilizzare i documenti con etichetta automatica per l'addestramento o i test senza contrassegnarli come etichettati. Vai alla sezione Con etichetta automatica per visualizzare i documenti con etichetta automatica.

    7. Seleziona il primo documento per accedere alla console di etichettatura.

    8. Verifica che l'etichetta sia corretta. Modificala se non è corretta.

    9. Al termine, seleziona Contrassegna come etichettato.

    10. Ripeti la verifica delle etichette per ogni documento con etichetta automatica, quindi torna alla pagina Gestisci set di dati per assegnare i dati per l'addestramento.

    Utilizza il processore

    Puoi gestire le versioni del processore con addestramento personalizzato come qualsiasi altra versione del processore. Per saperne di più, consulta Gestione delle versioni del processore.

    Puoi inviare una richiesta di elaborazione al processore personalizzato e la risposta può essere gestita come gli altri processori classificatori.

    Esegui la pulizia

    Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

    1. Nel Google Cloud menu di navigazione della console, seleziona Document AI e poi I miei processori.

    2. Seleziona Altre azioni nella stessa riga del processore da eliminare.

    3. Seleziona Elimina processore, inserisci il nome del processore, quindi seleziona di nuovo Elimina per confermare.

    Passaggi successivi