Créer un classificateur de documents personnalisé dans la console Google Cloud

Le classificateur personnalisé est conçu pour classer des documents. Il est conçu de A à Z avec vos propres documents et classes personnalisées.

Créer un classificateur personnalisé dans la console Google Cloud

Vous pouvez créer des classificateurs personnalisés spécifiquement adaptés à vos documents, et entraînés et évalués à l'aide de vos données. Cet outil de traitement identifie les classes de documents d'un ensemble de classes défini par l'utilisateur. Vous pouvez ensuite utiliser cet outil de traitement entraîné dans d'autres documents. Vous utiliserez généralement un classificateur personnalisé pour les documents de différents types, puis l'identification pour transmettre les documents à un outil d'extraction afin d'extraire les entités.

Voici un workflow type pour créer et utiliser un classificateur personnalisé :

  1. Créez un classificateur personnalisé dans Document AI.
  2. Créez un ensemble de données à l'aide d'un bucket Cloud Storage vide.
  3. Importez des documents.
  4. Annotez les documents manuellement dans Document AI Workbench ou avec des tâches d'étiquetage.
  5. Attribuez des documents aux ensembles d'entraînement et de test.
  6. Entraînez l'outil de traitement.
  7. Évaluez l'outil de traitement.
  8. Déployez l'outil de traitement.
  9. Testez l'outil de traitement.
  10. Utilisez l'outil de traitement dans vos documents.

Vous pouvez définir vos propres configurations en fonction de votre workflow.


Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud, cliquez sur Visite guidée :

Visite guidée


Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

Créer un outil de traitement

1. Accédez à la console Google Cloud, puis sélectionnez : Workbench
  1. Dans le champ Outil de classification de documents personnalisé, sélectionnez Créer un outil de traitement.

    custom-classifier-1

  2. Dans le menu Créer un processeur, saisissez le nom de votre processeur (par exemple, my-custom-document-classifier).

    custom-classifier-2

  3. Sélectionnez la région la plus proche de vous.

  4. Sélectionnez Créer. L'onglet Détails de l'outil de traitement s'affiche.

Configurer l'ensemble de données

Pour entraîner ce nouvel outil de traitement, vous devez créer un ensemble de données contenant des données d'entraînement et de test afin de l'aider à identifier les documents que vous souhaitez scinder et classer.

Cet ensemble de données nécessite un nouvel emplacement. Il peut s'agir d'un bucket Cloud Storage vide, ou vous pouvez autoriser un emplacement géré en interne.

Lorsque l'onglet Détails du processeur s'affiche, vous pouvez :

  • Sélectionner Stockage géré par Google si vous souhaitez utiliser Cloud Storage.
  • Sélectionner Je spécifie mon propre emplacement de stockage si vous souhaitez utiliser votre propre espace de stockage afin d'utiliser des clés de chiffrement gérées par le client (CMEK), et suivre la procédure suivante.

custom-classifier-3

Créer un bucket Cloud Storage pour l'ensemble de données

  1. Sélectionnez l'onglet Entraînement de votre processeur.

  2. Sélectionnez Définir l'emplacement de l'ensemble de données. Vous êtes alors invité à sélectionner ou à créer un bucket ou un dossier Cloud Storage vide.

    custom-classifier-4

  3. Cliquez sur Parcourir pour ouvrir l'option Sélectionner un dossier.

  4. Cliquez sur l'icône Créer un bucket, puis suivez les instructions pour créer un bucket. Pour en savoir plus sur la création d'un bucket Cloud Storage, consultez la page Buckets Cloud Storage.

    Remarque : Un bucket est l'entité de stockage de premier niveau dans laquelle vous pouvez imbriquer des dossiers. Au lieu de créer et de sélectionner un bucket, vous pouvez également créer et sélectionner un dossier vide dans un bucket existant. Pour en savoir plus, consultez la section Dossiers simulés Cloud Storage.

    Une fois le bucket créé, la page Sélectionner un dossier s'affiche.

  5. Sur la page Sélectionner un dossier de votre bucket, cliquez sur le bouton Sélectionner en bas de la boîte de dialogue.

    custom-classifier-5

  6. Assurez-vous que le chemin de destination est renseigné avec le nom du bucket que vous avez sélectionné. Sélectionnez Créer un ensemble de données. Cette opération peut prendre plusieurs minutes.

Importer des documents dans un ensemble de données

Vous allez ensuite importer vos documents dans votre ensemble de données.

  1. Dans l'onglet Entraînement, sélectionnez Importer des documents.

    custom-classifier-6

  2. Pour cet exemple, saisissez le nom de ce bucket dans Chemin source. Cela renvoie directement vers un document.

    cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
    
  3. Pour Répartition des données, sélectionnez Non attribué. Le document de ce dossier n'est attribué ni à l'ensemble de test, ni à l'ensemble d'entraînement. Ne cochez pas la case Importer avec l'étiquetage automatique.

  4. Sélectionnez Importer. Document AI lit les documents du bucket dans l'ensemble de données. Il ne modifie pas le bucket d'importation et ne lit pas ses données une fois l'importation terminée.

Lorsque vous importez des documents, vous pouvez les attribuer aux ensembles d'entraînement ou de test définis lors de l'importation, ou attendre de les attribuer ultérieurement.

Si vous souhaitez supprimer un ou plusieurs documents que vous avez importés, sélectionnez-les dans l'onglet Entraînement, puis sélectionnez Supprimer.

Pour en savoir plus sur la préparation de vos données pour l'importation, consultez le guide de préparation des données.

Définir le schéma de l'outil de traitement

Vous pouvez créer le schéma de l'outil de traitement avant ou après l'importation de documents dans votre ensemble de données. Le schéma fournit des étiquettes que vous utilisez pour annoter les documents.

  1. Dans l'onglet Entraînement, sélectionnez Modifier le schéma en bas à gauche. La page Gérer les étiquettes s'ouvre.

  2. Sélectionnez Créer un libellé.

  3. Saisissez le nom de l'étiquette. Sélectionnez le type de données. Sélectionnez Créer. Consultez la section Définir le schéma de l'outil de traitement pour obtenir des instructions détaillées sur la création et la modification d'un schéma.

  1. Créez chacune des étiquettes suivantes pour le schéma de l'outil de traitement.

    Nom Type de données
    computer_vision Type de document
    crypto Type de document
    med_tech Type de document
    other Type de document
  2. Sélectionnez Enregistrer lorsque vos étiquettes sont créées.

    custom-classifier-7

Ajouter une étiquette à un document

Le processus de sélection de texte dans un document et d'application d'étiquettes est appelé annotation.

  1. Revenez à l'onglet Entraînement, puis sélectionnez un document pour ouvrir la console Gestion des étiquettes.

  2. Dans le menu déroulant Type de document, sélectionnez l'étiquette appropriée pour le document.

  3. Si vous utilisez l'exemple de document fourni, sélectionnez computer_vision.

    Une fois l'opération terminée, le document étiqueté doit se présenter comme suit: custom-classifier-8

  4. Sélectionnez Marquer comme étiqueté lorsque vous avez terminé d'annoter le document.

    Dans l'onglet Entraînement, le panneau de gauche indique qu'un document a été étiqueté.

Attribuer un document annoté à l'ensemble d'entraînement

Maintenant que vous avez étiqueté cet exemple de document, vous pouvez l'attribuer à l'ensemble d'entraînement.

  1. Dans l'onglet Entraînement, cochez la case Sélectionner tout.

  2. Dans la liste Attribuer à un ensemble, sélectionnez Entraînement.

Dans le panneau de gauche, vous pouvez voir qu'un document a été attribué à l'ensemble d'entraînement.

Importer des données préalablement étiquetées dans les ensembles d'entraînement et de test

Ce guide contient des données préalablement étiquetées.

Si vous utilisez votre propre projet, vous devez déterminer comment étiqueter vos données. Consultez la section Options d'étiquetage. Les processeurs personnalisés de Document AI nécessitent au moins 10 documents dans les ensembles d'entraînement et de test, ainsi que 10 instances de chaque étiquette dans chaque ensemble. Pour des performances optimales, nous vous recommandons d'avoir au moins 50 documents dans chaque ensemble avec 50 instances de chaque étiquette. En général, plus la quantité de données d'entraînement est importante, plus la justesse est élevée.

  1. Sélectionnez Importer des documents.

  2. Saisissez le chemin suivant dans Chemin source. Ce bucket contient des documents préalablement étiquetés au format Document JSON.

    cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
    
  3. Dans la liste Répartition des données, sélectionnez Répartition automatique. Les documents sont automatiquement répartis de la manière suivante : 80 % dans l'ensemble d'entraînement et 20 % dans l'ensemble de test. Ignorez la section Appliquer des étiquettes.

  4. Sélectionnez Importer. L'importation peut prendre plusieurs minutes.

Une fois l'importation terminée, vous trouverez les documents dans l'onglet Entraînement.

Facultatif : Étiquetez plusieurs documents lors de l'importation

Une fois le schéma configuré, vous pouvez gagner du temps en étiquetant tous les documents situés dans un répertoire spécifique lors de l'importation.

custom-classifier-9

  1. Sélectionnez Importer des documents.

  2. Saisissez le chemin suivant dans Chemin source. Ce bucket contient des documents sans étiquettes au format PDF.

    cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
    
  3. Dans la liste Répartition des données, sélectionnez Répartition automatique. Les documents sont automatiquement répartis de la manière suivante : 80 % dans l'ensemble d'entraînement et 20 % dans l'ensemble de test.

  4. Dans la section Appliquer des étiquettes, sélectionnez Sélectionner une étiquette.

  5. Pour ces exemples de documents, sélectionnez other.

  6. Sélectionnez Importer et attendez la fin du processus. Vous pouvez quitter cette page et y revenir plus tard. Lorsque vous avez terminé, les documents s'affichent dans l'onglet Entraînement avec l'étiquette appliquée.

Entraîner l'outil de traitement

Maintenant que vous avez importé les données d'entraînement et de test, vous pouvez entraîner l'outil de traitement. Comme l'entraînement peut prendre plusieurs heures, assurez-vous d'avoir configuré l'outil de traitement avec les données et étiquettes appropriées avant de commencer l'entraînement.

  1. Sélectionnez Entraîner une nouvelle version.

  2. Dans le champ Nom de la version, saisissez un nom pour cette version de l'outil de traitement (par exemple, my-cdc-version-1).

  3. (Facultatif) Sélectionnez Afficher les statistiques relatives aux étiquettes pour afficher les informations sur les étiquettes des documents. Cela peut vous aider à déterminer votre couverture. Sélectionnez Fermer pour revenir à la configuration de l'entraînement.

  4. Sélectionnez Démarrer l'entraînement. Vous pouvez vérifier son état dans le panneau de droite.

Déployer la version de l'outil de traitement

  1. Une fois l'entraînement terminé, accédez à l'onglet Gérer les versions. Vous pouvez consulter les détails de la version que vous venez d'entraîner.

  2. Sélectionnez les trois points verticaux à droite de la version que vous souhaitez déployer, puis sélectionnez Déployer la version.

  3. Sélectionnez Déployer dans la fenêtre pop-up.

    Le déploiement prend quelques minutes.

Évaluer et tester l'outil de traitement

  1. Une fois le déploiement terminé, accédez à l'onglet Évaluer et tester.

    Sur cette page, vous pouvez consulter les métriques d'évaluation, y compris le score F1, la précision et le rappel pour le document complet, ainsi que des étiquettes individuelles. Pour en savoir plus sur l'évaluation et les statistiques, consultez la page Évaluer l'outil de traitement.

  2. Téléchargez un document qui n'a pas été utilisé pour l'entraînement ou les tests précédents afin de pouvoir l'utiliser pour évaluer la version de l'outil de traitement. Si vous utilisez vos propres données, vous devez vous servir d'un document réservé à cette fin.

    Télécharger le PDF

  3. Sélectionnez Importer le document de test , puis sélectionnez le document que vous venez de télécharger.

    La page Analyse du classificateur de documents personnalisé s'ouvre. Le résultat montre la classification du document.

    Vous pouvez également réexécuter l'évaluation sur un autre ensemble de test ou une autre version de l'outil de traitement.

Facultatif : Étiqueter automatiquement les nouveaux documents importés

Après avoir déployé une version de processeur entraînée, vous pouvez utiliser l'étiquetage automatique pour gagner du temps sur l'étiquetage lorsque vous importez de nouveaux documents.

  1. Sur la page Entraînement, cliquez sur Importer des documents.

  2. Copiez et collez le chemin d'accès Cloud Storage suivant. Ce répertoire contient cinq PDF de brevets sans étiquette. Dans la liste déroulante Répartition des données, sélectionnez Entraînement.

    cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
    
  3. Dans la section Appliquer des étiquettes, sélectionnez Étiquetage automatique.

  4. Sélectionnez une version existante du processeur pour étiqueter les documents.

    • Par exemple : 2af620b2fd4d1fcf
  5. Sélectionnez Importer et attendez la fin du processus. Vous pouvez quitter cette page et y revenir plus tard. Une fois l'opération terminée, les documents apparaissent dans la section Étiquette automatique de la page Entraînement.

  6. Vous ne pouvez pas utiliser de documents étiquetés automatiquement pour l'entraînement ou les tests sans les marquer comme étiquetés. Accédez à la section Étiquette automatique pour afficher les documents étiquetés automatiquement.

  7. Sélectionnez le premier document pour accéder à la console d'étiquetage.

  8. Vérifiez la configuration de l'étiquette. Ajustez-la si elle est incorrecte.

  9. Lorsque vous avez terminé, sélectionnez Marquer comme étiqueté.

  10. Répétez la validation des étiquettes pour chaque document étiqueté automatiquement, puis revenez à la page Entraînement pour utiliser les données pour l'entraînement.

Utiliser l'outil de traitement

Vous venez de créer et d'entraîner un outil de séparation de documents personnalisé.

Vous pouvez gérer les versions de votre outil de traitement entraîné personnalisé comme n'importe quelle autre version. Pour en savoir plus, consultez Gérer les versions de l'outil de traitement.

Vous pouvez envoyer une requête de traitement à votre outil de traitement personnalisé. La réponse peut être traitée de la même manière que pour les autres outils de classification.

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page ne soient facturées sur votre compte Google Cloud , suivez les étapes ci-dessous.

Pour éviter que des frais liés à Google Cloud ne vous soient facturés inutilement, supprimez votre processeur et votre projet à l'aide de la console Google Cloud si vous n'en avez plus besoin.

Si vous avez créé un projet pour apprendre à utiliser Document AI et que vous n'en avez plus besoin, supprimez-le.

Si vous avez utilisé un projet Google Cloud existant, supprimez les ressources que vous avez créées pour éviter que des frais ne soient facturés sur votre compte :

  1. Dans le menu de navigation de la console Google Cloud, sélectionnez Document AI, puis Mes processeurs.

  2. Sur la ligne correspondant à l'outil de traitement que vous souhaitez supprimer, sélectionnez Autres actions.

  3. Sélectionnez Supprimer le processeur, saisissez son nom, puis sélectionnez à nouveau Supprimer pour confirmer.

Étape suivante