Surentraîner un processeur pré-entraîné

L'analyseur de factures vous permet de surentraîner un processeur pré-entraîné pour améliorer la précision. Vous commencez avec un modèle prédéfini, puis vous l'entraînez avec vos données en ajoutant des champs personnalisés. Les formats de facture sont variés, et surentraîner un analyseur de factures générique avec vos données peut améliorer la précision de formats spécifiques et permettre à l'analyseur d'extraire les champs non compatibles avec le modèle pré-entraîné. Des échantillons de données sont fournis, mais vous pouvez suivre les mêmes procédures avec vos propres données.


Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud, cliquez sur Visite guidée :

Visite guidée


Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

Créer un outil de traitement

  1. Dans le menu de navigation de la console Google Cloud, sélectionnez Document AI, puis Galerie d'outils de traitement.

    Galerie d'outils de traitement

  2. Dans la Galerie de processeurs, recherchez l'élément Analyseur de factures et sélectionnez Créer.

    uptrain-a-legacy-processor-1

  3. Saisissez un nom d'outil de traitement tel que invoice-parser-for-uptraining.

  4. Sélectionnez la région la plus proche de vous.

  5. Sélectionnez Créer. L'onglet Détails de l'outil de traitement s'affiche.

    uptrain-a-legacy-processor-2

Créer un bucket Cloud Storage pour l'ensemble de données

Pour entraîner ce nouvel outil de traitement, vous devez créer un ensemble de données contenant des données d'entraînement et de test afin de l'aider à identifier les entités que vous souhaitez extraire.

Cet ensemble de données nécessite un nouveau bucket Cloud Storage. N'utilisez pas le même bucket que celui dans lequel vos documents sont stockés.

  1. Accédez à l'onglet Entraînement de votre outil de traitement.

  2. Sélectionnez Définir l'emplacement de l'ensemble de données. Vous êtes alors invité à sélectionner ou à créer un bucket ou un dossier Cloud Storage vide.

    uptrain-a-legacy-processor-3

  3. Cliquez sur Parcourir pour ouvrir l'option Sélectionner un dossier.

  4. Sélectionnez Créer un bucket et suivez les instructions pour créer un bucket. Pour en savoir plus sur la création d'un bucket Cloud Storage, consultez la page Buckets Cloud Storage.

    Remarque : Un bucket est l'entité de stockage de premier niveau dans laquelle vous pouvez imbriquer des dossiers. Au lieu de créer et de sélectionner un bucket, vous pouvez également créer et sélectionner un dossier vide dans un bucket existant. Reportez-vous à la section Dossiers simulés.

    Une fois le bucket créé, la page Sélectionner un dossier s'affiche.

  5. Sur la page Sélectionner un dossier de votre bucket, cliquez sur Sélectionner en bas de la boîte de dialogue.

    uptrain-a-legacy-processor-4

  6. Assurez-vous que le chemin de destination est renseigné avec le nom du bucket que vous avez sélectionné. Sélectionnez Créer un ensemble de données. Cette opération peut prendre plusieurs minutes.

    uptrain-a-legacy-processor-5

  • Passer directement à l'entraînement avancé: passez à l'étape Importer des données préalablement étiquetées. Au lieu d'importer un exemple de document, utilisez des outils pour ajouter manuellement des étiquettes aux champs et ajouter le document aux données d'entraînement.

  • Ajoutez des documents à l'ensemble d'entraînement et ajoutez-les manuellement: avant de procéder à l'actualisation de l'entraînement, continuez à importer un exemple de document pour le libellé manuel en suivant les instructions fournies.

Importer un exemple de document pour l'étiquetage manuel

Importez ensuite un fichier d'exemple de facture au format PDF dans votre ensemble de données. Vous allez étiqueter les champs de ce document pour faciliter le processus de surentraînement ultérieur.

Ce guide vous fournit un fichier représentatif à utiliser en tant qu'exemple.

  1. Dans l'onglet Entraînement, sélectionnez Importer des documents.

    uptrain-a-legacy-processor-6

  2. Pour cet exemple, saisissez le nom de ce bucket dans Chemin source. Cela renvoie directement vers un document.

    cloud-samples-data/documentai/codelabs/uptraining/pdfs
    
  3. Pour Répartition des données, sélectionnez Non attribué. Le document de ce dossier n'est attribué ni à l'ensemble de test, ni à l'ensemble d'entraînement. Ne cochez pas la case Importer avec l'étiquetage automatique.

  4. Sélectionnez Importer. Document AI lit les documents du bucket dans l'ensemble de données. Il ne modifie pas le bucket d'importation et ne lit pas ses données une fois l'importation terminée.

Lorsque vous importez des documents, vous pouvez les attribuer aux ensembles d'entraînement ou de test définis lors de l'importation, ou attendre de les attribuer ultérieurement.

Si vous souhaitez supprimer un ou plusieurs documents que vous avez importés, sélectionnez-les dans l'onglet Entraînement, puis sélectionnez Supprimer.

Pour en savoir plus sur la préparation de vos données pour l'importation, consultez le guide de préparation des données.

Définir le schéma de l'outil de traitement

Il est possible que votre ensemble de données ne contienne pas toutes les étiquettes acceptées par l'analyseur de factures. Si tel est le cas, vous devez marquer les étiquettes qui ne sont pas utilisées comme Inactive avant de commencer le surentraînement. Vous pouvez également ajouter une ou plusieurs étiquettes personnalisées avant de commencer le surentraînement.

  1. Dans l'onglet Entraînement, sélectionnez Modifier le schéma en bas à gauche. La page Gérer les étiquettes s'ouvre.

  2. Pour désactiver les étiquettes inutilisées, cochez les cases correspondant aux champs qui ne figurent pas dans la liste suivante, puis sélectionnez Désactiver. Les champs suivants doivent rester activés :

    invoice_date
    line_item
      amount
      description
    receiver_address
    receiver_name
    supplier_address
    supplier_name
    total_amount
    

    Remarque : Les étiquettes ne peuvent pas être supprimées. À la place, vous pouvez désactiver les étiquettes que vous ne souhaitez pas utiliser.

  3. Sélectionnez Enregistrer lorsque vos étiquettes sont créées.

    uptrain-a-legacy-processor-7

  4. Sélectionnez la flèche de retour pour revenir à la page Entraînement.

Ajouter une étiquette à un document

Le processus de sélection de texte dans un document et d'application d'étiquettes est appelé annotation.

  1. Revenez à l'onglet Entraînement, puis sélectionnez un document pour ouvrir la console Gestion des étiquettes.

  2. Dans le panneau de gauche, sélectionnez l'étiquette de schéma correspondant à la valeur que vous souhaitez annoter, puis appliquez l'étiquette.

  3. Utilisez l'outil Cadre de délimitation par défaut ou Sélectionner du texte pour les valeurs multilignes, pour sélectionner le contenu et appliquer l'étiquette.

    Par exemple, dans cette facture, le texte "McWilliam Piping International Piping Company" doit être associé à l'étiquette supplier_name. Vous pouvez utiliser le filtre "Texte" pour rechercher des noms d'étiquettes.

    Remarque : L'outil Sélectionner du texte ne fonctionne pas pour toutes les valeurs textuelles. Utilisez le cadre de délimitation si nécessaire. Vous pouvez également sélectionner des champs non textuels tels que des cases à cocher à l'aide de l'outil Cadre de délimitation.

  4. Examinez les valeurs textuelles détectées afin de vous assurer qu'elles correspondent au texte exact du document.

    • Lorsque vous sélectionnez du texte correspondant à une étiquette, veillez à n'inclure que le texte pertinent. Par exemple, pour un libellé invoice_id, n'incluez pas de caractères tels que # qui précèdent souvent la valeur numérique. N'incluez pas de symboles monétaires tels que $ pour de l'argent.

      • Veillez à annoter toutes les instances d'une entité. Par exemple, supplier_name ou invoice_id peuvent apparaître plusieurs fois dans le document, et chaque instance doit être annotée.
  5. Répétez l'opération pour chaque champ auquel vous souhaitez ajouter une étiquette.

Voici un exemple de l'ensemble complet des étiquettes avec le texte correspondant.

Nom de l'étiquette Texte
supplier_name McWilliam Piping International Piping Company
supplier_address 14368 Pipeline Ave Chino, CA 91710
invoice_id 10001
due_date 2020-01-02
line_item/description Knuckle Couplers
line_item/quantity 9
line_item/unit_price 74.43
line_item/amount 669.87
line_item/description PVC Pipe 12 Inch
line_item/quantity 7
line_item/unit_price 15.90
line_item/amount 111.30
line_item/description Copper Pipe
line_item/quantity 7
line_item/unit_price 91.20
line_item/amount 638.40
net_amount 1,419.57
total_tax_amount 113.57
total_amount 1,533.14
currency
  1. Sélectionnez Marquer comme étiqueté lorsque vous avez terminé d'annoter le document.

    Dans l'onglet Entraînement, le panneau de gauche indique qu'un document a été étiqueté.

Attribuer un document annoté à l'ensemble d'entraînement

Maintenant que vous avez étiqueté cet exemple de document, vous pouvez l'attribuer à l'ensemble d'entraînement.

  1. Dans l'onglet Entraînement, cochez la case Sélectionner tout.

  2. Dans la liste Attribuer à un ensemble, sélectionnez Entraînement.

Dans le panneau de gauche, vous pouvez voir qu'un document a été attribué à l'ensemble d'entraînement.

Importer des données préalablement étiquetées dans les ensembles d'entraînement et de test

Le surentraînement de Document AI nécessite au moins 10 documents dans les ensembles d'entraînement et de test, ainsi que 10 instances de chaque étiquette dans chaque ensemble.

Pour des performances optimales, nous vous recommandons d'avoir au moins 50 documents dans chaque ensemble, avec 50 instances de chaque étiquette. Généralement, plus la quantité de données d'entraînement est élevée, plus la précision est élevée.

Ce guide contient des données préalablement étiquetées. Si vous utilisez votre propre projet, vous devez déterminer comment étiqueter vos données. Consultez la section Options d'étiquetage.

  1. Sélectionnez Importer des documents.

  2. Saisissez le chemin suivant dans Chemin source. Ce bucket contient des documents préalablement étiquetés au format Document JSON.

    cloud-samples-data/documentai/Custom/Invoices/JSON
    
  3. Dans la liste Répartition des données, sélectionnez Répartition automatique. Les documents sont automatiquement répartis de la manière suivante : 80 % dans l'ensemble d'entraînement et 20 % dans l'ensemble de test. Ne cochez pas la case Importer avec l'étiquetage automatique.

  4. Sélectionnez Importer. L'importation peut prendre plusieurs minutes. Les documents s'affichent ensuite dans l'onglet Entraînement.

Facultatif : Étiqueter automatiquement les nouveaux documents importés

Lorsque vous importez des documents sans étiquette pour un outil de traitement qui dispose déjà d'une version déployée, vous pouvez utiliser l'étiquetage automatique pour gagner du temps.

  1. Sur la page Entraînement, cliquez sur Importer des documents.

  2. Copiez et collez le chemin d'accès Cloud Storage suivant. Ce répertoire contient cinq factures PDF sans étiquette. Dans la liste déroulante Répartition des données, sélectionnez Entraînement.

    cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
    
  3. Dans la section Étiquetage automatique, cochez la case Importer avec l'étiquetage automatique.

  4. Sélectionnez une version existante du processeur pour étiqueter les documents.

    • Par exemple : pretrained-invoice-v1.3-2022-07-15
  5. Sélectionnez Importer et attendez que les documents soient importés. Vous pouvez quitter cette page et y revenir plus tard.

    • Une fois l'opération terminée, les documents s'affichent sur la page Entraînement de la section Étiquette automatique.
  6. Vous ne pouvez pas utiliser de documents étiquetés automatiquement pour l'entraînement ou les tests sans les marquer comme étiquetés. Accédez à la section Étiquette automatique pour afficher les documents étiquetés automatiquement.

  7. Sélectionnez le premier document pour accéder à la console d'étiquetage.

  8. Vérifiez la configuration de l'étiquette. Ajustez-la si elle est incorrecte.

  9. Lorsque vous avez terminé, sélectionnez Marquer comme étiqueté.

  10. Répétez la validation des étiquettes pour chaque document étiqueté automatiquement, puis revenez à la page Entraînement pour utiliser les données pour l'entraînement.

Entraîner l'outil de traitement

Maintenant que vous avez importé les données d'entraînement et de test, vous pouvez entraîner l'outil de traitement. Comme l'entraînement peut prendre plusieurs heures, assurez-vous d'avoir configuré l'outil de traitement avec les données et étiquettes appropriées avant de commencer l'entraînement.

  1. Sélectionnez Surentraîner une nouvelle version.

  2. Dans le champ Nom de la version, saisissez un nom pour cette version de l'outil de traitement (par exemple, invoice-uptrain-1).

  3. (Facultatif) Sélectionnez Afficher les statistiques relatives aux étiquettes pour afficher les informations sur les étiquettes des documents. Cela peut vous aider à déterminer votre couverture. Sélectionnez Fermer pour revenir à la configuration de l'entraînement.

  4. Sélectionnez Démarrer l'entraînement. Vous pouvez vérifier son état dans le panneau de droite.

    La page Gestion des ensembles de données s'ouvre. Vous pouvez consulter l'état de l'entraînement sur la droite. L'entraînement peut prendre quelques heures, selon la taille de l'ensemble de données. Vous pouvez quitter cette page et y revenir plus tard.

Déployer la version de l'outil de traitement

  1. Une fois l'entraînement terminé, accédez à l'onglet Gérer les versions. Vous pouvez consulter les détails de la version que vous venez d'entraîner.

  2. Sélectionnez les trois points verticaux à droite de la version que vous souhaitez déployer, puis sélectionnez Déployer la version.

  3. Sélectionnez Déployer dans la fenêtre pop-up.

    Le déploiement prend quelques minutes.

Évaluer et tester l'outil de traitement

  1. Une fois le déploiement terminé, accédez à l'onglet Évaluer et tester.

    Sur cette page, vous pouvez consulter les métriques d'évaluation, y compris le score F1, la précision et le rappel pour le document complet, ainsi que des étiquettes individuelles. Pour en savoir plus sur l'évaluation et les statistiques, consultez la page Évaluer l'outil de traitement.

  2. Téléchargez un document qui n'a pas été utilisé pour l'entraînement ou les tests précédents afin de pouvoir l'utiliser pour évaluer la version de l'outil de traitement. Si vous utilisez vos propres données, vous devez vous servir d'un document réservé à cette fin.

    Télécharger le PDF

  3. Sélectionnez Importer le document de test , puis sélectionnez le document que vous venez de télécharger.

    La page Analyse des factures s'ouvre. La sortie de l'écran montre comment le document a été classé.

    Vous pouvez également réexécuter l'évaluation sur un autre ensemble de test ou une autre version de l'outil de traitement.

Utiliser l'outil de traitement

Vous venez de créer et de surentraîner un analyseur de factures.

Vous pouvez gérer les versions de votre outil de traitement entraîné personnalisé comme n'importe quelle autre version, par exemple lorsque vous passez à une version plus récente lorsqu'une version est obsolète. Pour en savoir plus, consultez Gérer les versions de l'outil de traitement.

Vous pouvez envoyer une requête de traitement à votre outil de traitement personnalisé. La réponse peut être traitée de la même manière que pour les autres outils d'extraction d'entités.

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page ne soient facturées sur votre compte Google Cloud , suivez les étapes ci-dessous.

Pour éviter que des frais liés à Google Cloud ne vous soient facturés inutilement, supprimez votre processeur et votre projet à l'aide de la console Google Cloud si vous n'en avez plus besoin.

Si vous avez créé un projet pour apprendre à utiliser Document AI et que vous n'en avez plus besoin, supprimez-le, [supprimer le projet][delete-project].

Si vous avez utilisé un projet Google Cloud existant, supprimez les ressources que vous avez créées pour éviter que des frais ne soient facturés sur votre compte :

  1. Dans le menu de navigation de la console Google Cloud, sélectionnez Document AI, puis Mes processeurs.

  2. Sur la ligne correspondant à l'outil de traitement que vous souhaitez supprimer, sélectionnez Autres actions.

  3. Sélectionnez Supprimer le processeur, saisissez son nom, puis sélectionnez à nouveau Supprimer pour confirmer.

Étape suivante