Bonnes pratiques et limites connues

Bonnes pratiques

  • Un seul pool de personnes chargées de l'étiquetage par projet : dans le scénario BYOL, bien que l'interface utilisateur de configuration HITL permette de créer des pools de personnes chargées de l'étiquetage pour chaque processeur, il est recommandé d'utiliser un seul pool de personnes chargées de l'étiquetage pour tous les processeurs d'un projet afin de simplifier les choses. En effet, des utilisateurs de plusieurs pools de labellisation peuvent toujours être attribués à la même tâche. De plus, l'attribution d'un pool de labellisation à une tâche n'empêche pas le responsable de la labellisation d'attribuer d'autres labelliseurs à cette tâche.
  • Plusieurs tâches/type de document : plusieurs tâches peuvent être nécessaires pour traiter un seul type de document. Cette étape est obligatoire dans les cas suivants :
    • Des étiqueteurs ayant des compétences ou des qualifications différentes sont nécessaires pour examiner/valider différents champs du même document.
    • Les documents comportant des champs différents (par exemple, les factures de différents fournisseurs) peuvent nécessiter des schémas différents pour être validés. Ils doivent donc être acheminés vers des tâches différentes.
    • Différents groupes d'annotateurs travaillent sur les documents de différents clients (par exemple, les factures de différents clients, langues ou pays).
    Dans ce scénario, nous vous recommandons de créer plusieurs processeurs (et tâches) et de publier les documents dans la tâche appropriée. [Un classificateur peut être nécessaire pour classer ces documents et les envoyer au bon processeur.]
  • Limitez l'examen aux champs requis (par rapport à tous les champs extraits sur la page) pour réduire le temps et le coût de l'examen. Le temps de réponse/par page varie en fonction du nombre de champs à examiner. Les coûts de l'outil de classification Google sont basés sur le nombre de champs examinés. Il est donc recommandé de limiter les champs à examiner à ceux utilisés dans le processus métier en aval.
    • Par exemple, une facture peut comporter plus de 30 champs, mais vous pouvez limiter l'examen à seulement 4 ou 5 champs importants pour régler la facture.
  • Nommer les processeurs compatibles avec HITL : le nom de la tâche HITL est identique à celui du processeur. Nous vous recommandons d'utiliser un nom compréhensible par les responsables et les étiqueteurs, et qui se distingue facilement des autres tâches sur lesquelles ils travaillent.
  • Priorisation des tâches : si un étiqueteur est affecté à plusieurs tâches, il les traite de manière séquentielle. Si un étiqueteur doit changer de tâche (par exemple, pour répondre à une escalade client ou respecter un SLO), le responsable de l'étiquetage doit annuler l'attribution de la tâche en cours et attribuer la tâche à haute priorité à l'étiqueteur ou aux étiqueteurs à l'aide de l'onglet "Attributions" de la console Labeling Manager.
    • La grille "Labelers X Tasks" (Annotateurs X Tâches) de la console (illustrée ci-dessous) permet au responsable de l'annotation de voir toutes les tâches attribuées aux annotateurs et de choisir précisément quel annotateur travaille sur quelle tâche afin de respecter les priorités.
  • Définir des filtres de validation Filtres de validation
  • Documents refusés : l'état "Refusé" du document ainsi que le code de motif (par exemple, type de document différent, faux, éblouissement, flou, bordure coupée, etc.) sont enregistrés dans les fichiers JSON du document (construction TextChange pour toutes les modifications, HumanReview pour le motif de refus), qui sont générés dans le bucket Cloud Storage configuré. Il est recommandé d'utiliser ces métadonnées pour séparer les documents refusés.
  • Gérer un grand volume de documents ingérés : les quotas actuels limitent le nombre de requêtes de documents en ligne à 600 par minute et le nombre de requêtes hors connexion (par lot) simultanées à cinq, chacune pouvant traiter jusqu'à 50 documents. Il devrait gérer 36 000 requêtes en ligne par heure et jusqu'à 15 000 requêtes de documents hors connexion (par lot) par heure [chaque lot gérant jusqu'à 50 documents]. Si vous avez besoin de volumes plus importants, veuillez contacter l'assistance.
  • Gestion des coûts et du temps de la validation humaine : la validation humaine peut être coûteuse, que vous fassiez appel à vos propres étiqueteurs ou aux étiqueteurs Google. Le temps passé par page varie en fonction du nombre de champs examinés. La main-d'œuvre de Google (dans la Bêta privée) est facturée par étiquette examinée. Vous pouvez contrôler vos efforts et vos coûts en limitant le processus HITL aux champs importants qui doivent être vérifiés et corrigés. Pour ce faire, utilisez les filtres de validation au niveau des étiquettes dans l'écran de configuration associé aux examens manuels.
  • Accès par identifiant unique avec des identifiants Enterprise : l'atelier Labeler et la console Labeling Manager sont compatibles avec les identifiants Google Workforce ou Gmail. Si l'authentification unique avec des identifiants d'entreprise est requise, veuillez créer des comptes Google Workforce de base pour vos annotateurs. Google Workforce est compatible avec SAML. Vous pouvez configurer votre fournisseur d'authentification unique pour vous connecter à Labeler Workbench ou à la console Labeling Manager avec des identifiants d'entreprise.

Limites et solutions connues

Vous trouverez ci-dessous quelques limitations connues et solutions de contournement possibles. Nous nous efforçons actuellement de résoudre ces limitations.

  • Le cadre de délimitation doit capturer du texte : si le mode HITL est utilisé pour annoter des documents à des fins d'entraînement, tout cadre de délimitation dessiné doit détecter une reconnaissance optique des caractères. Vous devez spécifier une valeur. Saisir manuellement une valeur ne résout pas ce problème.
  • Nouveau pool d'étiqueteurs
  • VPC-SC : les clients ayant activé VPC-SC dans leur projet HITL ne pourront peut-être pas utiliser les annotateurs Google pour la révision HITL.
  • Latence après examen : une fois qu'un document a été examiné, il peut s'écouler jusqu'à 30 minutes avant qu'il ne soit déposé dans le dossier Cloud Storage préconfiguré.
  • Limite de 10 pages : l'examen HITL est limité à 10 pages pour les factures. Les factures de plus de 10 pages ne sont pas envoyées pour examen HITL.
  • Workflow à un seul annotateur : les tâches du workflow actuel sont limitées à un seul annotateur. Si le document doit être examiné par plusieurs examinateurs (pour l'assurance qualité, la prévention de la fraude, etc.), veuillez importer les documents examinés dans un deuxième processeur en mode "Ignorer le processeur, envoyer tous les documents pour examen HITL", afin qu'ils soient examinés.
  • Modifier les responsables du libellé du pool de libellés : dans les tâches BYOL, les responsables du libellé ne peuvent pas être ajoutés ni supprimés d'un pool de libellés une fois qu'il a été créé. Solution de contournement : lorsque vous créez un pool de libellisation,
    • Veuillez attribuer plus d'un responsable du libellé. Ainsi, si l'un d'eux quitte l'entreprise avant la fin de la tâche, le ou les autres pourront gérer le pool et les tâches attribuées.
    • Les personnes qui doivent consulter les tableaux de bord des données analytiques sur les tâches ou les annotateurs dans l'UI Labeling Manager doivent être ajoutées en tant que responsables de pool lors de la création du pool.
  • Annuler une tâche : une fois démarrée, une tâche ne peut pas être annulée. Pour contourner ce problème, le responsable du gestionnaire de libellés doit suspendre la tâche ou supprimer l'attribution de libellés à partir de la console du gestionnaire de libellés.
  • L'attribution d'une tâche à l'ensemble d'un pool d'annotateurs en un seul clic n'est pas encore disponible, mais le sera bientôt. Pour contourner ce problème, sélectionnez tous les annotateurs et attribuez-leur la tâche.
  • Nouveau pool d'étiqueteurs
  • Annotateurs BYOL disposant de comptes Google Workspace : si les responsables et les annotateurs BYOL disposent de comptes Google Workspace, il est possible que l'administrateur Google Workspace doive activer "Autres services" en bas de la page "Services Google" (captures d'écran ci-dessous) pour permettre l'accès à la console Labeling Manager et à l'atelier Labeler. Google Workspace