Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Bonnes pratiques
Un seul pool de personnes chargées de l'étiquetage par projet : dans le scénario BYOL, bien que l'interface utilisateur de configuration HITL permette de créer des pools de personnes chargées de l'étiquetage pour chaque processeur, il est recommandé d'utiliser un seul pool de personnes chargées de l'étiquetage pour tous les processeurs d'un projet afin de simplifier les choses. En effet, des utilisateurs de plusieurs pools de labellisation peuvent toujours être attribués à la même tâche. De plus, l'attribution d'un pool de labellisation à une tâche n'empêche pas le responsable de la labellisation d'attribuer d'autres labelliseurs à cette tâche.
Plusieurs tâches/type de document : plusieurs tâches peuvent être nécessaires pour traiter un seul type de document. Cette étape est obligatoire dans les cas suivants :
Des étiqueteurs ayant des compétences ou des qualifications différentes sont nécessaires pour examiner/valider différents champs du même document.
Les documents comportant des champs différents (par exemple, les factures de différents fournisseurs) peuvent nécessiter des schémas différents pour être validés. Ils doivent donc être acheminés vers des tâches différentes.
Différents groupes d'annotateurs travaillent sur les documents de différents clients (par exemple, les factures de différents clients, langues ou pays).
Dans ce scénario, nous vous recommandons de créer plusieurs processeurs (et tâches) et de publier les documents dans la tâche appropriée. [Un classificateur peut être nécessaire pour classer ces documents et les envoyer au bon processeur.]
Limitez l'examen aux champs requis (par rapport à tous les champs extraits sur la page) pour réduire le temps et le coût de l'examen. Le temps de réponse/par page varie en fonction du nombre de champs à examiner. Les coûts de l'outil de classification Google sont basés sur le nombre de champs examinés. Il est donc recommandé de limiter les champs à examiner à ceux utilisés dans le processus métier en aval.
Par exemple, une facture peut comporter plus de 30 champs, mais vous pouvez limiter l'examen à seulement 4 ou 5 champs importants pour régler la facture.
Nommer les processeurs compatibles avec HITL : le nom de la tâche HITL est identique à celui du processeur. Nous vous recommandons d'utiliser un nom compréhensible par les responsables et les étiqueteurs, et qui se distingue facilement des autres tâches sur lesquelles ils travaillent.
Priorisation des tâches : si un étiqueteur est affecté à plusieurs tâches, il les traite de manière séquentielle. Si un étiqueteur doit changer de tâche (par exemple, pour répondre à une escalade client ou respecter un SLO), le responsable de l'étiquetage doit annuler l'attribution de la tâche en cours et attribuer la tâche à haute priorité à l'étiqueteur ou aux étiqueteurs à l'aide de l'onglet "Attributions" de la console Labeling Manager.
La grille "Labelers X Tasks" (Annotateurs X Tâches) de la console (illustrée ci-dessous) permet au responsable de l'annotation de voir toutes les tâches attribuées aux annotateurs et de choisir précisément quel annotateur travaille sur quelle tâche afin de respecter les priorités.
Définir des filtres de validation
Documents refusés : l'état "Refusé" du document ainsi que le code de motif (par exemple, type de document différent, faux, éblouissement, flou, bordure coupée, etc.) sont enregistrés dans les fichiers JSON du document (construction TextChange pour toutes les modifications, HumanReview pour le motif de refus), qui sont générés dans le bucket Cloud Storage configuré. Il est recommandé d'utiliser ces métadonnées pour séparer les documents refusés.
Gérer un grand volume de documents ingérés : les quotas actuels limitent le nombre de requêtes de documents en ligne à 600 par minute et le nombre de requêtes hors connexion (par lot) simultanées à cinq, chacune pouvant traiter jusqu'à 50 documents. Il devrait gérer 36 000 requêtes en ligne par heure et jusqu'à 15 000 requêtes de documents hors connexion (par lot) par heure [chaque lot gérant jusqu'à 50 documents]. Si vous avez besoin de volumes plus importants, veuillez contacter l'assistance.
Gestion des coûts et du temps de la validation humaine : la validation humaine peut être coûteuse, que vous fassiez appel à vos propres étiqueteurs ou aux étiqueteurs Google. Le temps passé par page varie en fonction du nombre de champs examinés. La main-d'œuvre de Google (dans la Bêta privée) est facturée par étiquette examinée. Vous pouvez contrôler vos efforts et vos coûts en limitant le processus HITL aux champs importants qui doivent être vérifiés et corrigés. Pour ce faire, utilisez les filtres de validation au niveau des étiquettes dans l'écran de configuration associé aux examens manuels.
Accès par identifiant unique avec des identifiants Enterprise : l'atelier Labeler et la console Labeling Manager sont compatibles avec les identifiants Google Workforce ou Gmail. Si l'authentification unique avec des identifiants d'entreprise est requise, veuillez créer des comptes Google Workforce de base pour vos annotateurs. Google Workforce est compatible avec SAML. Vous pouvez configurer votre fournisseur d'authentification unique pour vous connecter à Labeler Workbench ou à la console Labeling Manager avec des identifiants d'entreprise.
Limites et solutions connues
Vous trouverez ci-dessous quelques limitations connues et solutions de contournement possibles. Nous nous efforçons actuellement de résoudre ces limitations.
Le cadre de délimitation doit capturer du texte : si le mode HITL est utilisé pour annoter des documents à des fins d'entraînement, tout cadre de délimitation dessiné doit détecter une reconnaissance optique des caractères. Vous devez spécifier une valeur. Saisir manuellement une valeur ne résout pas ce problème.
VPC-SC : les clients ayant activé VPC-SC dans leur projet HITL ne pourront peut-être pas utiliser les annotateurs Google pour la révision HITL.
Latence après examen : une fois qu'un document a été examiné, il peut s'écouler jusqu'à 30 minutes avant qu'il ne soit déposé dans le dossier Cloud Storage préconfiguré.
Limite de 10 pages : l'examen HITL est limité à 10 pages pour les factures. Les factures de plus de 10 pages ne sont pas envoyées pour examen HITL.
Workflow à un seul annotateur : les tâches du workflow actuel sont limitées à un seul annotateur. Si le document doit être examiné par plusieurs examinateurs (pour l'assurance qualité, la prévention de la fraude, etc.), veuillez importer les documents examinés dans un deuxième processeur en mode "Ignorer le processeur, envoyer tous les documents pour examen HITL", afin qu'ils soient examinés.
Modifier les responsables du libellé du pool de libellés : dans les tâches BYOL, les responsables du libellé ne peuvent pas être ajoutés ni supprimés d'un pool de libellés une fois qu'il a été créé. Solution de contournement : lorsque vous créez un pool de libellisation,
Veuillez attribuer plus d'un responsable du libellé. Ainsi, si l'un d'eux quitte l'entreprise avant la fin de la tâche, le ou les autres pourront gérer le pool et les tâches attribuées.
Les personnes qui doivent consulter les tableaux de bord des données analytiques sur les tâches ou les annotateurs dans l'UI Labeling Manager doivent être ajoutées en tant que responsables de pool lors de la création du pool.
Annuler une tâche : une fois démarrée, une tâche ne peut pas être annulée. Pour contourner ce problème, le responsable du gestionnaire de libellés doit suspendre la tâche ou supprimer l'attribution de libellés à partir de la console du gestionnaire de libellés.
L'attribution d'une tâche à l'ensemble d'un pool d'annotateurs en un seul clic n'est pas encore disponible, mais le sera bientôt. Pour contourner ce problème, sélectionnez tous les annotateurs et attribuez-leur la tâche.
Annotateurs BYOL disposant de comptes Google Workspace : si les responsables et les annotateurs BYOL disposent de comptes Google Workspace, il est possible que l'administrateur Google Workspace doive activer "Autres services" en bas de la page "Services Google" (captures d'écran ci-dessous) pour permettre l'accès à la console Labeling Manager et à l'atelier Labeler.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[[["\u003cp\u003eDocument AI Human-in-the-Loop (HITL) is being deprecated and will no longer be available on Google Cloud after January 16, 2025, with new customers not being allowlisted.\u003c/p\u003e\n"],["\u003cp\u003eIt's recommended to use a single labeler pool across all processors in a project for simplicity, despite the ability to create multiple pools.\u003c/p\u003e\n"],["\u003cp\u003eMultiple tasks and processors may be necessary for a single document type when different skills, schemas, or labeler pools are required, and a classifier may be used to route documents correctly.\u003c/p\u003e\n"],["\u003cp\u003eReview time and costs can be optimized by limiting the review to only the essential fields needed for downstream processes, as the time spent per page scales with the number of fields reviewed.\u003c/p\u003e\n"],["\u003cp\u003eHITL has limitations, including a maximum of 10 pages for invoice review, a single-labeler workflow, and post-review latency of up to 30 minutes for document deposit.\u003c/p\u003e\n"]]],[],null,["# Best Practices and Known Limitations\n====================================\n\n\n| **Caution** : Document AI Human-in-the-Loop is deprecated and will no longer be available on Google Cloud after January 16, 2025. New customers are not allowlisted. If you want to use (HITL) but don't see the option available, contact your Google Account team. \n|\n| To implement a human review and correction solution that meets your requirements, we recommend working with a Google Cloud certified partner like Devoteam, Searce, or Quantiphi. See [Deprecations](/document-ai/docs/deprecation) for details.\n\n\u003cbr /\u003e\n\n\n| **Note** : This product is subject to the [Data Processing and Security Terms](/terms/data-processing-terms).\n\n\u003cbr /\u003e\n\nBest Practices\n--------------\n\n- **Single Labeler pool per project** - In the BYOL scenario, although the HITL Setup UI supports creating new labeler pools for each processor, it is recommended to use a single labeler pool across all processors in a project to keep things simple. This is because users from multiple labeler pools can still be assigned to the same task, and assigning a labeler pool to a task doesn't restrict the Labeling Manager from assigning other labelers to that task.\n- **Multiple tasks/document-type** - Multiple tasks may be required to process a single document-type. This is required in the following scenarios:\n - Labelers with different skills or credentials required to review/validate different fields of the same document.\n - Documents with different fields (e.g. invoices from different vendors) may need different schema to be validated, hence need to be routed to different tasks.\n - Documents from different customers have different labeler pools working on them (e.g. invoices from different customers, languages or countries).\n In this scenario, we recommend creating multiple processors (and tasks) and posting the documents to the appropriate task. \\[A classifier may be required to classify these documents and post to the correct processor\\].\n- **Limit Review to the fields required (vs all extracted fields on page), to save Review time and cost** - The Answer time/page scales with the number of fields to be reviewed. The Google labeler costs are based on the # of fields reviewed. Therefore it is recommended to limit the fields to be reviewed to the ones used in downstream business process.\n - For example, an Invoice might have 30+ fields but you may want to limit Review to only 4-5 fields that are important for settling the invoice.\n- **Naming HITL-enabled Processors** - The HITL task name is the same as the processor name. It is recommended to use a name that is understood by the labeling managers and labelers, and easily distinguished from other tasks they would be working on.\n- **Prioritizing Tasks** - If a labeler is assigned to multiple tasks, they process these sequentially. If a labeler needs to switch tasks (e.g. to respond to a customer escalation or meet an SLO), the Labeling Manager should un-assign the current task and assign the High Priority task to the labeler(s) using the Assignments tab in the Labeling Manager Console.\n - The Labelers X Tasks grid in the Console (shown below) allows the Labeling Manager to see all the labeler assignments to various tasks and to fine-tune which labeler works on which task in order to support the task priorities.\n- **Setting Validation Filters**\n- **Rejected documents** - Rejected state of the document along with the Reason code \\[e.g. different doc-type, forged, glare, blurry, edge cut off, etc\\] is captured in the Document JSON files ([TextChange](/document-ai/docs/reference/rest/v1beta3/Document#textchange) construct for all changes, [HumanReview](/document-ai/docs/reference/rest/v1beta3/Document#humanreview) for reject reason), output in the configured Cloud Storage bucket. It is recommended to use this metadata to separate the rejected documents.\n- **Handling large document ingest volume** - Current [quotas](https://cloud.google.com/document-ai/quotas) limit 600 online document requests/minute and upto 5 concurrent offline (batch) requests, each handling upto 50 documents. This is expected to handle 36000 online requests/hour and upto 15000 offline (batch) document requests/hour \\[since each batch handles upto 50 documents\\]. If higher volumes are required, please contact Support.\n- **Managing human validation costs and time** - Human validation can get expensive, whether you use your own labelers or Google labelers. The time spent per page scales with the # of fields reviewed. Google Workforce (in Private Preview) is billed per label reviewed. You can control your review effort and cost by limiting HITL to the important fields that need to be verified and corrected. To do so, use the Label-level Validation filters in the Human Review configuration screen.\n- **Single Sign-on access with Enterprise credentials** - The Labeler Workbench and Labeling Manager Console support Google Workforce or Gmail credentials. If single sign-on with enterprise credentials is required, please create Basic Google Workforce accounts for your labeler workforce. Google Workforce supports SAML and you can configure your SSO provider to sign onto the Labeler Workbench or Labeling Manager Console with enterprise credentials.\n\nKnown Limitations and Workarounds\n---------------------------------\n\nFollowing are some known limitations and possible workarounds. We are currently addressing the limitations.\n\n- **The bounding box must capture some text** - If HITL is used to annotate documents for training, any bounding box drawn must detect some OCR. The value should not be empty. Manually entering a value does not fix this issue.\n- **VPC-SC** - Customers with VPC-SC activated in their HITL project may not be able to use Google labelers for HITL Review.\n- **Post-review Latency** - After a document is reviewed, it may take up to 30 minutes for it to be deposited in the pre-configured Cloud Storage folder.\n- **10 page limit** - HITL review is limited to 10 pages for Invoices. Invoices larger than 10 pages are not sent for HITL review.\n- **Single-labeler workflow** - The current workflow tasks are limited to a single labeler review. If the document needs to be reviewed by multiple reviewers (for QA, fraud prevention etc), please upload the reviewed documents to a second processor in the mode \"Skip processor, send all docs for HITL Review\", so they are reviewed.\n- **Edit Labeling Managers of Labeling pool** - In BYOL tasks, labeling managers cannot be added or removed to a labeling pool once it's created. Workaround: When creating a new labeling pool,\n - Please assign more than 1 labeling managers, so that if one leaves before the task completes, the other(s) can manage the pool and task assignments.\n - Individuals that need to view the labeler or task analytics dashboards in the Labeling Manager UI should be added as Pool Managers when creating the pool.\n- **Canceling a Task** - Once started, a task cannot be cancelled. The work-around is for the Labeling Manager to pause the task or unassign labelers from the task in the Labeling Manager Console.\n- **Assigning a Task to an entire Labeler Pool in a single click** - isn't currently supported but will be supported shortly. The work-around is to select all the labelers and assigning the task to them.\n- **BYOL Labelers with Google Workspace accounts** - If BYOL labeling managers and labelers have Google Workspace accounts, the Google Workspace Admin may need to enable \"Other Services\" at the bottom of the Google Services page (screenshots below), in order to enable access to the Labeling Manager Console and Labeler Workbench."]]