Best practice e limitazioni note

Best practice

  • Pool di etichettatori singolo per progetto: nello scenario BYOL, anche se l'interfaccia utente di configurazione HITL supporta la creazione di nuovi pool di etichettatori per ogni processore, è consigliabile utilizzare un unico pool di etichettatori in tutti i processori di un progetto per semplificare le operazioni. Questo perché gli utenti di più pool di etichettatori possono comunque essere assegnati alla stessa attività e l'assegnazione di un pool di etichettatori a un'attività non impedisce al responsabile dell'etichettatura di assegnare altri etichettatori a quell'attività.
  • Più attività/tipo di documento: per elaborare un singolo tipo di documento potrebbero essere necessarie più attività. Questa operazione è obbligatoria nei seguenti scenari:
    • Etichettatori con competenze o credenziali diverse necessarie per rivedere/convalidare campi diversi dello stesso documento.
    • I documenti con campi diversi (ad es. fatture di fornitori diversi) potrebbero richiedere schemi diversi per essere convalidati, pertanto devono essere indirizzati a attività diverse.
    • I documenti di clienti diversi hanno pool di etichettatori diversi (ad es. fatture di clienti, lingue o paesi diversi).
    In questo scenario, consigliamo di creare più processori (e attività) e di pubblicare i documenti nell'attività appropriata. [Potrebbe essere necessario un classificatore per classificare questi documenti e inviarli al processore corretto].
  • Limita la revisione ai campi obbligatori (anziché a tutti i campi estratti dalla pagina) per risparmiare tempo e costi di revisione: il tempo di risposta/pagina aumenta in base al numero di campi da rivedere. I costi dell'etichettatore Google si basano sul numero di campi esaminati. Pertanto, è consigliabile limitare i campi da esaminare a quelli utilizzati nel processo aziendale a valle.
    • Ad esempio, una fattura potrebbe avere più di 30 campi, ma potresti voler limitare la revisione solo a 4-5 campi importanti per il pagamento della fattura.
  • Denominazione dei processori abilitati per l'intervento umano: il nome dell'attività HITL è uguale al nome del processore. Ti consigliamo di utilizzare un nome comprensibile ai responsabili dell'etichettatura e agli etichettatori e facilmente distinguibile dalle altre attività a cui lavoreranno.
  • Assegnazione della priorità alle attività: se un etichettatore è assegnato a più attività, le elabora in sequenza. Se un etichettatore deve cambiare attività (ad es. per rispondere a una riassegnazione di un cliente o rispettare un SLO), il responsabile dell'etichettatura deve annullare l'assegnazione dell'attività corrente e assegnare l'attività ad alta priorità agli etichettatori utilizzando la scheda Compiti nella console del responsabile dell'etichettatura.
    • La griglia Etichettatori x Attività nella console (mostrata di seguito) consente al responsabile dell'etichettatura di visualizzare tutte le assegnazioni degli etichettatori alle varie attività e di perfezionare l'assegnazione degli etichettatori alle attività per supportare le priorità delle attività.
  • Impostazione dei filtri di convalida Filtri di convalida
  • Documenti rifiutati: lo stato di rifiuto del documento insieme al codice motivo [ad es.tipo di documento diverso, falso, abbagliamento, sfocato, bordo tagliato ecc.] viene acquisito nei file JSON del documento (costrutto TextChange per tutte le modifiche, HumanReview per il motivo del rifiuto), output nel bucket Cloud Storage configurato. Ti consigliamo di utilizzare questi metadati per separare i documenti rifiutati.
  • Gestione di un volume elevato di importazione di documenti: le quote attuali limitano a 600 le richieste di documenti online al minuto e a 5 le richieste offline (batch) simultanee, ciascuna delle quali gestisce fino a 50 documenti. Si prevede che gestisca 36.000 richieste online/ora e fino a 15.000 richieste di documenti offline (batch)/ora [poiché ogni batch gestisce fino a 50 documenti]. Se sono necessari volumi più elevati, contatta l'assistenza.
  • Gestione di costi e tempistiche per la convalida da parte di persone fisiche: la convalida da parte di persone fisiche può essere costosa, che utilizzi i tuoi etichettatori o quelli di Google. Il tempo dedicato per pagina scala in base al numero di campi rivisti. I costi per la forza lavoro Google (in anteprima privata) vengono addebitati per etichetta rivista. Puoi controllare lo sforzo e i costi di revisione limitando HITL ai campi importanti che devono essere verificati e corretti. Per farlo, utilizza i filtri di convalida a livello di etichetta nella schermata di configurazione della revisione da parte di persone fisiche.
  • Accesso Single Sign-On con credenziali aziendali: Labeler Workbench e la console di gestione delle etichette supportano le credenziali di Google Workforce o Gmail. Se è richiesto il Single Sign-On con le credenziali aziendali, crea account Google Workforce di base per i tuoi annotatori. Google Workforce supporta SAML e puoi configurare il tuo provider SSO per accedere a Labeler Workbench o alla console Labeling Manager con le credenziali aziendali.

Limitazioni note e soluzioni alternative

Di seguito sono riportate alcune limitazioni note e possibili soluzioni alternative. Stiamo attualmente lavorando per risolvere le limitazioni.

  • Il riquadro di delimitazione deve acquisire del testo: se HITL viene utilizzato per annotare i documenti per l'addestramento, qualsiasi riquadro di delimitazione disegnato deve rilevare un OCR. Il valore non deve essere vuoto. L'inserimento manuale di un valore non risolve il problema.
  • Nuovo pool di labeler
  • VPC-SC: i clienti con VPC-SC attivato nel proprio progetto HITL potrebbero non essere in grado di utilizzare i revisori Google per la revisione HITL.
  • Latenza post-revisione: dopo la revisione di un documento, potrebbero essere necessari fino a 30 minuti prima che venga depositato nella cartella Cloud Storage preconfigurata.
  • Limite di 10 pagine: la revisione HITL è limitata a 10 pagine per le fatture. Le fatture più lunghe di 10 pagine non vengono inviate per la revisione HITL.
  • Workflow con un solo etichettatore: le attività del workflow corrente sono limitate a una singola revisione dell'etichettatore. Se il documento deve essere esaminato da più revisori (per il controllo qualità, la prevenzione delle frodi e così via), carica i documenti esaminati in un secondo processore nella modalità "Salta processore, invia tutti i documenti per la revisione HITL", in modo che vengano esaminati.
  • Modifica i gestori dell'etichettatura del pool di etichettatura: nelle attività BYOL, i gestori dell'etichettatura non possono essere aggiunti o rimossi da un pool di etichettatura una volta creato. Soluzione alternativa: quando crei un nuovo pool di etichettatura,
    • Assegna più di un responsabile dell'etichettatura, in modo che se uno lascia l'azienda prima del completamento dell'attività, gli altri possano gestire il pool e le assegnazioni delle attività.
    • Le persone che devono visualizzare le dashboard dell'etichettatore o delle analisi delle attività nell'interfaccia utente di Labeling Manager devono essere aggiunte come gestori del pool durante la creazione del pool.
  • Annullamento di un'attività: una volta avviata, un'attività non può essere annullata. La soluzione alternativa consiste nel mettere in pausa l'attività o annullare l'assegnazione dei labeler all'attività nella console Gestione etichette.
  • Assegnazione di un'attività a un intero pool di etichettatori con un solo clic: al momento non è supportata, ma lo sarà a breve. La soluzione alternativa consiste nel selezionare tutti gli etichettatori e assegnare loro l'attività.
  • Nuovo pool di labeler
  • Etichettatori BYOL con account Google Workspace: se i gestori e gli etichettatori BYOL hanno account Google Workspace, l'amministratore di Google Workspace potrebbe dover attivare "Altri servizi" nella parte inferiore della pagina Servizi Google (screenshot di seguito) per consentire l'accesso alla console di gestione delle etichette e al workbench dell'etichettatore. Google Workspace