ベスト プラクティスと既知の制限事項

ベスト プラクティス

  • プロジェクトごとに 1 つのラベラー プール - BYOL シナリオでは、HITL 設定 UI でプロセッサごとに新しいラベラー プールを作成できますが、シンプルさを保つために、プロジェクト内のすべてのプロセッサで 1 つのラベラー プールを使用することをおすすめします。これは、複数のラベル付け担当者プールに属するユーザーを同じタスクに割り当てることができ、ラベル付け担当者プールをタスクに割り当てても、ラベル付け管理者が他のラベル付け担当者をそのタスクに割り当てることを制限できないためです。
  • 複数のタスク/ドキュメント タイプ - 単一のドキュメント タイプを処理するために複数のタスクが必要になる場合があります。これは、次のような場合に必要になります。
    • 同じドキュメントの異なるフィールドを確認/検証するために、異なるスキルや認証資格を持つラベル付け担当者が必要。
    • フィールドが異なるドキュメント(異なるベンダーからの請求書など)は、検証に異なるスキーマが必要になる可能性があるため、異なるタスクに転送する必要があります。
    • 異なる顧客のドキュメントには、異なるラベル付け担当者プールが割り当てられます(異なる顧客、言語、国の請求書など)。
    このシナリオでは、複数のプロセッサ(およびタスク)を作成し、ドキュメントを適切なタスクに投稿することをおすすめします。[これらのドキュメントを分類して正しいプロセッサに投稿するには、分類子が必要になる場合があります]。
  • レビューを必要なフィールドのみに制限し(ページ上のすべての抽出フィールドではなく)、レビューの時間とコストを削減する - 回答時間/ページは、レビューするフィールドの数に応じて変わります。Google ラベラーの費用は、確認するフィールドの数に基づきます。そのため、レビュー対象のフィールドは、ダウンストリームのビジネス プロセスで使用されるフィールドに限定することをおすすめします。
    • たとえば、請求書には 30 以上のフィールドがあるかもしれませんが、請求書の決済に重要な 4 ~ 5 個のフィールドのみにレビューを制限したい場合があります。
  • HITL 対応プロセッサの命名 - HITL タスク名はプロセッサ名と同じです。ラベル付けマネージャーとラベル付け担当者が理解でき、他のタスクと簡単に区別できる名前を使用することをおすすめします。
  • タスクの優先順位付け - ラベラーが複数のタスクに割り当てられている場合、これらのタスクは順番に処理されます。ラベル付け担当者がタスクを切り替える必要がある場合(お客様のエスカレーションに対応するため、または SLO を満たすためなど)、ラベル付けマネージャーは、ラベル付けマネージャー コンソールの [割り当て] タブを使用して、現在のタスクの割り当てを解除し、優先度の高いタスクをラベル付け担当者に割り当てる必要があります。
    • コンソールの [Labelers X Tasks] グリッド(下図)では、ラベル付けマネージャーがさまざまなタスクに対するすべてのラベラーの割り当てを確認し、タスクの優先度をサポートするために、どのラベラーがどのタスクに取り組むかを微調整できます。
  • 検証フィルタの設定 検証フィルタ
  • 不承認のドキュメント - ドキュメントの不承認状態と理由コード(ドキュメント タイプが異なる、偽造、グレア、ぼやけ、端が切れているなど)がドキュメントの JSON ファイル(すべての変更の TextChange 構造、不承認理由の HumanReview)にキャプチャされ、構成された Cloud Storage バケットに出力されます。このメタデータを使用して、不承認のドキュメントを分離することをおすすめします。
  • 大量のドキュメントの取り込みの処理 - 現在の割り当てでは、オンライン ドキュメント リクエストは 1 分あたり 600 件、オフライン(バッチ)リクエストは最大 5 件まで同時に処理できます。各リクエストで最大 50 件のドキュメントを処理できます。この設定では、1 時間あたり 36,000 件のオンライン リクエストと、1 時間あたり最大 15,000 件のオフライン(バッチ)ドキュメント リクエストを処理することが想定されています(各バッチで最大 50 件のドキュメントを処理するため)。より多くのボリュームが必要な場合は、サポートにお問い合わせください。
  • 人間による検証の費用と時間の管理 - 独自のラベラーまたは Google のラベラーのいずれを使用するかにかかわらず、人間による検証は料金が高くなることがあります。1 ページに必要な時間は、確認するフィールドの数に応じて変わります。Google Workforce(限定公開プレビュー)では、確認済みラベルごとに課金されます。検証と修正が必要な重要なフィールドに HITL を制限することで、確認の作業と費用を抑えることができます。これを行うには、人間による審査の構成画面でラベルレベルの検証フィルタを使用します。
  • Enterprise 認証情報によるシングル サインオン アクセス - Labeler Workbench と Labeling Manager Console は、Google Workforce または Gmail の認証情報をサポートしています。企業認証情報によるシングル サインオンが必要な場合は、ラベル付け担当者向けの Basic Google Workforce アカウントを作成してください。Google Workforce は SAML をサポートしています。SSO プロバイダを構成して、企業認証情報で Labeler Workbench または Labeling Manager Console にログインできます。

既知の制限事項と回避策

既知の制限事項と回避策を以下に示します。現在、制限事項に対処しています。

  • 境界ボックスでテキストをキャプチャする必要がある - HITL を使用してトレーニング用のドキュメントにアノテーションを付ける場合、描画された境界ボックスで OCR を検出する必要があります。値を空にすることはできません。値を手動で入力しても、この問題は解決しません。
  • 新しいラベル付け担当者プール
  • VPC-SC - HITL プロジェクトで VPC-SC が有効になっているお客様は、HITL レビューに Google ラベラーを使用できない場合があります。
  • 審査後のレイテンシ - ドキュメントの審査後、事前構成された Cloud Storage フォルダに保存されるまでに最大 30 分かかることがあります。
  • 10 ページの制限 - HITL 審査は、請求書の場合 10 ページに制限されます。10 ページを超える請求書は HITL レビューに送信されません。
  • 単一ラベル付けワークフロー - 現在のワークフロー タスクは、単一のラベル付け担当者によるレビューに限定されます。複数のレビュー担当者(品質保証、不正行為防止など)によるレビューが必要な場合は、レビュー済みのドキュメントを「プロセッサをスキップして、すべてのドキュメントを HITL レビューに送信する」モードで 2 番目のプロセッサにアップロードして、レビューしてもらいます。
  • ラベルプールのラベル付け管理者を編集する - BYOL タスクでは、ラベルプールが作成されると、ラベル付け管理者をラベルプールに追加したり、ラベルプールから削除したりすることはできません。回避策: 新しいラベリング プールを作成するときに、
    • タスクが完了する前に 1 人のラベリング マネージャーが離職した場合に、他のラベリング マネージャーがプールとタスクの割り当てを管理できるように、ラベリング マネージャーを複数割り当ててください。
    • Labeling Manager UI でラベラーまたはタスクの分析ダッシュボードを表示する必要があるユーザーは、プールの作成時にプール管理者として追加する必要があります。
  • タスクのキャンセル - 一度開始したタスクはキャンセルできません。回避策として、ラベル マネージャーがラベル マネージャー コンソールでタスクを一時停止するか、タスクからラベラーの割り当てを解除します。
  • ワンクリックでラベル付け担当者プール全体にタスクを割り当てる - 現在はサポートされていませんが、まもなくサポートされる予定です。回避策として、すべてのラベラーを選択してタスクを割り当てます。
  • 新しいラベル付け担当者プール
  • Google Workspace アカウントを持つ BYOL ラベラー - BYOL ラベリング マネージャーとラベラーが Google Workspace アカウントを持っている場合、ラベリング マネージャー コンソールとラベラー ワークベンチへのアクセスを有効にするには、Google Workspace 管理者が Google サービスのページの下部にある [その他のサービス](以下のスクリーンショットを参照)を有効にする必要があります。Google Workspace