HITL Labeler Workbench は、ドキュメント エンティティを抽出されたラベルにマッピングする WYSIWYG(What You See Is What You Get)インターフェースを提供します。これにより、ラベラーは簡単に比較して修正できます。どのラベルを探して追加するか、また、Document AI モデルや HITL の検証フィルタでラベルが見つからなかった場合にどうするかを人間のラベラーに指示するには、手順書が必要です。これには、次のタイプの管理が含まれます。
- 確認するラベル。
- 必須フィールドと省略可能なフィールドがあるかどうか。
- ビジネス ロジックを
- ラベルを修正します(米国が指定されていない米国の住所に「USA」を追加するなど)。
- 正しい不承認フィールド(10,000 ドルを超える請求書を不承認にするなど)を使用してドキュメントを不承認にします。
- スキーマラベルにマッピングされるドキュメント内の特別なラベル名。ラベル付け担当者が追加できる(例: 「クライアント番号」=「アカウント番号」)。
- これらは、HITL タスク構成でフィルタとして設定できます。
適切な指示を設計する
適切な指示を与えることは、ヒューマン ラベリングで良好な結果を得るために最も重要な要素です。適切な指示とは、ラベル付け担当者にどうしてほしいかを知らせるものです。適切な指示を作成するためのガイドラインを以下に示します。
- ラベル付け担当者はドメインに関する知識を持っていない可能性があります。サービス利用者のユースケースに精通していない人でも、どのような区別が求められているかを容易に理解できる必要があります。
- 指示が長くなりすぎないように注意してください。ラベル付け担当者が 20 分以内に読んで理解できるのが理想的です。
- データのラベル付け方法の詳細に加えて、タスクのコンセプトも説明する必要があります。
- 作成する指示に対応するラベルセットがある場合は、そのセットに含まれるすべてのラベルについて指示を記載する必要があります。指示に記載したラベルの名前は、ラベルセットに含まれる名前と一致している必要があります。
- 一般に、適切な指示を作成するには何度か繰り返すことが必要です。まず小さなデータセットのラベル付けをリクエストし、返された結果に基づいて指示内容を調整することをおすすめします。
適切な指示ファイルには次のセクションが含まれている必要があります。
- ラベルのリストと説明: 使用するすべてのラベルを列挙し、各ラベルの意味を説明します。
- サンプル: ラベルごとに少なくとも 3 つのポジティブ サンプルと 1 つのネガティブ サンプルを含めます。これらのサンプルでさまざまなケースをカバーします。
- エッジケースをカバーします。できるだけ多くのエッジケースを明確にします。そうすると、ラベル付け担当者がラベルを解釈する必要がなくなります。たとえば、人を境界ボックスで囲むよう求める場合は、次のことを明確にすることをおすすめします。
- 複数の人がいる場合、1 人ずつボックスで囲む必要があるか。
- 人混みに遮られた人を囲む必要はあるか。
- 画像に一部だけ写っている人を囲む必要はあるか。
- 写真や絵の中の人を囲む必要はあるか。
- アノテーションを追加する方法を説明します。例:
- 境界ボックスの場合、対象だけを厳密に囲むか、または大まかに囲むか。
- テキスト エンティティ抽出の場合、対象エンティティの開始位置と終了位置はどのように判断するか。
- ラベルの説明。2 つのラベルが似ている場合や混同しやすい場合は例を挙げて違いを明確にします。
視覚的な例
視覚的な例は、ドキュメント内のさまざまなエンティティがどこにあるか、それらがスキーマ内の抽出されたラベルにどのようにマッピングされるかをラベル付け担当者に明確に示します。次のように、手順に視覚的な例を含めます。