テキストラベル付けリクエストの送信

AI Platform Data Labeling Service では、次の 3 種類のテキストラベル付けタスクがサポートされています。

  • 分類タスク。ラベラーは各テキスト セグメントに 1 つ以上のラベルを割り当てます。各テキスト セグメントにラベルを付けるラベラーの人数を指定します。5 人以下にすることをおすすめします。Data Labeling Service では、多数決によって適切なラベルが決定されます。
  • 分類タスク + 感情。ラベル入力全般はテキスト分類タスクと同じです。この種類のラベル付けは、Data Labeling Service では非推奨になりました。この種類のラベル付けの場合は、統合型の Cloud AI Platform に移動します。
  • エンティティ抽出タスク。ラベル付け担当者はラベルのリストとテキスト セグメント(最大 100,000 文字)を与えられ、テキスト内の各ラベルについて記述された部分の開始位置と終了位置を選択します。「not included」(含まれていない)の選択肢もあります。Data Labeling Service により、各ラベルに対して選択されたテキストのインデックスが収集されます。

ラベル付けリクエストは長時間実行オペレーションです。リクエストを送信するとオペレーション ID を含むレスポンスが返され、以降はその ID を使用してリクエストのステータスを確認できます。ラベル付けが完了すると、レスポンスに "done": true という値が含められます。

英語のテキストのみがサポートされています。

テキスト分類タスク

ウェブ UI

  1. Data Labeling Service UI を開きます。

  2. 左側のナビゲーションから [データセット] を選択します。

    [データセット] ページに、現在のプロジェクトでこれまでに作成されたデータセットのステータスが表示されます。

  3. ラベル付けサービスに送信するデータセットの名前をクリックします。

    ステータスが「インポート完了」になっているデータセットを送信できます。[データの種類] 列は、そのデータセットに画像、動画、テキストのいずれが含まれているかを示します。

  4. [データセットの詳細] ページで、タイトルバーにある [Create labeling task] ボタンをクリックします。

  5. [新しいラベル付けタスク] ページで、アノテーション付きデータセットの名前と説明を入力します。

    annotated dataset はヒューマン ラベラーによってラベル付けされたこのデータセットのバージョンです。

  6. [目的] プルダウンから、このデータセットに対して行うラベル付けタスクの種類を選択します。

    このプルダウン リストには、選択したデータセット内のデータの種類に対して使用できる目的のみが含まれます。目的が表示されない場合は、異なる種類のデータセットを選択していると考えられます。[新しいラベル付けタスク] ページを閉じて、別のデータセットを選択します。

  7. [ラベルセット] プルダウンから、ラベル付け担当者がこのデータセット内のデータ項目に適用するラベルセットを選択します。

    このプルダウン リストには、現在のプロジェクトに関連付けられているすべてのラベルセットが含まれます。いずれかのラベルセットを選択する必要があります。

  8. [手順] プルダウンから、このデータセットの作業を行うラベル付け担当者向けの指示を選択します。

    このプルダウン リストには、現在のプロジェクトに関連付けられているすべての指示が含まれます。ラベル付けリクエストには指示を含める必要があります。

  9. [labelers per data item] プルダウンから、データセット内の各項目をレビューするラベラーの人数を指定します。

    デフォルトは 1 人ですが、3 人または 5 人のラベラーが各項目のラベル付けを行うようリクエストできます。

  10. チェックボックスをオンにして、ラベル付けの料金について理解したことを示します。

  11. [作成] をクリックします。

コマンドライン

次の環境変数を設定します。
  1. Google Cloud プロジェクト ID を示す PROJECT_ID 変数。
  2. データセットの ID を示す DATASET_ID 変数。データセットの ID はデータセットの作成時にレスポンスで返されます。この ID は完全なデータセット名の最後の部分です。

    projects/PROJECT_ID/locations/us-central1/datasets/DATASET_ID
  3. 指示リソースの名前を示す INSTRUCTION_RESOURCE_NAME
  4. ラベルセット リソースの名前を示す ANNOTATION_SPEC_SET_RESOURCE_NAME
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  https://datalabeling.googleapis.com/v1beta1/projects/${PROJECT_ID}/datasets/${DATASET_ID}/text:label \
  -d '{
  "basicConfig": {
    "instruction": "${INSTRUCTION_RESOURCE_NAME}",
    "annotatedDatasetDisplayName": "curl_testing_annotated_dataset",
    "labelGroup": "test_label_group",
    "replica_count": 1
  },
  "feature": "TEXT_CLASSIFICATION",
  "textClassificationConfig": {
    "annotationSpecSet": "${ANNOTATION_SPEC_SET_RESOURCE_NAME}",
  },
}'

出力は次のようになります。オペレーション ID を使用して、タスクのステータスを取得できます。たとえば、オペレーションのステータスを取得できます。

{
  "name": "projects/data-labeling-codelab/operations/5c73dd6b_0000_2b34_a920_883d24fa2064",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.data-labeling.v1beta1.LabelTextClassificationOperationMetadata",
    "dataset": "projects/data-labeling-codelab/datasets/5c73db3d_0000_23e0_a25b_94eb2c119c4c"
  }
}

Java

このサンプルコードを実行するには、あらかじめ Java クライアント ライブラリをインストールしておく必要があります。
import com.google.api.gax.longrunning.OperationFuture;
import com.google.cloud.datalabeling.v1beta1.AnnotatedDataset;
import com.google.cloud.datalabeling.v1beta1.DataLabelingServiceClient;
import com.google.cloud.datalabeling.v1beta1.DataLabelingServiceSettings;
import com.google.cloud.datalabeling.v1beta1.HumanAnnotationConfig;
import com.google.cloud.datalabeling.v1beta1.LabelOperationMetadata;
import com.google.cloud.datalabeling.v1beta1.LabelTextRequest;
import com.google.cloud.datalabeling.v1beta1.LabelTextRequest.Feature;
import com.google.cloud.datalabeling.v1beta1.SentimentConfig;
import com.google.cloud.datalabeling.v1beta1.TextClassificationConfig;
import java.io.IOException;
import java.util.concurrent.ExecutionException;

class LabelText {

  // Start a Text Labeling Task
  static void labelText(
      String formattedInstructionName,
      String formattedAnnotationSpecSetName,
      String formattedDatasetName)
      throws IOException {
    // String formattedInstructionName = DataLabelingServiceClient.formatInstructionName(
    //      "YOUR_PROJECT_ID", "YOUR_INSTRUCTION_UUID");
    // String formattedAnnotationSpecSetName =
    //     DataLabelingServiceClient.formatAnnotationSpecSetName(
    //         "YOUR_PROJECT_ID", "YOUR_ANNOTATION_SPEC_SET_UUID");
    // String formattedDatasetName = DataLabelingServiceClient.formatDatasetName(
    //      "YOUR_PROJECT_ID", "YOUR_DATASET_UUID");

    DataLabelingServiceSettings settings =
        DataLabelingServiceSettings.newBuilder()
            .build();
    try (DataLabelingServiceClient dataLabelingServiceClient =
        DataLabelingServiceClient.create(settings)) {
      HumanAnnotationConfig humanAnnotationConfig =
          HumanAnnotationConfig.newBuilder()
              .setAnnotatedDatasetDisplayName("annotated_displayname")
              .setAnnotatedDatasetDescription("annotated_description")
              .setLanguageCode("en-us")
              .setInstruction(formattedInstructionName)
              .build();

      SentimentConfig sentimentConfig =
          SentimentConfig.newBuilder().setEnableLabelSentimentSelection(false).build();

      TextClassificationConfig textClassificationConfig =
          TextClassificationConfig.newBuilder()
              .setAnnotationSpecSet(formattedAnnotationSpecSetName)
              .setSentimentConfig(sentimentConfig)
              .build();

      LabelTextRequest labelTextRequest =
          LabelTextRequest.newBuilder()
              .setParent(formattedDatasetName)
              .setBasicConfig(humanAnnotationConfig)
              .setTextClassificationConfig(textClassificationConfig)
              .setFeature(Feature.TEXT_CLASSIFICATION)
              .build();

      OperationFuture<AnnotatedDataset, LabelOperationMetadata> operation =
          dataLabelingServiceClient.labelTextAsync(labelTextRequest);

      // You'll want to save this for later to retrieve your completed operation.
      // System.out.format("Operation Name: %s\n", operation.getName());

      // Cancel the operation to avoid charges when testing.
      dataLabelingServiceClient.getOperationsClient().cancelOperation(operation.getName());

    } catch (IOException | InterruptedException | ExecutionException e) {
      e.printStackTrace();
    }
  }
}

エンティティ抽出タスク

ウェブ UI

  1. Data Labeling Service UI を開きます。

  2. 左側のナビゲーションから [データセット] を選択します。

    [データセット] ページに、現在のプロジェクトでこれまでに作成されたデータセットのステータスが表示されます。

  3. ラベル付けサービスに送信するデータセットの名前をクリックします。

    ステータスが「インポート完了」になっているデータセットを送信できます。[データの種類] 列は、そのデータセットに画像、動画、テキストのいずれが含まれているかを示します。

  4. [データセットの詳細] ページで、タイトルバーにある [Create labeling task] ボタンをクリックします。

  5. [新しいラベル付けタスク] ページで、アノテーション付きデータセットの名前と説明を入力します。

    annotated dataset はヒューマン ラベラーによってラベル付けされたこのデータセットのバージョンです。

  6. [目的] プルダウンから、このデータセットに対して行うラベル付けタスクの種類を選択します。

    このプルダウン リストには、選択したデータセット内のデータの種類に対して使用できる目的のみが含まれます。目的が表示されない場合は、異なる種類のデータセットを選択していると考えられます。[新しいラベル付けタスク] ページを閉じて、別のデータセットを選択します。

  7. [ラベルセット] プルダウンから、ラベル付け担当者がこのデータセット内のデータ項目に適用するラベルセットを選択します。

    このプルダウン リストには、現在のプロジェクトに関連付けられているすべてのラベルセットが含まれます。いずれかのラベルセットを選択する必要があります。

  8. [手順] プルダウンから、このデータセットの作業を行うラベル付け担当者向けの指示を選択します。

    このプルダウン リストには、現在のプロジェクトに関連付けられているすべての指示が含まれます。ラベル付けリクエストには指示を含める必要があります。

  9. [labelers per data item] プルダウンから、データセット内の各項目をレビューするラベラーの人数を指定します。

    デフォルトは 1 人ですが、3 人または 5 人のラベラーが各項目のラベル付けを行うようリクエストできます。

  10. チェックボックスをオンにして、ラベル付けの料金について理解したことを示します。

  11. [作成] をクリックします。

コマンドライン

次の環境変数を設定します。
  1. Google Cloud プロジェクト ID を示す PROJECT_ID 変数。
  2. データセットの ID を示す DATASET_ID 変数。データセットの ID はデータセットの作成時にレスポンスで返されます。この ID は完全なデータセット名の最後の部分です。

    projects/PROJECT_ID/locations/us-central1/datasets/DATASET_ID
  3. 指示リソースの名前を示す INSTRUCTION_RESOURCE_NAME
  4. ラベルセット リソースの名前を示す ANNOTATION_SPEC_SET_RESOURCE_NAME
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  https://datalabeling.googleapis.com/v1beta1/projects/${PROJECT_ID}/datasets/${DATASET_ID}/text:label \
  -d '{
  "basicConfig": {
    "instruction": "${INSTRUCTION_RESOURCE_NAME}",
    "annotatedDatasetDisplayName": "curl_testing_annotated_dataset",
    "labelGroup": "test_label_group",
    "replica_count": 1
  },
  "feature": "TEXT_ENTITY_EXTRACTION",
  "textEntityExtractionConfig": {
    "annotationSpecSet": "${ANNOTATION_SPEC_SET_RESOURCE_NAME}",
  },
}'

出力は次のようになります。オペレーション ID を使用して、タスクのステータスを取得できます。たとえば、オペレーションのステータスを取得できます。

{
  "name": "projects/data-labeling-codelab/operations/5c73dd6b_0000_2b34_a920_883d24fa2064",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.data-labeling.v1beta1.LabelTextEntityExtractionOperationMetadata",
    "dataset": "projects/data-labeling-codelab/datasets/5c73db3d_0000_23e0_a25b_94eb2c119c4c"
  }
}

Python

このサンプルコードを実行するには、あらかじめ Python クライアント ライブラリをインストールしておく必要があります。

def label_text(
    dataset_resource_name, instruction_resource_name, annotation_spec_set_resource_name
):
    """Labels a text dataset."""
    from google.cloud import datalabeling_v1beta1 as datalabeling

    client = datalabeling.DataLabelingServiceClient()

    basic_config = datalabeling.HumanAnnotationConfig(
        instruction=instruction_resource_name,
        annotated_dataset_display_name="YOUR_ANNOTATED_DATASET_DISPLAY_NAME",
        label_group="YOUR_LABEL_GROUP",
        replica_count=1,
    )

    feature = datalabeling.LabelTextRequest.Feature.TEXT_ENTITY_EXTRACTION

    config = datalabeling.TextEntityExtractionConfig(
        annotation_spec_set=annotation_spec_set_resource_name
    )

    response = client.label_text(
        request={
            "parent": dataset_resource_name,
            "basic_config": basic_config,
            "feature": feature,
            "text_classification_config": config,
        }
    )

    print(f"Label_text operation name: {response.operation.name}")
    return response