Mengirimkan permintaan pelabelan teks

AI Platform Data Labeling Service mendukung tiga jenis tugas pelabelan teks:

  • Tugas klasifikasi, tempat pemberi label menetapkan satu atau beberapa label ke setiap segmen teks. Anda dapat menentukan jumlah pemberi label untuk memberi label pada setiap segmen teks. Sebaiknya angkanya maksimal lima. Data Labeling Service memberikan suara mayoritas untuk menentukan label yang tepat.
  • Tugas klasifikasi dengan sentimen, dengan input label keseluruhan sama dengan tugas klasifikasi teks. Jenis pelabelan ini tidak digunakan lagi di Data Labeling Service. Anda dapat membuka Cloud AI Platform terpadu untuk jenis pelabelan ini.
  • Tugas ekstraksi entity, yang memberi pemberi label akan diberi daftar label dan segmen teks (hingga 100.000 karakter), dan mereka akan memilih tempat awal dan akhir teks yang akan dibahas untuk setiap label. Mereka juga memiliki opsi untuk memilih “tidak disertakan”. Layanan Pelabelan Data akan mengumpulkan indeks teks yang dipilih untuk setiap label.

Permintaan pelabelan adalah operasi yang berjalan lama. Respons tersebut mencakup ID operasi, yang dapat Anda gunakan untuk memeriksa status permintaan. Setelah pelabelan selesai, respons akan menyertakan nilai "done": true.

Perhatikan bahwa saat ini hanya teks dalam bahasa Inggris yang didukung.

Tugas klasifikasi teks

UI Web

  1. Buka Data Labeling Service UI.

  2. Pilih Datasets dari navigasi sebelah kiri.

    Halaman Datasets menampilkan status set data yang dibuat sebelumnya untuk project saat ini.

  3. Klik nama {i>dataset<i} yang ingin Anda kirimkan untuk diberi label.

    Set data dengan status Impor selesai tersedia untuk dikirim. Kolom Jenis data menunjukkan apakah set data mencakup gambar, video, atau teks.

  4. Di halaman Detail set data, klik tombol Buat tugas pelabelan di kolom judul.

  5. Di halaman New labeling task, masukkan nama dan deskripsi untuk set data yang dianotasi.

    annotated dataset adalah versi set data ini yang diberi label oleh pemberi label manusia.

  6. Dari drop-down Objective, pilih jenis tugas pelabelan yang ingin Anda lakukan pada set data ini.

    Menu drop-down hanya menyertakan tujuan yang tersedia untuk jenis data dalam set data ini. Jika Anda tidak melihat tujuan yang diinginkan, mungkin berarti Anda telah memilih set data dengan jenis data yang berbeda di dalamnya. Tutup halaman New labeling task dan pilih set data yang berbeda.

  7. Dari drop-down Kumpulan label, pilih kumpulan label yang Anda inginkan untuk diterapkan oleh pemberi label ke item data dalam kumpulan ini.

    Menu drop-down mencakup semua set label yang terkait dengan project ini. Anda harus memilih satu set.

  8. Dari drop-down Petunjuk, pilih petunjuk yang ingin Anda berikan kepada pemberi label yang bekerja dengan set data ini.

    Menu drop-down menyertakan semua instructions yang terkait dengan project ini. Anda harus menyertakan petunjuk dalam permintaan pelabelan.

  9. Dari drop-down labeler per item data, tentukan jumlah pemberi label untuk meninjau setiap item dalam set data.

    Defaultnya adalah satu, tetapi Anda dapat meminta tiga atau lima pemberi label untuk memberi label setiap item.

  10. Centang kotak untuk mengonfirmasi bahwa Anda memahami biaya pelabelan yang akan dikenakan.

  11. Klik Create.

Command line

Setel variabel lingkungan berikut:
  1. PROJECT_ID ke project ID Google Cloud Anda.
  2. DATASET_ID ke ID set data Anda, dari respons saat membuat set data. ID muncul di akhir nama set data lengkap:

    projects/PROJECT_ID/locations/us-central1/datasets/DATASET_ID
  3. INSTRUCTION_RESOURCE_NAME ke nama resource petunjuk Anda.
  4. ANNOTATION_SPEC_SET_RESOURCE_NAME ke nama resource kumpulan label Anda.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  https://datalabeling.googleapis.com/v1beta1/projects/${PROJECT_ID}/datasets/${DATASET_ID}/text:label \
  -d '{
  "basicConfig": {
    "instruction": "${INSTRUCTION_RESOURCE_NAME}",
    "annotatedDatasetDisplayName": "curl_testing_annotated_dataset",
    "labelGroup": "test_label_group",
    "replica_count": 1
  },
  "feature": "TEXT_CLASSIFICATION",
  "textClassificationConfig": {
    "annotationSpecSet": "${ANNOTATION_SPEC_SET_RESOURCE_NAME}",
  },
}'

Anda akan melihat output yang mirip dengan berikut ini. Anda dapat menggunakan ID operasi untuk mendapatkan status tugas. Mendapatkan status operasi adalah contohnya.

{
  "name": "projects/data-labeling-codelab/operations/5c73dd6b_0000_2b34_a920_883d24fa2064",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.data-labeling.v1beta1.LabelTextClassificationOperationMetadata",
    "dataset": "projects/data-labeling-codelab/datasets/5c73db3d_0000_23e0_a25b_94eb2c119c4c"
  }
}

Java

Sebelum dapat menjalankan contoh kode ini, Anda harus menginstal Library Klien Java.
import com.google.api.gax.longrunning.OperationFuture;
import com.google.cloud.datalabeling.v1beta1.AnnotatedDataset;
import com.google.cloud.datalabeling.v1beta1.DataLabelingServiceClient;
import com.google.cloud.datalabeling.v1beta1.DataLabelingServiceSettings;
import com.google.cloud.datalabeling.v1beta1.HumanAnnotationConfig;
import com.google.cloud.datalabeling.v1beta1.LabelOperationMetadata;
import com.google.cloud.datalabeling.v1beta1.LabelTextRequest;
import com.google.cloud.datalabeling.v1beta1.LabelTextRequest.Feature;
import com.google.cloud.datalabeling.v1beta1.SentimentConfig;
import com.google.cloud.datalabeling.v1beta1.TextClassificationConfig;
import java.io.IOException;
import java.util.concurrent.ExecutionException;

class LabelText {

  // Start a Text Labeling Task
  static void labelText(
      String formattedInstructionName,
      String formattedAnnotationSpecSetName,
      String formattedDatasetName)
      throws IOException {
    // String formattedInstructionName = DataLabelingServiceClient.formatInstructionName(
    //      "YOUR_PROJECT_ID", "YOUR_INSTRUCTION_UUID");
    // String formattedAnnotationSpecSetName =
    //     DataLabelingServiceClient.formatAnnotationSpecSetName(
    //         "YOUR_PROJECT_ID", "YOUR_ANNOTATION_SPEC_SET_UUID");
    // String formattedDatasetName = DataLabelingServiceClient.formatDatasetName(
    //      "YOUR_PROJECT_ID", "YOUR_DATASET_UUID");

    DataLabelingServiceSettings settings =
        DataLabelingServiceSettings.newBuilder()
            .build();
    try (DataLabelingServiceClient dataLabelingServiceClient =
        DataLabelingServiceClient.create(settings)) {
      HumanAnnotationConfig humanAnnotationConfig =
          HumanAnnotationConfig.newBuilder()
              .setAnnotatedDatasetDisplayName("annotated_displayname")
              .setAnnotatedDatasetDescription("annotated_description")
              .setLanguageCode("en-us")
              .setInstruction(formattedInstructionName)
              .build();

      SentimentConfig sentimentConfig =
          SentimentConfig.newBuilder().setEnableLabelSentimentSelection(false).build();

      TextClassificationConfig textClassificationConfig =
          TextClassificationConfig.newBuilder()
              .setAnnotationSpecSet(formattedAnnotationSpecSetName)
              .setSentimentConfig(sentimentConfig)
              .build();

      LabelTextRequest labelTextRequest =
          LabelTextRequest.newBuilder()
              .setParent(formattedDatasetName)
              .setBasicConfig(humanAnnotationConfig)
              .setTextClassificationConfig(textClassificationConfig)
              .setFeature(Feature.TEXT_CLASSIFICATION)
              .build();

      OperationFuture<AnnotatedDataset, LabelOperationMetadata> operation =
          dataLabelingServiceClient.labelTextAsync(labelTextRequest);

      // You'll want to save this for later to retrieve your completed operation.
      // System.out.format("Operation Name: %s\n", operation.getName());

      // Cancel the operation to avoid charges when testing.
      dataLabelingServiceClient.getOperationsClient().cancelOperation(operation.getName());

    } catch (IOException | InterruptedException | ExecutionException e) {
      e.printStackTrace();
    }
  }
}

Tugas ekstraksi entity

UI Web

  1. Buka Data Labeling Service UI.

  2. Pilih Datasets dari navigasi sebelah kiri.

    Halaman Datasets menampilkan status set data yang dibuat sebelumnya untuk project saat ini.

  3. Klik nama {i>dataset<i} yang ingin Anda kirimkan untuk diberi label.

    Set data dengan status Impor selesai tersedia untuk dikirim. Kolom Jenis data menunjukkan apakah set data mencakup gambar, video, atau teks.

  4. Di halaman Detail set data, klik tombol Buat tugas pelabelan di kolom judul.

  5. Di halaman New labeling task, masukkan nama dan deskripsi untuk set data yang dianotasi.

    annotated dataset adalah versi set data ini yang diberi label oleh pemberi label manusia.

  6. Dari drop-down Objective, pilih jenis tugas pelabelan yang ingin Anda lakukan pada set data ini.

    Menu drop-down hanya menyertakan tujuan yang tersedia untuk jenis data dalam set data ini. Jika Anda tidak melihat tujuan yang diinginkan, mungkin berarti Anda telah memilih set data dengan jenis data yang berbeda di dalamnya. Tutup halaman New labeling task dan pilih set data yang berbeda.

  7. Dari drop-down Kumpulan label, pilih kumpulan label yang Anda inginkan untuk diterapkan oleh pemberi label ke item data dalam kumpulan ini.

    Menu drop-down mencakup semua set label yang terkait dengan project ini. Anda harus memilih satu set.

  8. Dari drop-down Petunjuk, pilih petunjuk yang ingin Anda berikan kepada pemberi label yang bekerja dengan set data ini.

    Menu drop-down menyertakan semua instructions yang terkait dengan project ini. Anda harus menyertakan petunjuk dalam permintaan pelabelan.

  9. Dari drop-down labeler per item data, tentukan jumlah pemberi label untuk meninjau setiap item dalam set data.

    Defaultnya adalah satu, tetapi Anda dapat meminta tiga atau lima pemberi label untuk memberi label setiap item.

  10. Centang kotak untuk mengonfirmasi bahwa Anda memahami biaya pelabelan yang akan dikenakan.

  11. Klik Create.

Command line

Setel variabel lingkungan berikut:
  1. PROJECT_ID ke project ID Google Cloud Anda.
  2. DATASET_ID ke ID set data Anda, dari respons saat membuat set data. ID muncul di akhir nama set data lengkap:

    projects/PROJECT_ID/locations/us-central1/datasets/DATASET_ID
  3. INSTRUCTION_RESOURCE_NAME ke nama resource petunjuk Anda.
  4. ANNOTATION_SPEC_SET_RESOURCE_NAME ke nama resource kumpulan label Anda.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  https://datalabeling.googleapis.com/v1beta1/projects/${PROJECT_ID}/datasets/${DATASET_ID}/text:label \
  -d '{
  "basicConfig": {
    "instruction": "${INSTRUCTION_RESOURCE_NAME}",
    "annotatedDatasetDisplayName": "curl_testing_annotated_dataset",
    "labelGroup": "test_label_group",
    "replica_count": 1
  },
  "feature": "TEXT_ENTITY_EXTRACTION",
  "textEntityExtractionConfig": {
    "annotationSpecSet": "${ANNOTATION_SPEC_SET_RESOURCE_NAME}",
  },
}'

Anda akan melihat output yang mirip dengan berikut ini. Anda dapat menggunakan ID operasi untuk mendapatkan status tugas. Mendapatkan status operasi adalah contohnya.

{
  "name": "projects/data-labeling-codelab/operations/5c73dd6b_0000_2b34_a920_883d24fa2064",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.data-labeling.v1beta1.LabelTextEntityExtractionOperationMetadata",
    "dataset": "projects/data-labeling-codelab/datasets/5c73db3d_0000_23e0_a25b_94eb2c119c4c"
  }
}

Python

Sebelum dapat menjalankan contoh kode ini, Anda harus menginstal Library Klien Python.

def label_text(
    dataset_resource_name, instruction_resource_name, annotation_spec_set_resource_name
):
    """Labels a text dataset."""
    from google.cloud import datalabeling_v1beta1 as datalabeling

    client = datalabeling.DataLabelingServiceClient()

    basic_config = datalabeling.HumanAnnotationConfig(
        instruction=instruction_resource_name,
        annotated_dataset_display_name="YOUR_ANNOTATED_DATASET_DISPLAY_NAME",
        label_group="YOUR_LABEL_GROUP",
        replica_count=1,
    )

    feature = datalabeling.LabelTextRequest.Feature.TEXT_ENTITY_EXTRACTION

    config = datalabeling.TextEntityExtractionConfig(
        annotation_spec_set=annotation_spec_set_resource_name
    )

    response = client.label_text(
        request={
            "parent": dataset_resource_name,
            "basic_config": basic_config,
            "feature": feature,
            "text_classification_config": config,
        }
    )

    print(f"Label_text operation name: {response.operation.name}")
    return response