Mengirim permintaan pelabelan teks

Layanan Pelabelan Data AI Platform mendukung tiga jenis tugas pelabelan teks:

  • Tugas klasifikasi, tempat pemberi label menetapkan satu atau beberapa label ke setiap segmen teks. Anda dapat menentukan jumlah pelabel untuk memberi label pada setiap segmen teks. Sebaiknya jumlah ini lima atau kurang. Layanan Pelabelan Data melakukan pemungutan suara mayoritas untuk menentukan label yang tepat.
  • Tugas klasifikasi dengan sentimen, dengan input label secara keseluruhan sama dengan tugas klasifikasi teks. Jenis pelabelan ini tidak digunakan lagi di Layanan Pelabelan Data. Anda dapat membuka AI Platform Cloud terpadu untuk jenis pemberian label ini.
  • Tugas ekstraksi entity, tempat pemberi label akan diberi daftar label dan segmen teks (hingga 100.000 karakter), dan mereka akan memilih tempat awal dan akhir yang dibahas teks untuk setiap label. Mereka juga memiliki opsi untuk memilih "tidak disertakan". Layanan Pelabelan Data akan mengumpulkan indeks teks yang dipilih untuk setiap label.

Permintaan pemberian label adalah operasi yang berjalan lama. Responsnya menyertakan ID operasi, yang dapat Anda gunakan untuk memeriksa status permintaan. Setelah pelabelan selesai, respons akan menyertakan nilai "done": true.

Perhatikan bahwa saat ini hanya teks dalam bahasa Inggris yang didukung.

Tugas klasifikasi teks

UI Web

  1. Buka UI Layanan Pelabelan Data.

  2. Pilih Set Data dari navigasi sebelah kiri.

    Halaman Set Data menampilkan status set data yang dibuat sebelumnya untuk project saat ini.

  3. Klik nama set data yang ingin Anda kirim untuk pelabelan.

    Set data dengan status Impor selesai dapat dikirim. Kolom Jenis data menunjukkan apakah set data menyertakan gambar, video, atau teks.

  4. Di halaman Dataset detail, klik tombol Create labeling task di kolom judul.

  5. Di halaman Tugas pelabelan baru, masukkan nama dan deskripsi untuk set data yang dianotasi.

    annotated dataset adalah versi set data ini yang diberi label oleh pemberi label manual.

  6. Dari drop-down Objective, pilih jenis tugas pemberian label yang ingin Anda lakukan pada set data ini.

    Daftar drop-down hanya menyertakan tujuan yang tersedia untuk jenis data dalam set data ini. Jika Anda tidak melihat tujuan yang diinginkan, kemungkinan Anda telah memilih set data dengan jenis data yang berbeda. Tutup halaman New labeling task dan pilih set data lain.

  7. Dari drop-down Set label, pilih set label yang ingin Anda terapkan oleh pemberi label ke item data dalam set ini.

    Daftar drop-down menyertakan semua set label yang terkait dengan project ini. Anda harus memilih set.

  8. Dari drop-down Petunjuk, pilih petunjuk yang ingin Anda berikan kepada pemberi label yang menggunakan set data ini.

    Daftar drop-down menyertakan semua petunjuk yang terkait dengan project ini. Anda harus menyertakan petunjuk dalam permintaan pelabelan.

  9. Dari drop-down labelers per data item, tentukan jumlah pemberi label untuk meninjau setiap item dalam set data.

    Defaultnya adalah satu, tetapi Anda dapat meminta tiga atau lima pemberi label untuk memberi label pada setiap item.

  10. Klik kotak centang untuk mengonfirmasi bahwa Anda memahami cara Anda akan ditagih untuk pelabelan.

  11. Klik Create.

Command-line

Tetapkan variabel lingkungan berikut:
  1. Variabel PROJECT_ID ke project ID Google Cloud Anda.
  2. variabel DATASET_ID ke ID set data Anda, dari respons saat Anda membuat set data. ID muncul di akhir nama set data lengkap:

    projects/PROJECT_ID/locations/us-central1/datasets/DATASET_ID
  3. INSTRUCTION_RESOURCE_NAME ke nama resource petunjuk Anda.
  4. ANNOTATION_SPEC_SET_RESOURCE_NAME ke nama resource set label Anda.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  https://datalabeling.googleapis.com/v1beta1/projects/${PROJECT_ID}/datasets/${DATASET_ID}/text:label \
  -d '{
  "basicConfig": {
    "instruction": "${INSTRUCTION_RESOURCE_NAME}",
    "annotatedDatasetDisplayName": "curl_testing_annotated_dataset",
    "labelGroup": "test_label_group",
    "replica_count": 1
  },
  "feature": "TEXT_CLASSIFICATION",
  "textClassificationConfig": {
    "annotationSpecSet": "${ANNOTATION_SPEC_SET_RESOURCE_NAME}",
  },
}'

Anda akan melihat output yang mirip dengan berikut ini. Anda dapat menggunakan ID operasi untuk mendapatkan status tugas. Mendapatkan status operasi adalah contohnya.

{
  "name": "projects/data-labeling-codelab/operations/5c73dd6b_0000_2b34_a920_883d24fa2064",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.data-labeling.v1beta1.LabelTextClassificationOperationMetadata",
    "dataset": "projects/data-labeling-codelab/datasets/5c73db3d_0000_23e0_a25b_94eb2c119c4c"
  }
}

Java

Sebelum dapat menjalankan contoh kode ini, Anda harus menginstal Library Klien Java.
import com.google.api.gax.longrunning.OperationFuture;
import com.google.cloud.datalabeling.v1beta1.AnnotatedDataset;
import com.google.cloud.datalabeling.v1beta1.DataLabelingServiceClient;
import com.google.cloud.datalabeling.v1beta1.DataLabelingServiceSettings;
import com.google.cloud.datalabeling.v1beta1.HumanAnnotationConfig;
import com.google.cloud.datalabeling.v1beta1.LabelOperationMetadata;
import com.google.cloud.datalabeling.v1beta1.LabelTextRequest;
import com.google.cloud.datalabeling.v1beta1.LabelTextRequest.Feature;
import com.google.cloud.datalabeling.v1beta1.SentimentConfig;
import com.google.cloud.datalabeling.v1beta1.TextClassificationConfig;
import java.io.IOException;
import java.util.concurrent.ExecutionException;

class LabelText {

  // Start a Text Labeling Task
  static void labelText(
      String formattedInstructionName,
      String formattedAnnotationSpecSetName,
      String formattedDatasetName)
      throws IOException {
    // String formattedInstructionName = DataLabelingServiceClient.formatInstructionName(
    //      "YOUR_PROJECT_ID", "YOUR_INSTRUCTION_UUID");
    // String formattedAnnotationSpecSetName =
    //     DataLabelingServiceClient.formatAnnotationSpecSetName(
    //         "YOUR_PROJECT_ID", "YOUR_ANNOTATION_SPEC_SET_UUID");
    // String formattedDatasetName = DataLabelingServiceClient.formatDatasetName(
    //      "YOUR_PROJECT_ID", "YOUR_DATASET_UUID");


    DataLabelingServiceSettings settings =
        DataLabelingServiceSettings.newBuilder()
            .build();
    try (DataLabelingServiceClient dataLabelingServiceClient =
        DataLabelingServiceClient.create(settings)) {
      HumanAnnotationConfig humanAnnotationConfig =
          HumanAnnotationConfig.newBuilder()
              .setAnnotatedDatasetDisplayName("annotated_displayname")
              .setAnnotatedDatasetDescription("annotated_description")
              .setLanguageCode("en-us")
              .setInstruction(formattedInstructionName)
              .build();

      SentimentConfig sentimentConfig =
          SentimentConfig.newBuilder().setEnableLabelSentimentSelection(false).build();

      TextClassificationConfig textClassificationConfig =
          TextClassificationConfig.newBuilder()
              .setAnnotationSpecSet(formattedAnnotationSpecSetName)
              .setSentimentConfig(sentimentConfig)
              .build();

      LabelTextRequest labelTextRequest =
          LabelTextRequest.newBuilder()
              .setParent(formattedDatasetName)
              .setBasicConfig(humanAnnotationConfig)
              .setTextClassificationConfig(textClassificationConfig)
              .setFeature(Feature.TEXT_CLASSIFICATION)
              .build();

      OperationFuture<AnnotatedDataset, LabelOperationMetadata> operation =
          dataLabelingServiceClient.labelTextAsync(labelTextRequest);

      // You'll want to save this for later to retrieve your completed operation.
      // System.out.format("Operation Name: %s\n", operation.getName());

      // Cancel the operation to avoid charges when testing.
      dataLabelingServiceClient.getOperationsClient().cancelOperation(operation.getName());

    } catch (IOException | InterruptedException | ExecutionException e) {
      e.printStackTrace();
    }
  }
}

Tugas ekstraksi entity

UI Web

  1. Buka UI Layanan Pelabelan Data.

  2. Pilih Set Data dari navigasi sebelah kiri.

    Halaman Set Data menampilkan status set data yang dibuat sebelumnya untuk project saat ini.

  3. Klik nama set data yang ingin Anda kirim untuk pelabelan.

    Set data dengan status Impor selesai dapat dikirim. Kolom Jenis data menunjukkan apakah set data menyertakan gambar, video, atau teks.

  4. Di halaman Dataset detail, klik tombol Create labeling task di kolom judul.

  5. Di halaman Tugas pelabelan baru, masukkan nama dan deskripsi untuk set data yang dianotasi.

    annotated dataset adalah versi set data ini yang diberi label oleh pemberi label manual.

  6. Dari drop-down Objective, pilih jenis tugas pemberian label yang ingin Anda lakukan pada set data ini.

    Daftar drop-down hanya menyertakan tujuan yang tersedia untuk jenis data dalam set data ini. Jika Anda tidak melihat tujuan yang diinginkan, kemungkinan Anda telah memilih set data dengan jenis data yang berbeda. Tutup halaman New labeling task dan pilih set data lain.

  7. Dari drop-down Set label, pilih set label yang ingin Anda terapkan oleh pemberi label ke item data dalam set ini.

    Daftar drop-down menyertakan semua set label yang terkait dengan project ini. Anda harus memilih set.

  8. Dari drop-down Petunjuk, pilih petunjuk yang ingin Anda berikan kepada pemberi label yang menggunakan set data ini.

    Daftar drop-down menyertakan semua petunjuk yang terkait dengan project ini. Anda harus menyertakan petunjuk dalam permintaan pelabelan.

  9. Dari drop-down labelers per data item, tentukan jumlah pemberi label untuk meninjau setiap item dalam set data.

    Defaultnya adalah satu, tetapi Anda dapat meminta tiga atau lima pemberi label untuk memberi label pada setiap item.

  10. Klik kotak centang untuk mengonfirmasi bahwa Anda memahami cara Anda akan ditagih untuk pelabelan.

  11. Klik Create.

Command-line

Tetapkan variabel lingkungan berikut:
  1. Variabel PROJECT_ID ke project ID Google Cloud Anda.
  2. variabel DATASET_ID ke ID set data Anda, dari respons saat Anda membuat set data. ID muncul di akhir nama set data lengkap:

    projects/PROJECT_ID/locations/us-central1/datasets/DATASET_ID
  3. INSTRUCTION_RESOURCE_NAME ke nama resource petunjuk Anda.
  4. ANNOTATION_SPEC_SET_RESOURCE_NAME ke nama resource set label Anda.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  https://datalabeling.googleapis.com/v1beta1/projects/${PROJECT_ID}/datasets/${DATASET_ID}/text:label \
  -d '{
  "basicConfig": {
    "instruction": "${INSTRUCTION_RESOURCE_NAME}",
    "annotatedDatasetDisplayName": "curl_testing_annotated_dataset",
    "labelGroup": "test_label_group",
    "replica_count": 1
  },
  "feature": "TEXT_ENTITY_EXTRACTION",
  "textEntityExtractionConfig": {
    "annotationSpecSet": "${ANNOTATION_SPEC_SET_RESOURCE_NAME}",
  },
}'

Anda akan melihat output yang mirip dengan berikut ini. Anda dapat menggunakan ID operasi untuk mendapatkan status tugas. Mendapatkan status operasi adalah contohnya.

{
  "name": "projects/data-labeling-codelab/operations/5c73dd6b_0000_2b34_a920_883d24fa2064",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.data-labeling.v1beta1.LabelTextEntityExtractionOperationMetadata",
    "dataset": "projects/data-labeling-codelab/datasets/5c73db3d_0000_23e0_a25b_94eb2c119c4c"
  }
}

Python

Sebelum dapat menjalankan contoh kode ini, Anda harus menginstal Library Klien Python.

def label_text(
    dataset_resource_name, instruction_resource_name, annotation_spec_set_resource_name
):
    """Labels a text dataset."""
    from google.cloud import datalabeling_v1beta1 as datalabeling

    client = datalabeling.DataLabelingServiceClient()

    basic_config = datalabeling.HumanAnnotationConfig(
        instruction=instruction_resource_name,
        annotated_dataset_display_name="YOUR_ANNOTATED_DATASET_DISPLAY_NAME",
        label_group="YOUR_LABEL_GROUP",
        replica_count=1,
    )

    feature = datalabeling.LabelTextRequest.Feature.TEXT_ENTITY_EXTRACTION

    config = datalabeling.TextEntityExtractionConfig(
        annotation_spec_set=annotation_spec_set_resource_name
    )

    response = client.label_text(
        request={
            "parent": dataset_resource_name,
            "basic_config": basic_config,
            "feature": feature,
            "text_classification_config": config,
        }
    )

    print(f"Label_text operation name: {response.operation.name}")
    return response