Layanan Pelabelan Data AI Platform mendukung tiga jenis tugas pelabelan teks:
- Tugas klasifikasi, tempat pemberi label menetapkan satu atau beberapa label ke setiap segmen teks. Anda dapat menentukan jumlah pelabel untuk memberi label pada setiap segmen teks. Sebaiknya jumlah ini lima atau kurang. Layanan Pelabelan Data melakukan pemungutan suara mayoritas untuk menentukan label yang tepat.
- Tugas klasifikasi dengan sentimen, dengan input label secara keseluruhan sama dengan tugas klasifikasi teks. Jenis pelabelan ini tidak digunakan lagi di Layanan Pelabelan Data. Anda dapat membuka AI Platform Cloud terpadu untuk jenis pemberian label ini.
- Tugas ekstraksi entity, tempat pemberi label akan diberi daftar label dan segmen teks (hingga 100.000 karakter), dan mereka akan memilih tempat awal dan akhir yang dibicarakan teks untuk setiap label. Mereka juga memiliki opsi untuk memilih "tidak disertakan". Layanan Pelabelan Data akan mengumpulkan indeks teks yang dipilih untuk setiap label.
Permintaan pemberian label adalah operasi yang berjalan lama. Responsnya menyertakan ID operasi,
yang dapat Anda gunakan untuk memeriksa status permintaan. Setelah pelabelan selesai, respons akan menyertakan nilai "done": true
.
Perhatikan bahwa saat ini hanya teks dalam bahasa Inggris yang didukung.
Tugas klasifikasi teks
UI Web
Pilih Set Data dari navigasi sebelah kiri.
Halaman Set Data menampilkan status set data yang dibuat sebelumnya untuk project saat ini.
Klik nama set data yang ingin Anda kirim untuk pelabelan.
Set data dengan status Impor selesai dapat dikirim. Kolom Jenis data menunjukkan apakah set data menyertakan gambar, video, atau teks.
Di halaman Dataset detail, klik tombol Create labeling task di kolom judul.
Di halaman Tugas pelabelan baru, masukkan nama dan deskripsi untuk set data yang dianotasi.
annotated dataset
adalah versi set data ini yang diberi label oleh pemberi label manual.Dari drop-down Objective, pilih jenis tugas pemberian label yang ingin Anda lakukan pada set data ini.
Daftar drop-down hanya menyertakan tujuan yang tersedia untuk jenis data dalam set data ini. Jika Anda tidak melihat tujuan yang diinginkan, kemungkinan Anda telah memilih set data dengan jenis data yang berbeda. Tutup halaman New labeling task dan pilih set data lain.
Dari drop-down Set label, pilih set label yang ingin Anda terapkan oleh pemberi label ke item data dalam set ini.
Daftar drop-down menyertakan semua set label yang terkait dengan project ini. Anda harus memilih set.
Dari drop-down Petunjuk, pilih petunjuk yang ingin Anda berikan kepada pemberi label yang menggunakan set data ini.
Daftar drop-down menyertakan semua petunjuk yang terkait dengan project ini. Anda harus menyertakan petunjuk dalam permintaan pelabelan.
Dari drop-down labeler per data item, tentukan jumlah pemberi label untuk meninjau setiap item dalam set data.
Jumlah defaultnya adalah satu, tetapi Anda dapat meminta tiga atau lima pemberi label untuk memberi label pada setiap item.
Klik kotak centang untuk mengonfirmasi bahwa Anda memahami cara Anda akan ditagih untuk pelabelan.
Klik Create.
Command-line
Tetapkan variabel lingkungan berikut:- Variabel
PROJECT_ID
ke project ID Google Cloud Anda. -
variabel
DATASET_ID
ke ID set data Anda, dari respons saat Anda membuat set data. ID muncul di akhir nama set data lengkap:projects/PROJECT_ID/locations/us-central1/datasets/DATASET_ID
INSTRUCTION_RESOURCE_NAME
ke nama resource petunjuk Anda.ANNOTATION_SPEC_SET_RESOURCE_NAME
ke nama resource set label Anda.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ https://datalabeling.googleapis.com/v1beta1/projects/${PROJECT_ID}/datasets/${DATASET_ID}/text:label \ -d '{ "basicConfig": { "instruction": "${INSTRUCTION_RESOURCE_NAME}", "annotatedDatasetDisplayName": "curl_testing_annotated_dataset", "labelGroup": "test_label_group", "replica_count": 1 }, "feature": "TEXT_CLASSIFICATION", "textClassificationConfig": { "annotationSpecSet": "${ANNOTATION_SPEC_SET_RESOURCE_NAME}", }, }'
Anda akan melihat output yang mirip dengan berikut ini. Anda dapat menggunakan ID operasi untuk mendapatkan status tugas. Mendapatkan status operasi adalah contohnya.
{ "name": "projects/data-labeling-codelab/operations/5c73dd6b_0000_2b34_a920_883d24fa2064", "metadata": { "@type": "type.googleapis.com/google.cloud.data-labeling.v1beta1.LabelTextClassificationOperationMetadata", "dataset": "projects/data-labeling-codelab/datasets/5c73db3d_0000_23e0_a25b_94eb2c119c4c" } }
Java
Sebelum dapat menjalankan contoh kode ini, Anda harus menginstal Library Klien Java.Tugas ekstraksi entity
UI Web
Pilih Set Data dari navigasi sebelah kiri.
Halaman Set Data menampilkan status set data yang dibuat sebelumnya untuk project saat ini.
Klik nama set data yang ingin Anda kirim untuk pelabelan.
Set data dengan status Impor selesai dapat dikirim. Kolom Jenis data menunjukkan apakah set data menyertakan gambar, video, atau teks.
Di halaman Dataset detail, klik tombol Create labeling task di kolom judul.
Di halaman Tugas pelabelan baru, masukkan nama dan deskripsi untuk set data yang dianotasi.
annotated dataset
adalah versi set data ini yang diberi label oleh pemberi label manual.Dari drop-down Objective, pilih jenis tugas pemberian label yang ingin Anda lakukan pada set data ini.
Daftar drop-down hanya menyertakan tujuan yang tersedia untuk jenis data dalam set data ini. Jika Anda tidak melihat tujuan yang diinginkan, kemungkinan Anda telah memilih set data dengan jenis data yang berbeda. Tutup halaman New labeling task dan pilih set data lain.
Dari drop-down Set label, pilih set label yang ingin Anda terapkan oleh pemberi label ke item data dalam set ini.
Daftar drop-down menyertakan semua set label yang terkait dengan project ini. Anda harus memilih set.
Dari drop-down Petunjuk, pilih petunjuk yang ingin Anda berikan kepada pemberi label yang menggunakan set data ini.
Daftar drop-down menyertakan semua petunjuk yang terkait dengan project ini. Anda harus menyertakan petunjuk dalam permintaan pelabelan.
Dari drop-down labeler per data item, tentukan jumlah pemberi label untuk meninjau setiap item dalam set data.
Jumlah defaultnya adalah satu, tetapi Anda dapat meminta tiga atau lima pemberi label untuk memberi label pada setiap item.
Klik kotak centang untuk mengonfirmasi bahwa Anda memahami cara Anda akan ditagih untuk pelabelan.
Klik Create.
Command-line
Tetapkan variabel lingkungan berikut:- Variabel
PROJECT_ID
ke project ID Google Cloud Anda. -
variabel
DATASET_ID
ke ID set data Anda, dari respons saat Anda membuat set data. ID muncul di akhir nama set data lengkap:projects/PROJECT_ID/locations/us-central1/datasets/DATASET_ID
INSTRUCTION_RESOURCE_NAME
ke nama resource petunjuk Anda.ANNOTATION_SPEC_SET_RESOURCE_NAME
ke nama resource set label Anda.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ https://datalabeling.googleapis.com/v1beta1/projects/${PROJECT_ID}/datasets/${DATASET_ID}/text:label \ -d '{ "basicConfig": { "instruction": "${INSTRUCTION_RESOURCE_NAME}", "annotatedDatasetDisplayName": "curl_testing_annotated_dataset", "labelGroup": "test_label_group", "replica_count": 1 }, "feature": "TEXT_ENTITY_EXTRACTION", "textEntityExtractionConfig": { "annotationSpecSet": "${ANNOTATION_SPEC_SET_RESOURCE_NAME}", }, }'
Anda akan melihat output yang mirip dengan berikut ini. Anda dapat menggunakan ID operasi untuk mendapatkan status tugas. Mendapatkan status operasi adalah contohnya.
{ "name": "projects/data-labeling-codelab/operations/5c73dd6b_0000_2b34_a920_883d24fa2064", "metadata": { "@type": "type.googleapis.com/google.cloud.data-labeling.v1beta1.LabelTextEntityExtractionOperationMetadata", "dataset": "projects/data-labeling-codelab/datasets/5c73db3d_0000_23e0_a25b_94eb2c119c4c" } }