Apa yang dimaksud dengan pelabelan data?

Pelabelan data menganotasi data mentah dengan label yang bermakna, sehingga memberikan konteks dan kategorisasi untuk dipahami oleh model machine learning (ML). Label ini berfungsi sebagai panduan penting untuk model ML, sehingga dapat menafsirkan data secara efektif. Dalam pengenalan citra, label seperti "kucing" atau "anjing" menentukan kategori objek, sedangkan dalam analisis teks, label menunjukkan sentimen atau entity bernama. 

Pelabelan data mengubah data mentah menjadi format yang dapat dipahami oleh model ML, dengan memberikan pengenalan pola dan kemampuan prediktif.

Mengapa pelabelan data penting?

Pelabelan data berperan penting dalam machine learning karena berbagai alasan. Pelabelan data menyediakan data pelatihan penting untuk model supervised ML, sehingga model dapat mempelajari pola dan membuat prediksi dari contoh berlabel. Memiliki data berlabel berkualitas tinggi akan meningkatkan akurasi model dengan memberikan sinyal pembelajaran yang jelas dan konsisten. 

Pelabelan data juga berperan dalam mengurangi bias dengan memastikan keterwakilan dan keseimbangan set data, sehingga model tidak mewarisi bias. Selain itu, data berlabel memungkinkan pemrosesan dan analisis data otomatis, sehingga mesin dapat menangani dan memperoleh insight dalam jumlah besar secara efisien. Hal ini menghemat waktu dan tenaga dibandingkan dengan metode manual.

Cara kerja pelabelan data

Proses pelabelan data melibatkan pemberian label yang telah ditentukan pada titik data berdasarkan pedoman atau aturan yang ditetapkan. Tugas ini dapat dilakukan secara manual oleh penganotasi manual atau melalui metode otomatis menggunakan software atau algoritma. Pelabelan manual melibatkan peninjauan dan pemberian label secara manual oleh individu sesuai dengan pedoman yang ditetapkan. Pendekatan ini memiliki akurasi yang tinggi, tetapi dapat menghabiskan waktu dan tenaga.

Pelabelan otomatis memanfaatkan software atau algoritma untuk mengotomatiskan proses, sehingga dapat meningkatkan efisiensi. Namun, metode otomatis dapat menimbulkan error atau bias, sehingga diperlukan evaluasi dan langkah-langkah kendali mutu yang cermat

Dalam beberapa kasus, pendekatan hybrid menggabungkan metode manual dan otomatis untuk menyeimbangkan akurasi dan efisiensi. Misalnya, penganotasi manual dapat memberi label pada sebagian data untuk membuat set data pelatihan berkualitas tinggi, yang kemudian digunakan untuk melatih sistem pelabelan otomatis. Sistem ini dapat memberi label pada set data yang lebih besar dengan lebih efisien sekaligus mempertahankan akurasi yang wajar.

Setelah diberikan, label diintegrasikan dengan data mentah asli untuk membuat set data berlabel. Data berlabel ini berfungsi sebagai input untuk melatih model machine learning.

Jenis pelabelan data

Pelabelan gambar

Pemberian label pada gambar untuk tugas seperti deteksi objek (mengidentifikasi objek dalam gambar), segmentasi gambar (membagi gambar menjadi area yang bermakna), dan pengenalan adegan (memahami konteks gambar secara keseluruhan).

Pelabelan teks

Pelabelan data teks untuk tugas termasuk analisis sentimen (menentukan nada emosional), pengenalan entity bernama (mengidentifikasi orang, lokasi, atau organisasi), dan peringkasan teks (merangkum teks menjadi poin-poin penting).

Pelabelan audio

Pemberian label pada file audio untuk aplikasi seperti pengenalan ucapan (mengonversi audio menjadi teks), deteksi emosi (mengidentifikasi emosi yang disampaikan dalam audio), dan klasifikasi genre musik (mengategorikan musik berdasarkan genre).

Pelabelan video

Pemberian label pada video untuk tugas seperti pelacakan objek (mengikuti objek saat objek berpindah melintasi frame), pengenalan tindakan (mengidentifikasi tindakan yang dilakukan dalam video), dan segmentasi adegan (membagi video menjadi beberapa adegan yang berbeda).

Pelabelan deret waktu

Beri label pada titik data dalam data deret waktu, misalnya data sensor atau data keuangan. Hal ini memungkinkan identifikasi tren, pola, dan anomali seiring waktu.

Pendekatan pelabelan data

Pelabelan manual:

  •  Penganotasi manual meninjau dan memberi label pada setiap titik data secara manual
  •  Memastikan akurasi dan kualitas yang tinggi karena penilaian dan perhatian manual terhadap detail
  •  Namun, cara ini bisa memakan waktu, tenaga, dan biaya, terutama untuk set data besar

Pelabelan otomatis:

  •  Alat software atau algoritma mengotomatiskan proses pelabelan
  •  Meningkatkan efisiensi dan mengurangi tenaga kerja manusia secara signifikan
  •  Dapat menimbulkan error atau bias karena keterbatasan algoritma otomatis, sehingga diperlukan evaluasi dan langkah-langkah kendali mutu yang cermat

Pendekatan hybrid:

  •  Menggabungkan metode pelabelan manual dan otomatis
  •  Menyeimbangkan akurasi dan efisiensi dengan memanfaatkan penganotasi manual untuk sebagian data guna membuat set data pelatihan berkualitas tinggi
  •  Metode otomatis kemudian diterapkan untuk memperluas pelabelan pada set data yang lebih besar sekaligus mempertahankan akurasi yang wajar

Cara memberi label pada data untuk ML

  1. Menentukan pedoman pelabelan: Buat pedoman yang jelas dan komprehensif untuk diikuti oleh penganotasi, termasuk definisi label, kriteria, dan kasus ekstrem.
  2. Memilih alat pelabelan: Pilih alat atau platform pelabelan yang sesuai serta mendukung jenis data dan persyaratan tugas pelabelan.
  3. Melatih penganotasi: Latih penganotasi dengan pedoman pelabelan, berikan contoh, dan pastikan mereka memahami tugas secara menyeluruh.
  4. Menerapkan kendali mutu: Buat mekanisme untuk memverifikasi keakuratan dan konsistensi label, seperti pemeriksaan langsung, perjanjian antar-penganotasi, dan aturan validasi otomatis.
  5. Mengumpulkan dan menganotasi data: Kumpulkan data yang memerlukan pelabelan dan berikan kepada penganotasi sesuai dengan proses yang ditetapkan.
  6. Melakukan iterasi dan menyempurnakan: Evaluasi performa data berlabel pada model ML secara berkala dan lakukan penyesuaian pedoman dan proses pelabelan sesuai kebutuhan untuk meningkatkan akurasi.

Praktik terbaik pelabelan data

  • Menetapkan pedoman yang jelas: Beri penganotasi petunjuk pelabelan yang tidak ambigu dan komprehensif, serta definisikan label, kriteria, dan kasus ekstrem secara jelas.
  • Memastikan keberagaman dan keseimbangan data: Gunakan set data yang representatif dan seimbang untuk menghindari bias pada data berlabel dan model ML berikutnya.
  • Menerapkan kendali mutu: Terapkan pemeriksaan kualitas dan mekanisme verifikasi yang ketat untuk memastikan akurasi dan konsistensi label di seluruh penganotasi.
  • Melindungi privasi data: Amankan data sensitif selama proses pelabelan, dengan mematuhi peraturan privasi dan standar etika.
  • Melakukan iterasi dan menyempurnakan: Evaluasi performa data berlabel pada model ML secara berkala dan lakukan penyesuaian pedoman dan proses pelabelan sesuai kebutuhan untuk meningkatkan akurasi dan efektivitas.
  • Menggunakan alat dan platform khusus: Manfaatkan alat dan platform pelabelan data khusus yang menyediakan fitur seperti pengelolaan anotasi, kendali mutu, dan kemampuan kolaborasi.
  • Melatih dan mendukung penganotasi: Beri pelatihan dan dukungan yang memadai kepada penganotasi, sehingga mereka memiliki keahlian dan pemahaman yang diperlukan untuk melakukan tugas pelabelan secara efektif.

Mengatasi tantangan bisnis Anda dengan Google Cloud

Pelanggan baru mendapatkan kredit gratis senilai $300 untuk dibelanjakan di Google Cloud.
Hubungi spesialis penjualan Google Cloud untuk membahas tantangan unik Anda secara lebih mendetail.

Langkah selanjutnya

Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Konsol
Google Cloud