Pelabelan data menganotasi data mentah dengan label yang bermakna, sehingga memberikan konteks dan kategorisasi untuk dipahami oleh model machine learning (ML). Label ini berfungsi sebagai panduan penting untuk model ML, sehingga dapat menafsirkan data secara efektif. Dalam pengenalan citra, label seperti "kucing" atau "anjing" menentukan kategori objek, sedangkan dalam analisis teks, label menunjukkan sentimen atau entity bernama.
Pelabelan data mengubah data mentah menjadi format yang dapat dipahami oleh model ML, dengan memberikan pengenalan pola dan kemampuan prediktif.
Pelabelan data berperan penting dalam machine learning karena berbagai alasan. Pelabelan data menyediakan data pelatihan penting untuk model supervised ML, sehingga model dapat mempelajari pola dan membuat prediksi dari contoh berlabel. Memiliki data berlabel berkualitas tinggi akan meningkatkan akurasi model dengan memberikan sinyal pembelajaran yang jelas dan konsisten.
Pelabelan data juga berperan dalam mengurangi bias dengan memastikan keterwakilan dan keseimbangan set data, sehingga model tidak mewarisi bias. Selain itu, data berlabel memungkinkan pemrosesan dan analisis data otomatis, sehingga mesin dapat menangani dan memperoleh insight dalam jumlah besar secara efisien. Hal ini menghemat waktu dan tenaga dibandingkan dengan metode manual.
Proses pelabelan data melibatkan pemberian label yang telah ditentukan pada titik data berdasarkan pedoman atau aturan yang ditetapkan. Tugas ini dapat dilakukan secara manual oleh penganotasi manual atau melalui metode otomatis menggunakan software atau algoritma. Pelabelan manual melibatkan peninjauan dan pemberian label secara manual oleh individu sesuai dengan pedoman yang ditetapkan. Pendekatan ini memiliki akurasi yang tinggi, tetapi dapat menghabiskan waktu dan tenaga.
Pelabelan otomatis memanfaatkan software atau algoritma untuk mengotomatiskan proses, sehingga dapat meningkatkan efisiensi. Namun, metode otomatis dapat menimbulkan error atau bias, sehingga diperlukan evaluasi dan langkah-langkah kendali mutu yang cermat
Dalam beberapa kasus, pendekatan hybrid menggabungkan metode manual dan otomatis untuk menyeimbangkan akurasi dan efisiensi. Misalnya, penganotasi manual dapat memberi label pada sebagian data untuk membuat set data pelatihan berkualitas tinggi, yang kemudian digunakan untuk melatih sistem pelabelan otomatis. Sistem ini dapat memberi label pada set data yang lebih besar dengan lebih efisien sekaligus mempertahankan akurasi yang wajar.
Setelah diberikan, label diintegrasikan dengan data mentah asli untuk membuat set data berlabel. Data berlabel ini berfungsi sebagai input untuk melatih model machine learning.
Pemberian label pada gambar untuk tugas seperti deteksi objek (mengidentifikasi objek dalam gambar), segmentasi gambar (membagi gambar menjadi area yang bermakna), dan pengenalan adegan (memahami konteks gambar secara keseluruhan).
Pelabelan data teks untuk tugas termasuk analisis sentimen (menentukan nada emosional), pengenalan entity bernama (mengidentifikasi orang, lokasi, atau organisasi), dan peringkasan teks (merangkum teks menjadi poin-poin penting).
Pemberian label pada file audio untuk aplikasi seperti pengenalan ucapan (mengonversi audio menjadi teks), deteksi emosi (mengidentifikasi emosi yang disampaikan dalam audio), dan klasifikasi genre musik (mengategorikan musik berdasarkan genre).
Pemberian label pada video untuk tugas seperti pelacakan objek (mengikuti objek saat objek berpindah melintasi frame), pengenalan tindakan (mengidentifikasi tindakan yang dilakukan dalam video), dan segmentasi adegan (membagi video menjadi beberapa adegan yang berbeda).
Beri label pada titik data dalam data deret waktu, misalnya data sensor atau data keuangan. Hal ini memungkinkan identifikasi tren, pola, dan anomali seiring waktu.
Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.