Mempersiapkan data pelatihan Anda

Menyiapkan gambar Anda

Persyaratan gambar umum
Jenis file yang didukung
  • JPEG
  • PNG
  • GIF
  • BMP
  • ICO
Jenis-jenis gambar

Model Deteksi Objek AutoML Vision dioptimalkan untuk foto objek di dunia nyata.

Ukuran file gambar pelatihan (MB) Ukuran maksimum 30 MB
Ukuran file* gambar prediksi (MB) Ukuran maksimum 1,5 MB
Ukuran gambar (piksel)

Maksimum yang disarankan adalah 1024 piksel x 1024 piksel.

Untuk gambar yang jauh lebih besar dari 1024 piksel x 1024 piksel, beberapa kualitas gambar mungkin hilang selama proses normalisasi gambar AutoML Vision Object Detection.

Persyaratan label dan kotak pembatas
Instance label untuk pelatihan

Minimum 10 anotasi (instance).

Persyaratan anotasi

Untuk setiap label, Anda harus memiliki minimal 10 gambar, masing-masing dengan setidaknya satu anotasi (kotak pembatas dan label).

Namun, untuk tujuan pelatihan model, sebaiknya Anda menggunakan sekitar 1.000 anotasi per label. Secara umum, semakin banyak gambar per label yang Anda miliki, semakin baik performa model Anda.

Rasio label (label paling umum ke label yang paling tidak umum):

Model akan berfungsi optimal jika ada gambar 100x lebih banyak untuk label yang paling umum daripada label yang paling tidak umum.

Untuk performa model, sebaiknya Anda menghapus label frekuensi sangat rendah.

Panjang tepi kotak pembatas Memiliki minimal panjang sisi 0,01 * gambar. Misalnya, gambar berukuran 1000 * 900 piksel akan memerlukan kotak pembatas yang berukuran minimal 10 * 9 piksel.
Ukuran kotak pembatas (piksel) Minimum 8 piksel x 8 piksel.
Kotak pembatas per gambar berbeda Maksimum 500.
Kotak pembatas yang ditampilkan dari permintaan prediksi

100 (default), maksimum 500.

Anda dapat menentukan nilai ini sebagai bagian dari predict permintaan di kolom. params.max_bounding_box_count

Persyaratan set data dan data pelatihan
Karakteristik gambar pelatihan

Data pelatihan harus semirip mungkin dengan data yang menjadi dasar prediksi.

Misalnya, jika dalam kasus penggunaan Anda terdapat gambar buram dengan resolusi rendah (seperti dari kamera keamanan), data pelatihan Anda harus terdiri dari gambar buram dengan resolusi rendah. Secara umum, Anda juga harus mempertimbangkan untuk menyediakan beberapa sudut, resolusi, dan latar belakang untuk gambar pelatihan Anda.

Model Deteksi Objek AutoML Vision umumnya tidak dapat memprediksi label yang tidak dapat ditetapkan oleh manusia. Jadi, jika manusia tidak dapat menetapkan label dengan melihat gambar selama 1-2 detik, model tersebut kemungkinan tidak dapat dilatih untuk melakukan hal yang sama.

Gambar di setiap set data Maksimum 150.000
Total kotak pembatas beranotasi di setiap set data Maksimum 1.000.000
Jumlah label di setiap set data minimum 1, maksimum 1,000

Panduan praktik terbaik

Jenis data gambar apa yang dapat Anda gunakan?

  • Format file gambar yang didukung: JPEG, PNG, GIF, BMP, atau ICO.
  • Data pelatihan harus semirip mungkin dengan data yang menjadi dasar prediksi. Misalnya, jika kasus penggunaan Anda melibatkan gambar beresolusi rendah dari kamera ponsel, data pelatihan Anda harus terdiri dari gambar beresolusi rendah. Secara umum, Anda juga harus mempertimbangkan untuk menyediakan beberapa sudut, resolusi, dan latar belakang untuk gambar pelatihan. Contoh lainnya adalah jika Anda ingin mendeteksi region dalam gambar beresolusi tinggi, jangan latih model dengan gambar yang dipangkas.

Apa kondisi minimal pada data?

  • Label yang Anda gunakan harus berupa string yang valid (tanpa koma di dalamnya). Koma hanyalah masalah dalam impor berbasis CSV. Cara untuk mengatasi masalah ini adalah: "file_comma,path","label,comma",0,0,,,1,1,,.
  • Kotak pembatas harus lebih besar dari 8 x 8 piksel dalam semua kasus. Kotak pembatas yang lebih kecil dari ini akan difilter.
  • Gambar mungkin melebihi 1024*1024 piksel, tetapi gambar tersebut akan diperkecil skalanya secara otomatis, mungkin menyebabkan penurunan pada kualitas gambar. Karena itu, kami merekomendasikan ukuran gambar maksimum sebesar 1024*1024 piksel. Gambar yang lebih kecil dari dimensi ini tidak akan ditingkatkan skalanya.
  • Semua kotak pembatas harus berada di dalam gambar.
  • Kotak pembatas harus diberi label secara menyeluruh: jika ada dua mobil dalam gambar, semuanya harus diberi label.

Seberapa besar ukuran set data yang diperlukan?

  • Semakin banyak, semakin baik. Hal ini hampir selalu benar. Namun, pengecualian untuk hal ini adalah jika menambahkan lebih banyak sampel menyebabkan ketidakseimbangan atau kebocoran (lihat di bawah).
  • Jumlah data yang diperlukan untuk melatih model yang baik bergantung pada berbagai faktor:
    • Jumlah kelas. Semakin unik kelas yang Anda miliki, semakin banyak sampel kelas yang diperlukan.
    • Kompleksitas/keberagaman kelas. Hal Ini mirip dengan manusia: Manusia mungkin dapat belajar dengan cepat membedakan antara bir dan anggur, hanya dengan beberapa sampel. Dia harus lebih sering mencoba berbagai anggur untuk membedakan 5-6 jenis anggur merah, dan bagi banyak manusia, akan sulit untuk belajar membedakan 50 rasa anggur merah yang berbeda. Setidaknya satu orang harus banyak berlatih. Demikian pula, jaringan neural akan dapat membedakan antara gajah dan kucing dengan cepat, tetapi mereka membutuhkan lebih banyak sampel untuk mengklasifikasikan 30 hewan yang berbeda.
  • Prinsipnya adalah Anda sebaiknya memiliki setidaknya 100 sampel pelatihan per kelas jika Anda memiliki kelas yang unik dan sedikit, dan lebih dari 200 sampel pelatihan jika kelasnya lebih bernuansa dan Anda memiliki lebih dari 50 kelas yang berbeda.

Set data pelatihan vs. evaluasi

Saat melatih model machine learning, Anda biasanya membagi set data menjadi tiga set data yang terpisah:

  1. set data pelatihan
  2. set data validasi
  3. set data pengujian

Set data pelatihan digunakan untuk membangun model. Model yang dilatih mencoba beberapa hyper-parameter sambil menelusuri pola dalam data pelatihan. Selama proses identifikasi pola, AutoML Vision Object Detection menggunakan set data validasi untuk menguji hyperparameter model. AutoML Vision Object Detection memilih algoritma dan pola berperforma terbaik dari semua opsi yang diidentifikasi selama tahap pelatihan.

Setelah algoritma dan pola dengan performa terbaik diidentifikasi keduanya diuji untuk tingkat error, kualitas, dan akurasi menggunakan set data pengujian. Pelanggan harus memiliki set data pengujian terpisah yang dapat digunakan untuk menguji model secara independen. Set data pengujian ini ditentukan dalam set pelatihan oleh pengguna atau dipilih secara otomatis pada waktu pelatihan.

Validasi dan set data pengujian digunakan untuk menghindari bias dalam model. Selama stage validasi, yang digunakan yakni parameter model yang optimal. Menggunakan parameter model yang optimal ini dapat menghasilkan metrik yang bias. Menggunakan set data uji untuk menilai kualitas model setelah tahap validasi memberikan proses pelatihan dengan penilaian kualitas model yang tidak di bias.

Jika memilih sampel set data secara manual, Anda harus menyusun set data dengan cara yang mewakili populasi yang sama. Demikian pula, Anda harus membuat pemisahan set data yang memiliki gambar serupa, semuanya dengan distribusi label yang serupa.

Pemisahan set data manual dan otomatis

Anda dapat menentukan secara manual pemisahan pelatihan, validasi, dan pengujian saat mengimpor set data dalam file CSV.

Jika Anda tidak menentukannya, AutoML Vision Object Detection akan membagi data Anda secara acak. Pemisahan dibuat dengan cara berikut:

  • 80% gambar digunakan untuk pelatihan.
  • 10% gambar digunakan untuk penyesuaian hyper-parameter dan/atau untuk memutuskan kapan pelatihan dihentikan.
  • 10% gambar digunakan untuk mengevaluasi model. Gambar ini tidak digunakan dalam pelatihan.

Masalah umum

  • Data tidak seimbang: Dalam banyak kasus, jumlah sampel per kelas (label) tidak sama. Ketidakseimbangan kecil umumnya tidak menimbulkan masalah, tetapi perbedaan yang lebih besar antar-kelas dapat menyebabkan masalah. Ketika ada ketidakseimbangan yang lebih besar, misalnya beberapa kelas diwakili lebih dari 10 kali lipat dari kelas lain, hal ini menimbulkan masalah untuk pembangunan model. Meskipun ada pendekatan untuk mengatasi ketidakseimbangan kelas, hal ini bukan konfigurasi yang ideal untuk pelatihan model. Jika memungkinkan, coba hindari pelatihan model dengan data yang sangat tidak seimbang.

    Sebagai aturan umum, pertahankan rasio kelas antara yang paling umum dan yang paling tidak umum di bawah 2 banding 1.

  • Pemisahan yang buruk: Saat Anda menyediakan data pelatihan, AutoML Vision Object Detection dapat secara otomatis membaginya menjadi set data pelatihan, validasi, dan pengujian. Anda juga dapat menetapkan label pemisahan pelatihan sendiri.

    Tidak ada jaminan bahwa Anda akan mendapatkan pemisahan yang sama jika mengimpor data yang sama beberapa kali.

    Data pelatihan, validasi, dan pengujian tidak boleh memiliki korelasi yang kuat. Misalnya, kasus buruk yang umum adalah ketika gambar berasal dari video, membuat banyak gambar menjadi sangat mirip satu sama lain. Jika Anda membiarkan sistem membagi set data secara acak, kemungkinan besar Anda akan mendapatkan gambar yang sangat mirip pada data pelatihan dan validasi/pengujian. Hal ini akan menyebabkan akurasi tinggi yang salah diperoleh pada data pengujian.

  • Kebocoran data: Kebocoran data adalah masalah signifikan yang dapat menimbulkan bias pada model. Kebocoran data terjadi ketika algoritma dapat menggunakan informasi yang seharusnya tidak tersedia selama pelatihan model, dan informasi itu tidak akan tersedia selama prediksi di masa mendatang. Hal ini menyebabkan hasil yang terlalu optimis pada set data pelatihan, validasi, dan pengujian yang berpotensi. Namun, performa ini mungkin tidak akan bagus pada beberapa data mendatang yang tidak terlihat. Hal ini sering terjadi secara tidak sengaja, dan memerlukan perhatian khusus selama persiapan data.

    Contoh kebocoran: Positif dan negatif dari sumber gambar, atau sudut pandang yang berbeda.