Mempersiapkan data pelatihan Anda

Menyiapkan gambar Anda

  • Gambar harus menggunakan jenis file yang didukung (lihat daftar di bawah).

  • Model AutoML Vision dioptimalkan untuk foto objek di dunia nyata.

  • Data pelatihan harus semirip mungkin dengan data yang menjadi dasar prediksi. Misalnya, jika dalam kasus penggunaan Anda terdapat gambar buram dengan resolusi rendah (seperti gambar dari kamera keamanan), data pelatihan Anda harus terdiri dari gambar buram dengan resolusi rendah. Secara umum, Anda juga harus mempertimbangkan untuk menyediakan beberapa sudut, resolusi, dan latar belakang untuk gambar pelatihan.

  • Model AutoML Vision umumnya tidak dapat memprediksi label yang tidak dapat ditetapkan oleh manusia. Jadi, jika manusia tidak dapat menetapkan label dengan melihat gambar selama 1-2 detik, model tersebut kemungkinan tidak dapat dilatih untuk melakukan hal yang sama.

  • Kami merekomendasikan sekitar 1000 gambar pelatihan per label. Jumlah minimum per label adalah 10, atau 50 untuk model lanjutan. Secara umum, diperlukan lebih banyak contoh per label untuk melatih model dengan beberapa label per gambar, dan skor yang dihasilkan akan lebih sulit untuk ditafsirkan.

  • Format gambar berikut ini didukung saat melatih model Anda. Ukuran file maksimumnya adalah 30 MB.

    • JPEG
    • PNG
    • GIF
    • BMP
    • ICO

    Format gambar berikut didukung saat meminta prediksi dari (membuat kueri) model Anda. Ukuran file maksimum adalah 1,5 MB.

    • JPEG
    • PNG
    • GIF
  • Model akan bekerja dengan baik jika ada gambar 100x lebih banyak untuk label yang paling umum daripada label yang paling tidak umum. Sebaiknya Anda menghapus label berfrekuensi rendah.

  • Pertimbangkan untuk menyertakan label None_of_the_aboveNone_of_the_above dan gambar yang tidak cocok dengan label yang Anda tentukan. Misalnya, untuk set data bunga, sertakan gambar bunga di luar varietas berlabel, dan beri label None_of_the_aboveNone_of_the_above. Hal ini dapat meningkatkan akurasi model Anda. Perhatikan bahwa, meskipun setiap nama label berfungsi, None_of_the_above diperlakukan secara khusus oleh sistem dan akan selalu muncul terakhir dalam daftar label di UI.

Set data pelatihan vs. evaluasi

Data dalam set data dibagi menjadi tiga set data saat melatih model: set data pelatihan, set data validasi, dan set data pengujian.

Set data pelatihan digunakan untuk membangun model. Model ini mencoba beberapa algoritma dan parameter saat mencari pola dalam data pelatihan. Saat mengidentifikasi pola, model akan menggunakan set data validasi untuk menguji algoritma dan pola. Algoritma dan pola dengan kinerja terbaik dipilih dari yang diidentifikasi selama tahap pelatihan.

Setelah algoritma dan pola dengan performa terbaik teridentifikasi, algoritma dan pola tersebut akan diuji tingkat error, kualitas, dan akurasinya menggunakan set data pengujian.

Set data validasi dan pengujian digunakan untuk menghindari bias dalam model. Selama tahap validasi, parameter model optimal digunakan, yang dapat menghasilkan metrik yang bias. Penggunaan set data pengujian untuk menilai kualitas model setelah tahap validasi akan memberikan penilaian yang tidak bias terhadap kualitas model.

Secara default, AutoML Vision membagi set data Anda secara acak menjadi 3 set terpisah:

  • 80% gambar digunakan untuk pelatihan.
  • 10% gambar digunakan untuk penyesuaian hyper-parameter dan/atau untuk memutuskan kapan pelatihan dihentikan.
  • 10% gambar digunakan untuk mengevaluasi model. Gambar ini tidak digunakan dalam pelatihan.

Jika ingin menentukan set data yang harus digunakan untuk setiap gambar dalam file CSV, Anda dapat menggunakan file .csv seperti yang dijelaskan di bagian berikutnya

Membuat file CSV dengan gambar URI dan label

Setelah file diupload ke bucket Cloud Storage dengan format yang diperlukan (gs://bucket-name-vcm), Anda dapat membuat file CSV yang mencantumkan semua data pelatihan dan label kategori untuk data tersebut. singkat ini. File CSV dapat memiliki nama file apa pun, harus berada dalam bucket yang sama dengan file gambar Anda, harus berenkode UTF-8, dan harus diakhiri dengan ekstensi .csv. File ini memiliki satu baris untuk setiap gambar dalam set yang Anda upload, dengan kolom ini di setiap baris:

  1. Kumpulan tempat untuk menetapkan konten dalam baris ini. Kolom ini bersifat opsional dan dapat berupa salah satu nilai berikut:

    • TRAIN - Gunakan image untuk melatih model.
    • VALIDATION - Gunakan image untuk memvalidasi hasil yang ditampilkan model selama pelatihan.
    • TEST - Gunakan image untuk memverifikasi hasil model setelah model dilatih.

    Jika Anda tidak menentukan kumpulan gambar dalam satu baris, AutoML Vision akan otomatis menempatkannya ke salah satu dari tiga set untuk memastikan adanya konten pelatihan, validasi, dan pengujian yang cukup. AutoML Vision menggunakan 80% dokumen konten Anda untuk pelatihan, 10% untuk validasi, dan 10% untuk pengujian. Ukuran maksimum set data pengujian adalah 50,000 gambar, meskipun 10% dari total set data melebihi batas maksimum tersebut.

  2. Konten yang akan dikategorikan. Kolom ini berisi URI Google Cloud Storage untuk gambar. URI Google Cloud Storage peka huruf besar/kecil.

  3. Daftar label yang dipisahkan koma yang mengidentifikasi cara gambar dikategorikan. Label harus diawali dengan huruf dan hanya berisi huruf, angka, serta garis bawah. Anda dapat menyertakan hingga 20 label untuk setiap gambar. Anda juga dapat mengosongkan label untuk pelabelan manual melalui UI atau melalui layanan pelabelan manusia.

Contoh:

  • Berlabel gs://my-storage-bucket-vcm/flowers/images/img100.jpg,daisy
  • Tidak diberi label: gs://my-storage-bucket-vcm/flowers/images/img403.jpg
  • Multi-label: gs://my-storage-bucket-vcm/flowers/images/img384.jpg,dandelion,tulip,rose
  • Ditetapkan ke kumpulan: TEST,gs://my-storage-bucket-vcm/flowers/images/img805.jpg,daisy

Simpan konten tersebut sebagai file CSV di dalam bucket Cloud Storage Anda.

Buat file CSV untuk gambar tak berlabel yang disimpan di Cloud Storage

Jika Anda sudah mengupload gambar tak berlabel ke Cloud Storage dan ingin membuat file CSV yang menunjuk ke gambar tersebut, jalankan kode ini di Cloud Shell:

for f in $(gsutil ls gs://YOUR_BUCKET/YOUR_IMAGES_FOLDER/);
do echo UNASSIGNED,$f;
done >> labels.csv;

Lalu, salin file CSV yang dihasilkan ke dalam Bucket Google Storage:

gsutil cp labels.csv gs://YOUR_BUCKET/labels.csv

Error umum terkait CSV

  • Menggunakan karakter unicode dalam label. Misalnya, karakter Jepang tidak didukung.
  • Penggunaan spasi dan karakter non-alfanumerik dalam label.
  • Baris kosong
  • Kolom kosong (baris dengan dua koma berturut-turut).
  • Kapitalisasi pada jalur image Cloud Storage salah.
  • Kontrol akses yang salah dikonfigurasi untuk file gambar Anda. Akun layanan Anda harus memiliki akses baca atau akses yang lebih besar, atau file harus dapat dibaca secara publik.
  • Referensi ke file non-gambar (seperti file PDF atau PSD). Demikian pula, file yang bukan file gambar tetapi telah diganti namanya dengan ekstensi gambar akan menyebabkan error.
  • URI gambar mengarah ke bucket yang berbeda dengan project saat ini. Hanya gambar dalam bucket project yang dapat diakses.
  • File berformat non-CSV.