Mempersiapkan data pelatihan Anda

Untuk melatih model kustom, Anda perlu memberikan sampel representatif dari jenis dokumen yang ingin dianalisis, yang diberi label dengan cara yang Anda inginkan untuk melabeli dokumen serupa oleh AutoML Natural Language. Kualitas data pelatihan Anda sangat memengaruhi efektivitas model yang Anda buat, begitu juga dengan kualitas prediksi yang ditampilkan dari model tersebut.

Mengumpulkan dan memberi label pada dokumen pelatihan

Langkah pertama adalah mengumpulkan beragam dokumen pelatihan yang mencerminkan rentang dokumen yang ingin ditangani oleh model kustom. Langkah persiapan untuk dokumen pelatihan berbeda-beda, bergantung pada apakah Anda melatih model untuk klasifikasi, ekstraksi entity, atau analisis sentimen.

Mengimpor dokumen pelatihan

Anda mengimpor data pelatihan ke AutoML Natural Language menggunakan file CSV yang mencantumkan dokumen dan secara opsional menyertakan label kategori atau nilai sentimennya. AutoML Natural Language membuat set data dari dokumen yang tercantum.

Data pelatihan vs. evaluasi

AutoML Natural Language membagi dokumen pelatihan Anda ke dalam tiga set untuk melatih model: set pelatihan, set validasi, dan set pengujian.

AutoML Natural Language menggunakan set pelatihan untuk membangun model. Model ini mencoba beberapa algoritma dan parameter saat mencari pola dalam data pelatihan. Saat mengidentifikasi pola, model akan menggunakan set validasi untuk menguji algoritma dan pola. AutoML Natural Language memilih algoritme dan pola berperforma terbaik dari yang diidentifikasi selama tahap pelatihan.

Setelah mengidentifikasi algoritma dan pola berperforma terbaik, AutoML Natural Language menerapkannya ke set pengujian untuk menguji tingkat, kualitas, dan akurasi error.

Secara default, AutoML Natural Language membagi data pelatihan Anda secara acak ke dalam tiga set:

  • 80% dokumen digunakan untuk pelatihan
  • 10% dokumen digunakan untuk validasi (tuning hyper-parameter dan/atau untuk memutuskan kapan harus menghentikan pelatihan)
  • 10% dokumen dicadangkan untuk pengujian (tidak digunakan selama pelatihan)

Jika ingin menentukan kumpulan yang harus dimiliki setiap dokumen dalam data pelatihan, Anda dapat secara eksplisit menetapkan dokumen ke kumpulan dalam file CSV seperti yang dijelaskan di bagian berikutnya.

Membuat file CSV impor

Setelah mengumpulkan semua dokumen pelatihan, buat file CSV yang mencantumkan semuanya. File CSV dapat memiliki nama file apa pun, harus berenkode UTF-8, dan harus diakhiri dengan ekstensi .csv. File ini harus disimpan di bucket Cloud Storage yang terkait dengan project Anda.

File CSV memiliki satu baris untuk setiap dokumen pelatihan, dengan kolom-kolom berikut di setiap baris:

  1. Kumpulan tempat untuk menetapkan konten dalam baris ini. Kolom ini bersifat opsional dan dapat berupa salah satu dari nilai berikut:

    • TRAIN - Gunakan document untuk melatih model.
    • VALIDATION - Gunakan document untuk memvalidasi hasil yang ditampilkan model selama pelatihan.
    • TEST - Gunakan document untuk memverifikasi hasil model setelah model dilatih.

    Jika Anda menyertakan nilai dalam kolom ini untuk menentukan set, sebaiknya identifikasi setidaknya 5% data untuk setiap kategori. Menggunakan kurang dari 5% data Anda untuk pelatihan, validasi, atau pengujian dapat memberikan hasil yang tidak terduga dan model yang tidak efektif.

    Jika Anda tidak menyertakan nilai dalam kolom ini, mulailah setiap baris dengan koma untuk menunjukkan kolom pertama yang kosong. AutoML Natural Language secara otomatis membagi dokumen Anda menjadi tiga set, menggunakan sekitar 80% data Anda untuk pelatihan, 10% untuk validasi, dan 10% untuk pengujian (hingga 10.000 pasangan untuk validasi dan pengujian).

  2. Konten yang akan dikategorikan. Kolom ini berisi URI Cloud Storage untuk dokumen. Cloud Storage URI peka huruf besar/kecil.

    Untuk klasifikasi dan analisis sentimen, dokumen dapat berupa file teks, file PDF, file TIFF, atau file ZIP. Untuk ekstraksi entity, dokumen ini dapat berupa file JSONL.

    Untuk klasifikasi dan analisis sentimen, nilai dalam kolom ini dapat dikutip dengan teks in-line, bukan URI Cloud Storage.

  3. Untuk set data klasifikasi, Anda dapat memilih untuk menyertakan daftar label yang dipisahkan koma yang mengidentifikasi cara dokumen dikategorikan. Label harus dimulai dengan huruf dan hanya berisi huruf, angka, serta garis bawah. Anda dapat menyertakan hingga 20 label untuk setiap dokumen.

    Untuk set data analisis sentimen, Anda juga dapat menyertakan bilangan bulat yang menunjukkan nilai sentimen untuk konten. Nilai sentimen berkisar dari 0 (sangat negatif) hingga nilai maksimum 10 (sangat positif).

Misalnya, file CSV untuk set data klasifikasi multi-label mungkin memiliki:

TRAIN, gs://my-project-lcm/training-data/file1.txt,Sports,Basketball
VALIDATION, gs://my-project-lcm/training-data/ubuntu.zip,Computers,Software,Operating_Systems,Linux,Ubuntu
TRAIN, gs://news/documents/file2.txt,Sports,Baseball
TEST, "Miles Davis was an American jazz trumpeter, bandleader, and composer.",Arts_Entertainment,Music,Jazz
TRAIN,gs://my-project-lcm/training-data/astros.txt,Sports,Baseball
VALIDATION,gs://my-project-lcm/training-data/mariners.txt,Sports,Baseball
TEST,gs://my-project-lcm/training-data/cubs.txt,Sports,Baseball

Error umum pada file .csv

  • Menggunakan karakter Unicode dalam label. Misalnya, karakter Jepang tidak didukung.
  • Penggunaan spasi dan karakter non-alfanumerik dalam label.
  • Baris kosong
  • Kolom kosong (baris dengan dua koma berturut-turut).
  • Tidak ada tanda kutip di sekitar teks tersemat yang menyertakan koma.
  • Kapitalisasi jalur Cloud Storage salah.
  • Kontrol akses salah dikonfigurasi untuk dokumen Anda. Akun layanan Anda harus memiliki akses baca atau akses yang lebih besar, atau file harus dapat dibaca secara publik.
  • Rujukan ke file non-teks, seperti file JPEG. Demikian juga, file yang bukan file teks tetapi telah diganti namanya dengan ekstensi teks akan menyebabkan error.
  • URI dokumen menunjuk ke bucket yang berbeda dengan project saat ini. Hanya file dalam bucket project yang dapat diakses.
  • File berformat non-CSV.

Membuat file ZIP impor

Untuk set data klasifikasi, Anda dapat mengimpor dokumen pelatihan menggunakan file ZIP. Dalam file ZIP tersebut, buat satu folder untuk setiap label atau nilai sentimen, lalu simpan setiap dokumen di dalam folder yang sesuai dengan label atau nilai untuk diterapkan ke dokumen tersebut. Misalnya, file ZIP untuk model yang mengklasifikasikan korespondensi bisnis mungkin memiliki struktur ini:

correspondence.zip
    transactional
        letter1.pdf
        letter2.pdf
        letter5.pdf
    persuasive
        letter3.pdf
        letter7.pdf
        letter8.pdf
    informational
        letter6.pdf
    instructional
        letter4.pdf
        letter9.pdf

AutoML Natural Language menerapkan nama folder sebagai label ke dokumen dalam folder tersebut. Untuk {i>dataset<i} analisis sentimen, nama foldernya adalah nilai-nilai sentimen:

sentiment.zip
    0
        document4.txt
    1
        document3.txt
        document1.txt
        document5.txt
    2
        document2.txt
        document6.txt
        document8.txt
        document9.txt
    3
        document7.txt

Langkah selanjutnya