Menyiapkan data pelatihan

Halaman ini menunjukkan cara menyiapkan data tabel untuk klasifikasi pelatihan dan model regresi di Vertex AI. Kualitas data pelatihan memengaruhi efektivitas model yang Anda buat.

Topik-topik berikut akan dibahas:

  1. Persyaratan struktur data
  2. Menyiapkan sumber impor
  3. Menambahkan bobot ke data pelatihan

Secara default, Vertex AI menggunakan algoritma pemisahan acak untuk memisahkan data Anda menjadi tiga bagian data. Vertex AI secara acak memilih 80% baris data Anda untuk set pelatihan, 10% untuk set validasi, dan 10% untuk set pengujian. Atau, Anda dapat menggunakan pemisahan manual atau pemisahan kronologis, tetapi cara ini mengharuskan Anda menyiapkan kolom pemisahan data atau kolom waktu. Pelajari lebih lanjut tentang pemisahan data.

Persyaratan struktur data

Data pelatihan Anda harus sesuai dengan persyaratan dasar berikut:

Jenis Persyaratan Persyaratan
Ukuran Set data harus berukuran 100 GB atau lebih kecil.
# kolom Set data harus memiliki minimal 2 dan tidak lebih dari 1.000 kolom. Set data harus memiliki target dan setidaknya satu fitur untuk melatih model. Idealnya, data pelatihan Anda memiliki lebih dari dua kolom. Jumlah maksimum kolom mencakup kolom fitur dan non-fitur.
Kolom target Anda harus menentukan kolom target. Kolom target memungkinkan Vertex AI mengaitkan data pelatihan dengan hasil yang diinginkan. Kolom tersebut tidak boleh berisi nilai null dan harus berupa Kategori atau Numerik. Jika berupa Kategori, kolom itu harus memiliki minimal 2 dan tidak lebih dari 500 nilai yang berbeda.
Format nama kolom Nama kolom dapat berisi karakter alfanumerik atau garis bawah (_). Nama kolom tidak boleh diawali dengan garis bawah.
# baris Set data harus memiliki minimal 1.000 dan tidak lebih dari 100.000.000 baris. Bergantung pada jumlah fitur yang dimiliki set data Anda, 1.000 baris mungkin tidak cukup untuk melatih model berperforma tinggi. Pelajari lebih lanjut.
Format data Anda harus menggunakan format data yang sesuai (luas atau sempit) untuk tujuan Anda. Format yang luas umumnya paling baik, dengan setiap baris mewakili satu item data pelatihan (produk, orang, dan sebagainya). Pelajari cara memilih format data.

Menyiapkan sumber impor

Anda dapat menyediakan data pelatihan model untuk Vertex AI dalam dua format:

  • Tabel BigQuery
  • Nilai yang dipisahkan koma (CSV)

Sumber yang Anda gunakan bergantung pada cara data disimpan, serta ukuran dan kompleksitas data Anda. Jika set data Anda kecil, dan Anda tidak memerlukan jenis data yang lebih kompleks, CSV mungkin akan lebih mudah. Untuk set data yang lebih besar serta mencakup array dan struct, Anda harus menggunakan BigQuery.

BigQuery

Tabel atau tampilan BigQuery Anda harus sesuai dengan persyaratan lokasi BigQuery.

Jika tabel atau tampilan BigQuery Anda berada dalam project yang berbeda dengan project tempat Anda membuat set data Vertex AI, atau tabel atau tampilan BigQuery Anda didukung oleh sumber data eksternal, Anda mungkin perlu menambahkan satu atau beberapa peran ke Agen Layanan Vertex AI. Lihat Persyaratan penambahan peran untuk BigQuery.

Anda tidak perlu menentukan skema untuk tabel BigQuery. Vertex AI akan otomatis menyimpulkan skema untuk tabel saat Anda mengimpor data.

BigQuery URI Anda (menentukan lokasi data pelatihan) harus sesuai dengan format berikut:

bq://<project_id>.<dataset_id>.<table_id>

URI tidak boleh berisi karakter khusus lainnya.

Untuk mengetahui informasi tentang jenis data BigQuery dan cara pemetaannya ke Vertex AI, lihat tabel BigQuery. Untuk informasi lebih lanjut tentang cara menggunakan sumber data eksternal BigQuery, lihat Pengantar sumber data eksternal.

CSV

File CSV dapat berada di Cloud Storage, atau di komputer lokal Anda. File tersebut harus memenuhi persyaratan berikut:

  • Baris pertama file pertama harus berupa header yang berisi nama kolom. Jika baris pertama dari file berikutnya sama dengan header, baris tersebut juga akan diperlakukan sebagai header. Jika tidak, baris tersebut akan diperlakukan sebagai data.
  • Nama kolom dapat berisi karakter alfanumerik atau garis bawah (_). Nama kolom tidak boleh diawali dengan garis bawah.
  • Setiap file tidak boleh lebih besar dari 10 GB.

    Anda dapat menyertakan beberapa file, dengan total ukuran maksimum 100 GB.

  • Pemisah harus berupa koma (",").

Anda tidak perlu menentukan skema untuk data CSV Anda. Vertex AI akan otomatis menyimpulkan skema untuk tabel saat Anda mengimpor data, dan menggunakan baris header untuk nama kolom.

Untuk informasi selengkapnya tentang format file CSV dan jenis data, lihat file CSV.

Jika Anda mengimpor data dari Cloud Storage, data tersebut harus berada dalam bucket yang memenuhi persyaratan berikut:

Jika Anda mengimpor data dari komputer lokal, Anda harus memiliki bucket Cloud Storage yang memenuhi persyaratan berikut:

Menambahkan bobot ke data pelatihan

Secara default, Vertex AI memiliki bobot yang sama untuk setiap baris data pelatihan Anda. Untuk tujuan pelatihan, tidak ada baris yang dianggap lebih penting daripada yang lain.

Terkadang, Anda mungkin ingin beberapa baris memiliki nilai yang lebih penting untuk pelatihan. Misalnya, jika menggunakan data pengeluaran, Anda mungkin ingin data mengenai mereka yang membelanjakan lebih banyak uang memiliki dampak lebih besar terhadap model. Jika Anda tidak ingin melewatkan hasil tertentu, Anda dapat menambahkan bobot pada baris dengan hasil tersebut.

Anda memberikan bobot relatif pada baris dengan menambahkan kolom bobot ke set data. Kolom bobot harus berupa kolom angka (numerik). Nilai bobot antara 0‐10.000. Nilai yang lebih tinggi menunjukkan bahwa baris tersebut lebih penting saat melatih model. Bobot 0 menyebabkan baris diabaikan. Jika Anda menyertakan kolom bobot, kolom itu harus berisi nilai untuk setiap baris.

Kemudian, saat melatih model, Anda menentukan kolom ini sebagai kolom Weight.

Skema pembobotan kustom hanya digunakan untuk melatih model, dan tidak akan memengaruhi set pengujian yang digunakan untuk evaluasi model.

Langkah berikutnya