Menyiapkan data pelatihan

Halaman ini menjelaskan cara menyiapkan data tabel untuk model perkiraan pelatihan.

Topik-topik berikut akan dibahas:

  1. Persyaratan struktur data
  2. Menyiapkan sumber impor
  3. Menambahkan bobot ke data pelatihan

Secara default, Vertex AI menggunakan algoritma pemisahan kronologis untuk memisahkan data perkiraan menjadi tiga bagian data. Atau, Anda dapat menggunakan pemisahan manual, tetapi cara ini mengharuskan Anda menyiapkan kolom pemisahan data. Pelajari lebih lanjut tentang pemisahan data.

Persyaratan struktur data

Untuk model perkiraan, data pelatihan Anda harus sesuai dengan persyaratan dasar berikut:

Jenis Persyaratan Persyaratan
Ukuran Set data harus berukuran 100 GB atau lebih kecil.
# kolom Set data harus memiliki minimal 3 dan tidak lebih dari 100 kolom. Setiap pengamatan dalam set data harus memiliki target dan waktu, yang keduanya berfungsi sebagai fitur. Selanjutnya, setiap pengamatan harus memiliki ID deret waktu, yang mengidentifikasi deret waktu tempat pengamatan berada. Idealnya, data pelatihan Anda memiliki lebih dari 3 kolom. Jumlah maksimum kolom mencakup kolom fitur dan non-fitur.
Kolom target Anda harus menentukan kolom target. Kolom target memungkinkan Vertex AI mengaitkan data pelatihan dengan hasil yang diinginkan. Kolom tersebut tidak boleh berisi nilai null dan harus berupa angka (Numerik).
Kolom waktu Anda harus menentukan kolom waktu dan kolom tersebut harus memiliki nilai untuk setiap baris. Kolom waktu menunjukkan waktu saat pengamatan tertentu dilakukan.
Kolom ID deret waktu Anda harus menentukan kolom ID deret waktu dan kolom tersebut harus memiliki nilai untuk setiap baris. Data pelatihan perkiraan biasanya mencakup beberapa deret waktu, dan ID ini memberi tahu Vertex AI pada deret waktu mana pengamatan tertentu dalam data pelatihan dilakukan. Semua baris dalam deret waktu tertentu memiliki nilai yang sama dalam kolom ID deret waktu. Beberapa kode deret waktu yang umum dapat berupa ID produk, ID toko, atau region. Model perkiraan dapat dilatih pada satu deret waktu, dengan nilai yang identik untuk semua baris dalam kolom ID deret waktu. Namun, Vertex AI lebih sesuai untuk data pelatihan yang berisi dua deret waktu atau lebih. Untuk hasil terbaik, gunakan minimal 10 deret waktu bagi setiap kolom yang Anda gunakan untuk melatih model.
Format nama kolom Nama kolom dapat berisi karakter alfanumerik atau garis bawah (_). Nama kolom tidak boleh diawali dengan garis bawah.
# baris Set data harus memiliki minimal 1.000 dan tidak lebih dari 100.000.000 baris. Bergantung pada jumlah fitur yang dimiliki set data Anda, 1.000 baris mungkin tidak cukup untuk melatih model berperforma tinggi. Pelajari lebih lanjut.
Format data Gunakan format data sempit (terkadang disebut panjang). Dalam format sempit, setiap baris mewakili item yang ditentukan oleh ID deret waktu untuk titik waktu tertentu, beserta semua data untuk item tersebut pada titik waktu tersebut. Pelajari cara memilih format data.
Interval antar-baris Interval di antara baris pelatihan Anda harus konsisten. Ini adalah perincian data Anda. Hal ini akan memengaruhi cara model dilatih dan frekuensi hasil prediksi. Pelajari cara memilih tingkat perincian data.
Panjang deret waktu Panjang deret waktu tidak boleh lebih dari 3000 langkah waktu.

Menyiapkan sumber impor

Anda dapat menyediakan data pelatihan model untuk Vertex AI dalam dua format:

  • Tabel BigQuery
  • Nilai yang dipisahkan koma (CSV)

Sumber yang Anda gunakan bergantung pada cara data disimpan, serta ukuran dan kompleksitas data Anda. Jika set data Anda kecil, dan Anda tidak memerlukan jenis data yang lebih kompleks, CSV mungkin akan lebih mudah. Untuk set data yang lebih besar serta mencakup array dan struct, Anda harus menggunakan BigQuery.

BigQuery

Tabel atau tampilan BigQuery Anda harus sesuai dengan persyaratan lokasi BigQuery.

Jika tabel atau tampilan BigQuery Anda berada dalam project yang berbeda dengan project tempat Anda membuat set data Vertex AI, atau tabel atau tampilan BigQuery Anda didukung oleh sumber data eksternal, Anda mungkin perlu menambahkan satu atau beberapa peran ke Agen Layanan Vertex AI. Lihat Persyaratan penambahan peran untuk BigQuery.

Anda tidak perlu menentukan skema untuk tabel BigQuery. Vertex AI akan otomatis menyimpulkan skema untuk tabel saat Anda mengimpor data.

BigQuery URI Anda (menentukan lokasi data pelatihan) harus sesuai dengan format berikut:

bq://<project_id>.<dataset_id>.<table_id>

URI tidak boleh berisi karakter khusus lainnya.

Untuk mengetahui informasi tentang jenis data BigQuery dan cara pemetaannya ke Vertex AI, lihat tabel BigQuery. Untuk informasi lebih lanjut tentang cara menggunakan sumber data eksternal BigQuery, lihat Pengantar sumber data eksternal.

CSV

File CSV dapat berada di Cloud Storage, atau di komputer lokal Anda. File tersebut harus memenuhi persyaratan berikut:

  • Baris pertama file pertama harus berupa header yang berisi nama kolom. Jika baris pertama dari file berikutnya sama dengan header, baris tersebut juga akan diperlakukan sebagai header. Jika tidak, baris tersebut akan diperlakukan sebagai data.
  • Nama kolom dapat berisi karakter alfanumerik atau garis bawah (_). Nama kolom tidak boleh diawali dengan garis bawah.
  • Setiap file tidak boleh lebih besar dari 10 GB.

    Anda dapat menyertakan beberapa file, dengan total ukuran maksimum 100 GB.

  • Pemisah harus berupa koma (",").

Anda tidak perlu menentukan skema untuk data CSV Anda. Vertex AI akan otomatis menyimpulkan skema untuk tabel saat Anda mengimpor data, dan menggunakan baris header untuk nama kolom.

Untuk informasi selengkapnya tentang format file CSV dan jenis data, lihat file CSV.

Jika Anda mengimpor data dari Cloud Storage, data tersebut harus berada dalam bucket yang memenuhi persyaratan berikut:

Jika Anda mengimpor data dari komputer lokal, Anda harus memiliki bucket Cloud Storage yang memenuhi persyaratan berikut:

Menambahkan bobot ke data pelatihan

Secara default, Vertex AI memiliki bobot yang sama untuk setiap baris data pelatihan Anda. Untuk tujuan pelatihan, tidak ada baris yang dianggap lebih penting daripada yang lain.

Terkadang, Anda mungkin ingin beberapa baris memiliki nilai yang lebih penting untuk pelatihan. Misalnya, jika menggunakan data pengeluaran, Anda mungkin ingin data mengenai mereka yang membelanjakan lebih banyak uang memiliki dampak lebih besar terhadap model. Jika Anda tidak ingin melewatkan hasil tertentu, Anda dapat menambahkan bobot pada baris dengan hasil tersebut.

Anda memberikan bobot relatif pada baris dengan menambahkan kolom bobot ke set data. Kolom bobot harus berupa kolom angka (numerik). Nilai bobot antara 0‐10.000. Nilai yang lebih tinggi menunjukkan bahwa baris tersebut lebih penting saat melatih model. Bobot 0 menyebabkan baris diabaikan. Jika Anda menyertakan kolom bobot, kolom itu harus berisi nilai untuk setiap baris.

Kemudian, saat melatih model, Anda menentukan kolom ini sebagai kolom Weight.

Skema pembobotan kustom hanya digunakan untuk melatih model, dan tidak akan memengaruhi set pengujian yang digunakan untuk evaluasi model.

Langkah selanjutnya