Menyiapkan sumber data

Sebelum dapat mulai menyalurkan fitur secara online menggunakan Vertex AI Feature Store, Anda perlu menyiapkan sumber data fitur di BigQuery, sebagai berikut:

  1. Buat tabel atau tampilan BigQuery menggunakan data fitur Anda. Untuk memuat data fitur ke dalam tabel atau tampilan BigQuery, Anda dapat membuat set data BigQuery menggunakan data tersebut, membuat tabel BigQuery, lalu memuat data fitur dari set data ke dalam tabel tersebut.

  2. Setelah memuat data fitur ke dalam tabel atau tampilan BigQuery, Anda harus menyediakan sumber data ini untuk Vertex AI Feature Store agar dapat disalukan secara online. Ada dua cara untuk menghubungkan sumber data ke resource penyaluran online, seperti toko online dan instance tampilan fitur:

    • Daftarkan sumber data dengan membuat grup fitur dan fitur: Anda dapat mengaitkan grup fitur dan fitur dengan instance tampilan fitur di toko online Anda. Anda dapat memformat data dengan salah satu cara berikut:

      • Format data Anda sebagai deret waktu dengan menyertakan kolom stempel waktu fitur. Vertex AI Feature Store hanya menyalurkan nilai fitur terbaru untuk setiap ID entity unik, berdasarkan stempel waktu fitur di kolom ini.

      • Format data tanpa menyertakan kolom stempel waktu fitur. Vertex AI Feature Store mengelola stempel waktu dan hanya menyalurkan nilai fitur terbaru untuk setiap ID entity unik.

      Untuk mengetahui informasi tentang cara membuat grup fitur, lihat Membuat grup fitur. Untuk mengetahui informasi cara membuat fitur dalam grup fitur, lihat membuat fitur.

    • Menyalurkan fitur secara langsung dari sumber data tanpa membuat grup fitur dan fitur: Anda dapat menentukan URI sumber data dalam tampilan fitur. Perhatikan bahwa dalam skenario ini, Anda tidak dapat memformat data sebagai deret waktu atau menyertakan data historis dalam sumber BigQuery. Setiap baris harus berisi nilai fitur terbaru yang sesuai dengan ID unik. Beberapa kemunculan ID entity yang sama di baris yang berbeda tidak didukung.

Karena Vertex AI Feature Store memungkinkan Anda mengelola data fitur di BigQuery dan menyalurkan fitur dari sumber data BigQuery, maka Anda tidak perlu mengimpor atau menyalin fitur ke toko offline.

Panduan persiapan sumber data

Ikuti panduan ini untuk memahami skema dan batasan saat menyiapkan sumber data di BigQuery:

  1. Sertakan kolom berikut di sumber data:

    • Kolom ID entity: Sumber data harus memiliki minimal satu kolom ID entity dengan nilai string atau int. Nama default untuk kolom ini adalah entity_id. Secara opsional, Anda dapat menggunakan nama lain untuk kolom ini. Ukuran setiap nilai dalam kolom ini harus kurang dari 4 KB.

      Perhatikan bahwa Anda juga dapat menetapkan data fitur dengan membuat ID entity menggunakan fitur dari beberapa kolom. Dalam skenario ini, Anda dapat menyertakan beberapa kolom ID entity dalam sumber data. Nama setiap kolom ID entity harus unik. Jika Anda mendaftarkan sumber data dengan membuat grup fitur, tetapkan kolom ID entity untuk setiap grup fitur. Atau, jika Anda langsung mengaitkan sumber data dengan tampilan fitur, konfigurasikan tampilan fitur untuk menentukan kolom ID entity.

      Perhatikan bahwa Anda dapat menyertakan beberapa kolom ID dalam sumber data. Dalam skenario tersebut, nama setiap kolom ID entity harus unik. Anda dapat mengonfigurasi grup fitur atau tampilan fitur untuk membuat ID entity menggunakan nilai dari setiap kolom untuk kumpulan data fitur.

    • Kolom stempel waktu fitur: Opsional. Jika Anda mendaftarkan sumber data menggunakan grup fitur dan fitur, dan perlu memformat data sebagai deret waktu, sertakan kolom stempel waktu fitur. Kolom stempel waktu berisi nilai jenis timestamp. Nama default untuk kolom stempel waktu adalah feature_timestamp. Jika Anda ingin menggunakan nama kolom yang berbeda, gunakan parameter time_series untuk menetapkan kolom stempel waktu untuk grup fitur.

      Jika Anda tidak menentukan kolom stempel waktu untuk memformat data sebagai deret waktu, Vertex AI Feature Store akan mengelola stempel waktu untuk fitur dan menyalurkan nilai fitur terbaru.

      Jika Anda langsung mengaitkan sumber data BigQuery dengan tampilan fitur, kolom feature_timestamp tidak diperlukan. Dalam skenario ini, Anda hanya boleh menyertakan nilai fitur terbaru dalam sumber data dan Vertex AI Feature Store tidak akan mencari stempel waktu.

    • Menyemat dan memfilter kolom: Opsional. Jika Anda ingin menggunakan pengelolaan penyematan di toko online yang dibuat untuk Penyaluran online yang dioptimalkan, sumber data harus berisi kolom berikut:

      • Kolom embedding yang berisi array jenis float.

      • Opsional: Satu atau beberapa kolom pemfilteran dari jenis string atau array string.

      • Opsional: Kolom kepadatan jenis int.

  2. Setiap baris dalam sumber data adalah catatan lengkap nilai fitur yang terkait dengan ID entity. Jika nilai fitur tidak ada di salah satu kolom, nilai tersebut dianggap sebagai nilai null.

  3. Setiap kolom dalam tabel atau tampilan BigQuery mewakili sebuah fitur. Masukkan nilai untuk setiap fitur di kolom terpisah. Jika Anda mengaitkan sumber data dengan grup fitur dan fitur, kaitkan setiap kolom dengan fitur terpisah.

  4. Jenis data yang didukung untuk nilai fitur mencakup bool, int, float, string, timestamp, array jenis data ini, dan byte. Perhatikan bahwa selama sinkronisasi data, nilai fitur jenis timestamp akan dikonversi menjadi int64.

  5. Sumber data harus berada di region yang sama dengan instance toko online, atau di multi-region yang mencakup atau tumpang-tindih dengan region untuk toko online. Misalnya, jika toko online berada di us-central, sumber BigQuery mungkin berada di us-central atau US.

  6. Sinkronkan data dalam tampilan fitur sebelum penyaluran online untuk memastikan Anda hanya menyalurkan nilai fitur terbaru. Jika menggunakan sinkronisasi data terjadwal, Anda mungkin perlu menyinkronkan data secara manual di tampilan fitur. Namun, jika menggunakan sinkronisasi data berkelanjutan dengan Penayangan online yang dioptimalkan, Anda tidak perlu menyinkronkan data secara manual.

Langkah selanjutnya