Menyiapkan sumber data

Sebelum dapat mulai menyalurkan fitur secara online menggunakan Vertex AI Feature Store, Anda perlu menyiapkan sumber data fitur di BigQuery, sebagai berikut:

  1. Buat tabel atau tampilan BigQuery menggunakan data fitur Anda. Untuk memuat data fitur ke dalam tabel atau tampilan BigQuery, Anda dapat membuat set data BigQuery menggunakan data tersebut, membuat tabel BigQuery, lalu memuat data fitur dari set data ke dalam tabel tersebut.

  2. Setelah memuat data fitur ke dalam tabel atau tampilan BigQuery, Anda harus menyediakan sumber data ini untuk Vertex AI Feature Store agar dapat disalukan secara online. Ada dua cara untuk menghubungkan sumber data ke resource penyaluran online, seperti toko online dan instance tampilan fitur:

    • Daftarkan sumber data dengan membuat grup fitur dan fitur: Anda dapat mengaitkan grup fitur dan fitur dengan instance tampilan fitur di toko online Anda. Dalam skenario ini, Anda dapat memformat data sebagai deret waktu dengan menyertakan kolom feature_timestamp. Vertex AI Feature Store hanya menyalurkan nilai non-null terbaru untuk setiap ID entity unik, berdasarkan stempel waktu fitur. Untuk mengetahui informasi cara membuat grup fitur, lihat Membuat grup fitur. Untuk mengetahui informasi cara membuat fitur dalam grup fitur, lihat membuat fitur.

    • Menyalurkan fitur secara langsung dari sumber data tanpa membuat grup fitur dan fitur: Anda dapat menentukan URI sumber data dalam tampilan fitur. Perhatikan bahwa dalam skenario ini, Anda tidak dapat memformat data sebagai deret waktu atau menyertakan data historis dalam sumber BigQuery. Setiap baris harus berisi nilai fitur terbaru yang sesuai dengan ID unik. Beberapa kemunculan ID entity yang sama di baris yang berbeda tidak didukung.

Karena Vertex AI Feature Store memungkinkan Anda mengelola data fitur di BigQuery dan menyalurkan fitur dari sumber data BigQuery, maka Anda tidak perlu mengimpor atau menyalin fitur ke toko offline.

Panduan persiapan sumber data

Ikuti panduan ini untuk memahami skema dan batasan saat menyiapkan sumber data di BigQuery:

  1. Sumber data harus berisi kolom-kolom berikut:

    • Kolom ID entity dengan nilai string. Ukuran setiap nilai dalam kolom ini harus kurang dari 4 KB.

      • Jika Anda mendaftarkan sumber data dengan membuat grup fitur, nama kolom ini harus entity_id. Anda tidak perlu menentukan kolom ID entity saat mengaitkan grup fitur selama pembuatan tampilan fitur.

      • Jika akan menentukan URI sumber data untuk membuat tampilan fitur, Anda harus menentukan nama kolom ini selama pembuatan tampilan fitur. Dalam hal ini, kolom ini tidak wajib diberi nama entity_id.

    • Jika Anda mendaftarkan sumber data menggunakan grup fitur dan fitur, sertakan kolom feature_timestamp dan format data tersebut sebagai deret waktu. Kolom feature_timestamp berisi nilai jenis timestamp. Selama penyaluran online, Vertex AI Feature Store akan menyalurkan nilai selain null terbaru dari sebuah fitur berdasarkan stempel waktu ini.

    Jika Anda langsung mengaitkan sumber data BigQuery dengan tampilan fitur, kolom feature_timestamp tidak diperlukan. Dalam skenario ini, Anda hanya boleh menyertakan nilai fitur terbaru dalam sumber data dan Vertex AI Feature Store tidak akan mencari stempel waktu.

    • Jika ingin mengaktifkan pengelolaanembedding di toko online, sumber data harus berisi kolom berikut:

    • Kolom embedding yang berisi array jenis float.

    • Opsional: Satu atau beberapa kolom pemfilteran dari jenis string atau array string.

    • Opsional: Kolom kepadatan jenis int.

  2. Setiap baris dalam sumber data adalah catatan lengkap nilai fitur yang terkait dengan ID entity. Jika nilai fitur tidak ada di salah satu kolom, nilai tersebut dianggap sebagai nilai null. Bergantung pada cara Anda menentukan tampilan fitur, ada dua cara yang dapat digunakan Vertex AI Feature Store untuk memilih nilai fitur yang disalurkan:

    • Jika tampilan fitur ditentukan berdasarkan grup fitur dan fitur, Vertex AI Feature Store akan menyalurkan nilai fitur non-null terbaru menggunakan stempel waktu fitur. Misalnya, jika nilai fitur tertentu yang terkait dengan stempel waktu terbaru adalah null, Vertex AI Feature Store akan menyalurkan nilai non-null terbaru dari nilai historis fitur tersebut.

    • Jika tampilan fitur ditentukan dengan menentukan sumber data BigQuery secara langsung, setiap baris harus berisi ID entity unik. Dalam hal ini, Vertex AI Feature Store menyalurkan semua nilai fitur dari sumber data terkait.

  3. Setiap kolom dalam tabel atau tampilan BigQuery mewakili sebuah fitur. Masukkan nilai untuk setiap fitur di kolom terpisah. Jika Anda mengaitkan sumber data dengan grup fitur dan fitur, kaitkan setiap kolom dengan fitur terpisah.

  4. Jenis data yang didukung untuk nilai fitur mencakup bool, int, float, string, timestamp, array jenis data ini, dan byte. Perhatikan bahwa selama sinkronisasi data, nilai fitur jenis timestamp akan dikonversi menjadi int64.

  5. Sumber data harus berada di region yang sama dengan instance toko online, atau di multi-region yang mencakup atau tumpang-tindih dengan region untuk toko online. Misalnya, jika toko online berada di us-central, sumber BigQuery mungkin berada di us-central atau US.

  6. Sinkronkan data di tampilan fitur sebelum penyaluran online untuk memastikan Anda hanya menyalurkan nilai fitur terbaru.

Langkah selanjutnya