Tentang Vertex AI Feature Store

Vertex AI Feature Store adalah layanan penyimpanan fitur terkelola berbasis cloud yang merupakan bagian tak terpisahkan dari Vertex AI. Solusi ini menyederhanakan pengelolaan fitur ML dan proses penyaluran online dengan memungkinkan Anda mengelola data fitur dalam tabel atau tampilan BigQuery. Anda kemudian dapat menyalurkan fitur secara online langsung dari sumber data BigQuery.

Vertex AI Feature Store menyediakan resource yang memungkinkan Anda menyiapkan penyaluran online dengan menentukan sumber data fitur Anda. Kemudian, lapisan metadata ini berfungsi sebagai lapisan metadata yang bersinggungan dengan sumber data BigQuery dan menyalurkan nilai fitur terbaru langsung dari BigQuery untuk prediksi online dengan latensi rendah.

Di Vertex AI Feature Store, tabel atau tampilan BigQuery yang berisi data fitur secara kolektif membentuk penyimpanan offline. Anda dapat mempertahankan nilai fitur, termasuk data fitur historis, di penyimpanan offline. Karena semua data fitur dikelola di BigQuery, Vertex AI Feature Store tidak perlu menyediakan penyimpanan offline terpisah dalam Vertex AI. Selain itu, jika ingin menggunakan data di penyimpanan offline untuk melatih model ML, Anda dapat menggunakan API dan kemampuan di BigQuery untuk mengekspor atau mengambil data.

Alur kerja untuk menyiapkan dan memulai penyaluran online menggunakan Vertex AI Feature Store dapat dirangkum sebagai berikut:

  1. Persiapkan sumber data Anda di BigQuery.

  2. Opsional: Daftarkan sumber data Anda dengan membuat grup fitur dan fitur.

  3. Siapkan referensi penyimpanan online dan tampilan fitur untuk menghubungkan sumber data fitur dengan cluster penyaluran online.

  4. Menyajikan nilai fitur terbaru secara online dari tampilan fitur.

Model data dan resource Vertex AI Feature Store

Bagian ini menjelaskan model data dan resource yang terkait dengan aspek Vertex AI Feature Store berikut:

Persiapan sumber data di BigQuery

Selama penyaluran online, Vertex AI Feature Store menggunakan data fitur dari sumber data BigQuery. Sebelum menyiapkan Registry Fitur atau resource penayangan online, Anda harus menyimpan data fitur dalam satu atau beberapa tabel atau tampilan BigQuery.

Dalam tabel atau tampilan BigQuery, setiap kolom mewakili sebuah fitur. Setiap baris berisi nilai fitur yang sesuai dengan ID unik. Untuk mengetahui informasi selengkapnya tentang cara menyiapkan data fitur di BigQuery, lihat Menyiapkan sumber data.

Misalnya, dalam gambar 1, tabel BigQuery menyertakan kolom berikut:

  • f1 dan f2: Kolom fitur.

  • entity_id: Kolom ID yang berisi ID unik untuk mengidentifikasi setiap data fitur.

  • feature_timestamp: Kolom stempel waktu.

Tampilan fitur yang berisi fitur f1 dan f2 dalam format deret waktu.
Gambar 1. Contoh sumber data BigQuery.

Karena Anda menyiapkan sumber data di BigQuery, bukan di Vertex AI, Anda tidak perlu membuat resource Vertex AI apa pun pada tahap ini.

Penyiapan Feature Registry

Setelah menyiapkan sumber data di BigQuery, Anda dapat mendaftarkan sumber data tersebut, termasuk kolom fitur tertentu, di Feature Registry.

Mendaftarkan fitur Anda bersifat opsional. Anda dapat menyajikan fitur secara online meskipun Anda tidak menambahkan sumber data BigQuery ke Registry Fitur. Namun, mendaftarkan fitur Anda akan menguntungkan dalam skenario berikut:

  • Data Anda mungkin berisi beberapa instance ID entity yang sama, dan Anda harus menyiapkan data dalam format deret waktu dengan kolom stempel waktu. Saat Anda mendaftarkan fitur, Vertex AI Feature Store akan mencari stempel waktu dan hanya menyalurkan nilai fitur terbaru.

  • Anda ingin mendaftarkan kolom fitur tertentu dari sumber data.

  • Anda ingin menggabungkan kolom tertentu dari beberapa sumber data untuk menentukan instance tampilan fitur.

Resource Feature Registry

Untuk mendaftarkan data fitur di Feature Registry, Anda perlu membuat resource Vertex AI Feature Store berikut:

  • Grup fitur (FeatureGroup): Resource FeatureGroup dikaitkan dengan tabel sumber atau tampilan BigQuery tertentu. Elemen ini mewakili pengelompokan kolom fitur secara logis, yang direpresentasikan oleh resource Feature. Untuk mengetahui informasi tentang cara membuat grup fitur, lihat Membuat grup fitur.

  • Fitur (Feature): Feature mewakili kolom tertentu yang berisi nilai fitur dari sumber data fitur yang terkait dengan resource FeatureGroup induknya. Untuk informasi cara membuat fitur dalam grup fitur, lihat Membuat fitur.

Misalnya, gambar 2 mengilustrasikan grup fitur termasuk kolom fitur f1 dan f2, yang bersumber dari tabel BigQuery yang terkait dengan grup fitur. Sumber data BigQuery berisi empat kolom fitur—dua kolom digabungkan untuk membentuk grup fitur.

Grup fitur yang berisi fitur f1 dan f2 dalam format deret waktu.
Gambar 2. Contoh FeatureGroup yang berisi dua kolom Feature yang bersumber dari sumber data BigQuery.

Penyiapan penyaluran online

Agar dapat menyajikan fitur untuk prediksi online, Anda harus menentukan dan mengonfigurasi setidaknya satu cluster penyaluran online, dan mengaitkannya dengan sumber data fitur atau resource Registry Fitur Anda. Di Vertex AI Feature Store, cluster penyaluran online disebut instance penyimpanan online. Instance penyimpanan online dapat berisi beberapa instance tampilan fitur, tempat setiap tampilan fitur dikaitkan dengan sumber data fitur.

Referensi penyaluran online

Untuk menyiapkan penyaluran online, Anda harus membuat resource Vertex AI Feature Store berikut:

  • Toko online (FeatureOnlineStore): Resource FeatureOnlineStore mewakili instance cluster penayangan online dan berisi konfigurasi penayangan online, seperti jumlah node penayangan online. Instance toko online tidak menentukan sumber data fitur, tetapi berisi resource FeatureView yang menentukan sumber data fitur di BigQuery atau Feature Registry. Untuk mengetahui informasi tentang cara membuat instance penyimpanan online, lihat Membuat instance penyimpanan online.

  • Tampilan fitur (FeatureView): Resource FeatureView adalah kumpulan fitur logis dalam instance toko online. Saat membuat tampilan fitur, Anda dapat menentukan lokasi sumber data fitur dengan salah satu cara berikut:

    • Mengaitkan satu atau beberapa grup fitur dan fitur dari Feature Registry. Grup fitur menentukan lokasi sumber data BigQuery. Fitur dalam grup fitur mengarah ke kolom fitur tertentu di dalam sumber data tersebut.

    • Atau, kaitkan tabel sumber atau tampilan BigQuery.

    Untuk mengetahui informasi tentang cara membuat instance tampilan fitur dalam penyimpanan online, lihat Membuat tampilan fitur.

Misalnya, gambar 3 mengilustrasikan tampilan fitur yang terdiri dari kolom fitur f2 dan f4, yang bersumber dari dua grup fitur terpisah yang terkait dengan tabel BigQuery.

Tampilan fitur yang berisi fitur f2 dan f4 yang bersumber dari dua grup fitur.
Gambar 3. Contoh FeatureView yang berisi fitur dari dua grup fitur yang terpisah.

Penyaluran online

Vertex AI Feature Store menyediakan jenis penyaluran online berikut untuk prediksi online secara real-time:

  • Penyaluran online bigtable berguna untuk menyajikan volume data yang besar (data terabyte). Layanan ini mirip dengan penayangan online di Vertex AI Feature Store (Lama) dan menyediakan penyimpanan dalam cache yang lebih baik untuk mengurangi hotspotting.

  • Penayangan online yang dioptimalkan memungkinkan Anda menayangkan fitur secara online dengan latensi yang sangat rendah. Perlu diketahui bahwa meskipun latensi penayangan online bergantung pada beban kerja, Penayangan online yang dioptimalkan dapat memberikan latensi yang lebih rendah daripada penayangan online Bigtable dan direkomendasikan untuk sebagian besar skenario. Namun, jika Anda perlu menyajikan data dalam volume besar yang sering diperbarui, gunakan penayangan online Bigtable.

    Untuk menggunakan Penayangan online yang dioptimalkan, Anda perlu mengonfigurasi endpoint publik atau endpoint Private Service Connect khusus.

Untuk mempelajari cara menyiapkan penayangan online di Vertex AI Feature Store setelah menyiapkan fitur, lihat Jenis penayangan online.

Penayangan offline untuk prediksi batch atau pelatihan model

Karena tidak perlu menyalin atau mengimpor data fitur dari BigQuery ke penyimpanan offline terpisah di Vertex AI, Anda dapat menggunakan kemampuan pengelolaan data dan ekspor BigQuery untuk melakukan hal berikut:

Untuk mengetahui informasi lebih lanjut tentang machine learning yang menggunakan BigQuery, baca Pengantar BigQuery ML.

Persyaratan Vertex AI Feature Store

rekayasa fitur
  • Rekayasa fitur adalah proses mengubah data mentah machine learning (ML) menjadi fitur yang dapat digunakan untuk melatih model ML atau membuat prediksi.

fitur
  • Dalam machine learning (ML), fitur adalah karakteristik atau atribut instance atau entity yang digunakan sebagai input untuk melatih model ML atau membuat prediksi.

nilai fitur
  • Nilai fitur sesuai dengan nilai aktual dan terukur fitur (atribut) dari sebuah instance atau entity. Kumpulan nilai fitur untuk entity unik yang mewakili data fitur yang sesuai dengan entity.

stempel waktu fitur
  • Stempel waktu fitur menunjukkan kapan serangkaian nilai fitur dalam kumpulan data fitur tertentu untuk entity dihasilkan.

kumpulan data fitur
  • Kumpulan data fitur adalah penggabungan semua nilai fitur yang mendeskripsikan atribut entitas unik pada titik waktu tertentu.

Persyaratan yang terkait dengan Registry Fitur

registry fitur
  • Registry fitur adalah antarmuka pusat untuk merekam sumber data fitur yang ingin Anda sajikan untuk prediksi online.

grup fitur
  • Grup fitur adalah resource registry fitur yang sesuai dengan tabel sumber BigQuery atau tampilan yang berisi data fitur. Tampilan fitur mungkin berisi fitur dan dapat dianggap sebagai pengelompokan kolom fitur yang logis dalam sumber data.

penyajian fitur
  • Penyajian fitur adalah proses mengekspor atau mengambil nilai fitur untuk pelatihan atau inferensi. Di Vertex AI, ada dua jenis penyajian fitur, yaitu layanan online dan offline. Penyajian online mengambil nilai fitur terbaru dari subset sumber data fitur untuk prediksi online. Penyaluran batch secara offline atau batch mengekspor data fitur dalam jumlah besar untuk pemrosesan offline, seperti pelatihan model ML.

penyimpanan offline
  • Penyimpanan offline adalah fasilitas penyimpanan yang menyimpan data fitur terbaru dan historis, yang biasanya digunakan untuk melatih model ML. Penyimpanan offline juga berisi nilai fitur terbaru, yang dapat Anda sajikan untuk prediksi online.

penyimpanan online
  • Dalam pengelolaan fitur, penyimpanan online adalah fasilitas penyimpanan untuk nilai fitur terbaru yang akan ditayangkan untuk prediksi online.

tampilan fitur
  • Tampilan fitur adalah kumpulan logis fitur yang terwujud dari sumber data BigQuery ke instance penyimpanan online. Tampilan fitur menyimpan dan memperbarui data fitur pelanggan secara berkala, yang diperbarui secara berkala dari sumber BigQuery. Tampilan fitur dikaitkan dengan penyimpanan data fitur baik secara langsung maupun melalui pengaitan ke resource registry fitur.

Batasan lokasi

Semua resource Vertex AI Feature Store harus berada di region yang sama atau lokasi multi-regional yang sama dengan sumber data BigQuery Anda. Misalnya, jika sumber data fitur berada di us-central1, Anda harus membuat instance FeatureOnlineStore hanya di us-central1 atau di lokasi multi-region US.

Metadata fitur

Vertex AI Feature Store terintegrasi dengan Dataplex untuk menyediakan kemampuan tata kelola fitur, termasuk metadata fitur. Instance toko online, tampilan fitur, dan grup fitur secara otomatis terdaftar sebagai aset data di Data Catalog, sebuah fitur Dataplex yang mencatat metadata dari resource ini. Anda kemudian dapat menggunakan kemampuan penelusuran metadata dari Dataplex untuk menelusuri, melihat, dan mengelola metadata untuk resource ini. Untuk mengetahui informasi selengkapnya tentang penelusuran resource Vertex AI Feature Store di Dataplex, lihat Menelusuri metadata resource di Data Catalog.

Label fitur

Anda dapat menambahkan label ke resource selama atau setelah pembuatan resource. Untuk mengetahui informasi selengkapnya tentang cara menambahkan label ke resource Vertex AI Feature Store yang ada, lihat Memperbarui label.

Metadata versi resource

Vertex AI Feature Store hanya mendukung versi 0 untuk fitur.

Pengelolaan embedding dan pengambilan vektor

Vertex AI Feature Store mendukung pengelolaan embedding. Anda dapat menyimpan embedding di BigQuery sebagai array double reguler. Dengan menggunakan kemampuan pengelolaan embedding Vertex AI Feature Store, Anda dapat melakukan penelusuran kesamaan vektor untuk mengambil entity yang merupakan perkiraan terdekat untuk entity atau nilai embedding yang ditentukan.

Untuk menggunakan pengelolaan embedding di Vertex AI Feature Store, Anda perlu melakukan hal berikut:

Untuk mengetahui informasi tentang cara melakukan penelusuran kesamaan vektor di Vertex AI Feature Store, lihat Melakukan penelusuran vektor untuk entity.

Retensi data

Vertex AI Feature Store mempertahankan nilai fitur terbaru untuk ID unik, berdasarkan stempel waktu yang terkait dengan nilai fitur dalam sumber data. Tidak ada batas retensi data di penyimpanan online.

Karena penyimpanan offline disediakan oleh BigQuery, batas atau kuota retensi data dari BigQuery mungkin berlaku untuk sumber data fitur, termasuk nilai fitur historis. Pelajari kuota dan batas di BigQuery lebih lanjut.

Kuota dan batas

Vertex AI Feature Store menerapkan kuota dan batas untuk membantu Anda mengelola resource dengan menetapkan batas penggunaan, dan melindungi komunitas pengguna Google Cloud dengan mencegah lonjakan penggunaan yang tidak terduga. Untuk menggunakan resource Vertex AI Feature Store secara efisien tanpa mencapai batasan ini, tinjau kuota dan batas Vertex AI Feature Store.

Harga

Untuk mengetahui informasi tentang harga penggunaan resource untuk Vertex AI Feature Store, lihat Harga Vertex AI Feature Store.

Tutorial notebook

Penyajian fitur online dan pengambilan data BigQuery dengan Vertex AI Feature Store

Penyajian fitur online dan pengambilan data BigQuery dengan Vertex AI Feature Store

Di notebook ini, Anda akan mempelajari cara menggunakan Vertex AI Feature Store untuk penyaluran online dan pengambilan nilai fitur di BigQuery.

Jalankan di Colab | Lihat di GitHub

Penyajian fitur online dan pengambilan vektor data BigQuery dengan Vertex AI Feature Store

Penyajian fitur online dan pengambilan vektor data BigQuery dengan Vertex AI Feature Store

Dalam notebook ini, Anda akan mempelajari cara menggunakan Vertex AI Feature Store untuk penyaluran online dan pengambilan vektor nilai fitur di BigQuery.

Jalankan di Colab | Lihat di GitHub

Penyajian fitur online dan pengambilan data BigQuery dengan Penayangan yang Dioptimalkan di Vertex AI Feature Store

Penyajian fitur online dan pengambilan data BigQuery dengan inferensi yang dioptimalkan oleh Vertex AI Feature Store

Dalam notebook ini, Anda akan mempelajari cara menggunakan Dioptimalkan secara online di Vertex AI Feature Store untuk inferensi dan pengambilan nilai fitur dari BigQuery.

Jalankan di Colab | Lihat di GitHub

Langkah selanjutnya