Vertex AI Feature Store è un servizio di feature store gestito e cloud-native integrato in Vertex AI. Semplifica la gestione delle funzionalità di ML e le procedure di pubblicazione online consentendoti di gestire i dati delle funzionalità in una tabella o vista BigQuery. Puoi quindi pubblicare le funzionalità online direttamente dall'origine dati BigQuery.
Vertex AI Feature Store esegue il provisioning delle risorse che ti consentono di configurare l'erogazione online specificando le origini dati delle caratteristiche. Agisce quindi come livello di metadati che interagisce con le origini dati BigQuery e fornisce i valori delle funzionalità più recenti direttamente da BigQuery per le previsioni online con latenze ridotte.
In Vertex AI Feature Store, le tabelle o le viste BigQuery contenenti i dati delle funzionalità formano collettivamente lo store offline. Puoi mantenere i valori delle funzionalità, inclusi i dati storici delle funzionalità, nell'archivio offline. Poiché tutti i dati delle funzionalità vengono gestiti in BigQuery, Vertex AI Feature Store non deve eseguire il provisioning di un strumento offline separato all'interno di Vertex AI. Inoltre, se vuoi utilizzare i dati nel magazzino offline per addestrare i modelli ML, puoi utilizzare le API e le funzionalità di BigQuery per esportare o recuperare i dati.
Il flusso di lavoro per configurare e avviare l'erogazione online utilizzando Vertex AI Feature Store può essere riepilogato come segue:
Prepara l'origine dati in BigQuery.
(Facoltativo) Registra le origini dati creando caratteristiche e gruppi di caratteristiche.
Configura l'archiviazione online e le risorse delle viste delle caratteristiche per connettere le origini dati delle caratteristiche con i cluster dell'erogazione online.
Eroga i valori delle caratteristiche più aggiornati da una vista dedicata.
Modello dei dati e risorse di Vertex AI Feature Store
Questa sezione illustra i modelli di dati e le risorse associati ai seguenti aspetti di Vertex AI Feature Store:
Preparazione dell'origine dati in BigQuery
Durante la pubblicazione online, Vertex AI Feature Store utilizza i dati delle funzionalità delle origini dati BigQuery. Prima di configurare il Registro di caratteristiche o le risorse di pubblicazione online, devi archiviare i dati delle caratteristiche in una o più tabelle o viste BigQuery.
All'interno di una tabella o di una vista BigQuery, ogni colonna rappresenta una funzionalità. Ogni riga contiene i valori delle funzionalità corrispondenti a un ID univoco. Per ulteriori informazioni su come preparare i dati delle funzionalità in BigQuery, consulta Preparare l'origine dati.
Ad esempio, nella figura 1, la tabella BigQuery include le seguenti colonne:
f1
ef2
: colonne delle funzionalità.entity_id
: una colonna ID contenente gli ID univoci per identificare ogni record della funzionalità.feature_timestamp
: una colonna del timestamp.
Poiché prepari l'origine dati in BigQuery e non in Vertex AI, in questa fase non devi creare risorse Vertex AI.
Configurazione del Registro di caratteristiche
Dopo aver preparato le origini dati in BigQuery, puoi registrarle, incluse colonne di funzionalità specifiche, nel Registry delle funzionalità.
La registrazione delle funzionalità è facoltativa. Puoi pubblicare elementi online anche se non aggiungi le origini dati BigQuery al registry di funzionalità. Tuttavia, registrarle è vantaggioso nei seguenti scenari:
I tuoi dati contengono più istanze dello stesso ID entità e devi prepararli in un formato di serie temporali con una colonna di timestamp. Quando registri le funzionalità, Vertex AI Feature Store cerca il timestamp e pubblica solo i valori più recenti.
Vuoi registrare colonne di funzionalità specifiche da un'origine dati.
Vuoi aggregare colonne specifiche da più origini dati per definire un'istanza della visualizzazione delle funzionalità.
Risorse del Registro di caratteristiche
Per registrare i dati delle funzionalità nel registry delle funzionalità, devi creare le seguenti risorse Vertex AI Feature Store:
Gruppo di funzionalità (
FeatureGroup
): una risorsaFeatureGroup
è associata a una tabella o vista di origine BigQuery specifica. Rappresenta un raggruppamento logico di colonne di funzionalità, che sono rappresentate da risorseFeature
. Per informazioni su come creare un gruppo di funzionalità, vedi Creare un gruppo di funzionalità.Elemento (
Feature
): una risorsaFeature
rappresenta una colonna specifica contenente i valori delle funzionalità dell'origine dati delle funzionalità associata alla risorsaFeatureGroup
principale. Per informazioni su come creare elementi all'interno di un gruppo di elementi, consulta Creare un elemento.
Ad esempio, la figura 2 mostra un gruppo di funzionalità che include le colonne di funzionalità f1
e f2
, ricavate da una tabella BigQuery associata al gruppo di funzionalità. L'origine dati BigQuery contiene quattro colonne di caratteristiche: due colonne vengono aggregate per formare il gruppo di caratteristiche.
Configurazione della pubblicazione online
Per pubblicare le funzionalità per le previsioni online, devi definire e configurare almeno un cluster di pubblicazione online e associarlo all'origine dati delle funzionalità o alle risorse del Registry delle funzionalità. In Vertex AI Feature Store, il cluster di pubblicazione online è chiamato istanza online store. Un'istanza del negozio online può contenere più istanze di viste delle caratteristiche, in cui ogni vista delle caratteristiche è associata a un'origine dati delle caratteristiche.
Risorse per la pubblicazione online
Per configurare l'erogazione online, devi creare le seguenti risorse Vertex AI Feature Store:
Archiviazione online (
FeatureOnlineStore
): una risorsaFeatureOnlineStore
rappresenta un'istanza di cluster di pubblicazione online e contiene la configurazione della pubblicazione online, ad esempio il numero di nodi di pubblicazione online. Un'istanza del negozio online non specifica l'origine dei dati delle funzionalità, ma contiene risorseFeatureView
che specificano le origini dati delle funzionalità in BigQuery o nel registry delle funzionalità. Per informazioni su come creare un'istanza del negozio online, consulta Creare un'istanza del negozio online.Visualizzazione delle funzionalità (
FeatureView
): una risorsaFeatureView
è una raccolta logica di funzionalità in un'istanza del negozio online. Quando crei una visualizzazione elemento, puoi specificare la posizione dell'origine dati elemento in uno dei seguenti modi:Associa uno o più gruppi di funzionalità e funzionalità dal Registro di funzionalità. Un gruppo di funzionalità specifica la posizione dell'origine dati BigQuery. Un elemento all'interno del gruppo di elementi fa riferimento a una colonna di elementi specifica all'interno dell'origine dati.
In alternativa, associa una tabella o una vista di origine BigQuery.
Per informazioni su come creare istanze di visualizzazione delle funzionalità all'interno di un negozio online, consulta Creare una visualizzazione delle funzionalità.
Ad esempio, la figura 3 mostra una vista delle funzionalità composta dalle colonne delle funzionalità f2
e f4
, che provengono da due gruppi di funzionalità distinti associati a una tabella BigQuery.
Distribuzione online
Vertex AI Feature Store fornisce i seguenti tipi di pubblicazione online per le previsioni online in tempo reale:
L'erogazione online di Bigtable è utile per l'erogazione di grandi volumi di dati (terabyte di dati). È simile alla distribuzione online in Vertex AI Feature Store (legacy) e offre un caching migliore per mitigare l'hotspot. La distribuzione online di Bigtable non supporta gli embedding. Se devi pubblicare grandi volumi di dati aggiornati di frequente e non devi pubblicare embedding, utilizza la pubblicazione online di Bigtable.
La distribuzione online ottimizzata ti consente di pubblicare funzionalità online con latenze ultra-basse. Sebbene le latenze della pubblicazione online dipendano dal carico di lavoro, la pubblicazione online ottimizzata può fornire latenze inferiori rispetto alla pubblicazione online di Bigtable ed è consigliata per la maggior parte degli scenari. La pubblicazione online ottimizzata supporta anche la gestione degli embedding.
Per utilizzare la pubblicazione online ottimizzata, devi configurare un endpoint pubblico o un endpoint Private Service Connect dedicato.
Per scoprire come configurare l'erogazione online in Vertex AI Feature Store dopo aver configurato le funzionalità, consulta Tipi di pubblicazione online.
Pubblicazione offline per previsioni batch o addestramento di modelli
Poiché non è necessario copiare o importare i dati delle funzionalità da BigQuery in un archivio offline separato in Vertex AI, puoi utilizzare le funzionalità di gestione e di esportazione dei dati di BigQuery per:
Esegui query sui dati delle funzionalità, inclusi i dati storici in un determinato momento.
Pre-elabora ed esporta i dati delle funzionalità per l'addestramento dei modelli e le previsioni batch.
Per ulteriori informazioni sul machine learning con BigQuery, consulta Introduzione a BigQuery ML.
Termini di Vertex AI Feature Store
Termini correlati alla feature engineering
feature engineering
- La creazione di funzionalità è il processo di trasformazione dei dati non elaborati di machine learning (ML) in funzionalità che possono essere utilizzate per addestrare i modelli di ML o per fare previsioni.
funzionalità
- Nel machine learning (ML), una funzionalità è una caratteristica o un attributo di un'istanza o entità che viene utilizzata come input per addestrare un modello di ML o fare previsioni.
valore della funzionalità
- Un valore della funzionalità corrisponde al valore effettivo e misurabile di una funzionalità (attributo) di un'istanza o entità. Una raccolta di valori delle caratteristiche per l'entità univoca rappresenta il record della caratteristica corrispondente all'entità.
feature timestamp
- Un timestamp della caratteristica indica quando è stato generato l'insieme di valori della caratteristica in un record della caratteristica specifico per un'entità.
record della funzionalità
- Un record delle funzionalità è un'aggregazione di tutti i valori delle funzionalità che descrivono gli attributi di un'entità univoca in un determinato momento.
Termini relativi al Registro di caratteristiche
Registro di funzionalità
- Un registry delle funzionalità è un'interfaccia centrale per registrare le origini dati delle funzionalità che vuoi pubblicare per le previsioni online. Per ulteriori informazioni, consulta la configurazione di Feature Registry.
gruppo di funzionalità
- Un gruppo di caratteristiche è una risorsa del registro di caratteristiche che corrisponde a una tabella o vista di origine BigQuery contenente dati delle caratteristiche. Una visualizzazione delle caratteristiche può contenere caratteristiche e può essere considerata un raggruppamento logico delle colonne delle caratteristiche nell'origine dati.
Termini relativi alla pubblicazione di funzionalità
Pubblicazione delle funzionalità
- La distribuzione delle caratteristiche è il processo di esportazione o recupero dei valori delle caratteristiche per l'addestramento o l'inferenza. In Vertex AI esistono due tipi di pubblicazione delle funzionalità: online e offline. La pubblicazione online recupera gli ultimi valori delle funzionalità di un sottoinsieme dell'origine dati delle funzionalità per le previsioni online. L'erogazione offline o in batch esporta grandi volumi di dati sulle funzionalità per l'elaborazione offline, ad esempio l'addestramento di modelli ML.
Negozio offline
- Lo spazio di archiviazione offline è un'area di archiviazione che memorizza i dati delle funzionalità recenti e storici, in genere utilizzati per l'addestramento dei modelli di ML. Un archivio offline contiene anche i valori delle caratteristiche più recenti, che puoi pubblicare per le previsioni online.
Negozio online
- Nella gestione delle funzionalità, un archivio online è uno spazio di archiviazione per i valori delle funzionalità più recenti da pubblicare per le previsioni online.
Visualizzazione elemento
- Una visualizzazione delle caratteristiche è una raccolta logica di funzionalità materializzate da un'origine dati BigQuery a un'istanza del negozio online. Una vista elemento archivia e aggiorna periodicamente i dati delle funzionalità del cliente, che vengono aggiornati periodicamente dall'origine BigQuery. Una visualizzazione delle caratteristiche è associata allo spazio di archiviazione dei dati delle caratteristiche direttamente o tramite associazioni alle risorse del registry delle caratteristiche.
Vincoli relativi alla località
Tutte le risorse di Vertex AI Feature Store devono trovarsi nella stessa regione o nella stessa località multiregionale dell'origine dati BigQuery. Ad esempio, se l'origine dati delle funzionalità si trova in us-central1
,
devi creare l'istanza FeatureOnlineStore
solo in us-central1
o nella località multiregione US
.
Metadati delle funzionalità
Vertex AI Feature Store è integrato con Dataplex per fornire funzionalità di governance delle funzionalità, inclusi i metadati delle funzionalità. Le istanze, le visualizzazioni e i gruppi di funzionalità dei negozi online vengono registrati automaticamente come asset di dati in Data Catalog, una funzionalità di Dataplex che cataloga i metadati di queste risorse. Puoi quindi utilizzare la funzionalità di ricerca dei metadati di Dataplex per cercare, visualizzare e gestire i metadati di queste risorse. Per saperne di più sulla ricerca delle risorse Vertex AI Feature Store in Dataplex, consulta Cercare i metadati delle risorse in Data Catalog.
Etichette delle funzionalità
Puoi aggiungere etichette alle risorse durante o dopo la loro creazione. Per saperne di più sull'aggiunta di etichette alle risorse esistenti di Vertex AI Feature Store, consulta Aggiornare le etichette.
Metadati della versione della risorsa
Vertex AI Feature Store supporta solo la versione 0
per le funzionalità.
Gestione dell'embedding e recupero dei vettori
La pubblicazione online ottimizzata in Vertex AI Feature Store supporta la gestione dell'embedding. Puoi archiviare gli embedding in BigQuery come
double
array regolari. Utilizzando le funzionalità di gestione degli embedding di Vertex AI Feature Store, puoi eseguire ricerche sulla similarità vettoriale per recuperare le entità che sono vicini più prossimi approssimativi per un valore di entità o embedding specificato.
Per utilizzare la gestione degli embedding in Vertex AI Feature Store, devi procedere nel seguente modo:
Configura l'origine dati BigQuery in modo da supportare gli embedding includendo la colonna
embedding
. Se vuoi, puoi includere colonne di filtro e di aggregazione. Per saperne di più, consulta Linee guida per la preparazione delle origini dati.Crea un'istanza del negozio online per la pubblicazione online ottimizzata.
Specifica la colonna
embedding
durante la creazione della visualizzazione delle funzionalità. Per ulteriori informazioni su come creare una vista elemento che supporti gli embedding, consulta Configurare il recupero di vettori per una vista elemento.
Per informazioni su come eseguire una ricerca di somiglianza vettoriale in Vertex AI Feature Store, consulta Eseguire una ricerca vettoriale per entità.
Conservazione dei dati
Vertex AI Feature Store conserva gli ultimi valori delle funzionalità per un ID unico, in base al timestamp associato ai valori delle funzionalità nell'origine dati. Non esiste un limite di conservazione dei dati nel negozio online.
Poiché il provisioning del datastore offline viene eseguito da BigQuery, alle quote o ai limiti di conservazione dei dati di BigQuery potrebbero essere applicati all'origine dati delle funzionalità, inclusi i valori storici delle funzionalità. Scopri di più su quote e limiti in BigQuery.
Quote e limiti
Vertex AI Feature Store applica quote e limiti per aiutarti a gestire le risorse impostando limiti di utilizzo e per proteggere la community degli utenti di Google Cloud da picchi di utilizzo imprevisti. Per utilizzare in modo efficiente le risorse di Vertex AI Feature Store senza superare questi vincoli, consulta le quote e i limiti di Vertex AI Feature Store.
Prezzi
Per informazioni sui prezzi per l'utilizzo delle risorse di Vertex AI Feature Store, consulta la pagina Prezzi di Vertex AI Feature Store.
Tutorial di Notebook
Utilizza i seguenti esempi e tutorial per scoprire di più su Vertex AI Feature Store.
Pubblicazione di funzionalità online e recupero dei dati BigQuery con la pubblicazione online di Bigtable di Vertex AI Feature Store
In questo tutorial scoprirai come utilizzare la pubblicazione online di Bigtable in Vertex AI Feature Store per la pubblicazione e il recupero online dei valori delle funzionalità in BigQuery. Apri in Colab | Apri in Colab Enterprise | Visualizza su GitHub | Apri nei blocchi note gestiti dall'utente di Vertex AI Workbench |
Pubblicazione di funzionalità online e recupero dei dati di BigQuery con la pubblicazione online ottimizzata di Vertex AI Feature Store
In questo tutorial scoprirai come utilizzare la pubblicazione online ottimizzata in Vertex AI Feature Store per la pubblicazione e il recupero dei valori delle funzionalità da BigQuery. Apri in Colab | Apri in Colab Enterprise | Visualizza su GitHub | Apri nei blocchi note gestiti dall'utente di Vertex AI Workbench |
Pubblicazione di funzionalità online e recupero di vettori dei dati BigQuery con Vertex AI Feature Store
In questo tutorial imparerai a utilizzare Vertex AI Feature Store per l'utilizzo online e il recupero vettoriale dei valori delle funzionalità in BigQuery. Apri in Colab | Apri in Colab Enterprise | Visualizza su GitHub | Apri nei blocchi note gestiti dall'utente di Vertex AI Workbench |
Agenti di servizio della visualizzazione delle funzionalità di Vertex AI Feature Store
In questo tutorial imparerai ad attivare gli agenti di servizio delle visualizzazioni delle funzionalità e a concedere a ogni visualizzazione delle funzionalità l'accesso ai dati specifici dell'origine utilizzati. Apri in Colab | Apri in Colab Enterprise | Visualizza su GitHub | Apri nei blocchi note gestiti dall'utente di Vertex AI Workbench |
Tutorial sull'applicazione di grounding a LLM basato su Vertex AI Feature Store
In questo tutorial imparerai a suddividere i dati forniti dall'utente e poi a generare vettori di embedding per ogni chunk utilizzando un modello linguistico di grandi dimensioni (LLM) con funzionalità di generazione di embedding. Il set di dati vettoriale di embedding risultante può quindi essere caricato in Vertex AI Feature Store, consentendo un recupero rapido delle funzionalità e un servizio online efficiente. Apri in Colab | Apri in Colab Enterprise | Visualizza su GitHub | Apri nei blocchi note gestiti dall'utente di Vertex AI Workbench |
Creare un'applicazione RAG di IA generativa con Vertex AI Feature Store e BigQuery
In questo tutorial scoprirai come creare un sistema di ricerca vettoriale a bassa latenza per la tua applicazione di IA generativa utilizzando la ricerca vettoriale di BigQuery e Vertex AI Feature Store. Apri in Colab | Apri in Colab Enterprise | Visualizza su GitHub | Apri nei blocchi note gestiti dall'utente di Vertex AI Workbench |
Configura il criterio IAM in Vertex AI Feature Store
In questo tutorial imparerai a configurare un criterio IAM per controllare l'accesso alle risorse e ai dati archiviati in Vertex AI Feature Store. Apri in Colab | Apri in Colab Enterprise | Visualizza su GitHub | Apri nei blocchi note gestiti dall'utente di Vertex AI Workbench |
Passaggi successivi
Scopri come configurare i dati in BigQuery.
Scopri come creare gruppi di funzionalità e funzionalità.
Scopri come creare un'istanza del negozio online.