Informazioni su Vertex AI Feature Store

Vertex AI Feature Store è un servizio gestito e cloud-native di Feature Store parte integrante di Vertex AI. Semplifica la gestione delle funzionalità di ML e le procedure di pubblicazione online consentendoti di gestire i dati delle funzionalità in una tabella o vista BigQuery. Puoi quindi gestire le caratteristiche online direttamente Origine dati BigQuery.

Vertex AI Feature Store esegue il provisioning delle risorse che ti consentono di configurare l'erogazione online specificando le origini dati delle caratteristiche. Agisce quindi come livello di metadati che interagisce con le origini dati BigQuery e fornisce i valori delle funzionalità più recenti direttamente da BigQuery per le previsioni online con latenze ridotte.

In Vertex AI Feature Store, le tabelle BigQuery le visualizzazioni contenenti i dati delle funzionalità formano collettivamente l'archivio offline. Puoi mantenere i valori delle funzionalità, inclusi i dati storici delle funzionalità, nell'archivio offline. Poiché tutti i dati delle caratteristiche sono gestiti in BigQuery, Vertex AI Feature Store non deve eseguire il provisioning di di archiviazione offline all'interno di Vertex AI. Inoltre, se vuoi utilizzare nel datastore offline per addestrare i modelli ML, puoi utilizzare le API in BigQuery per esportare o recuperare i dati.

Il flusso di lavoro per configurare e avviare la pubblicazione online utilizzando Vertex AI Feature Store può essere riassunta come segue:

  1. Prepara l'origine dati in BigQuery.

  2. (Facoltativo) Registra le origini dati creando gruppi di caratteristiche e caratteristiche.

  3. Configura l'archiviazione online e le risorse delle viste delle caratteristiche per connettere le origini dati delle caratteristiche con i cluster dell'erogazione online.

  4. Eroga i valori delle caratteristiche più aggiornati da una vista dedicata.

Modello di dati e risorse di Vertex AI Feature Store

Questa sezione illustra le risorse e i modelli di dati associati i seguenti aspetti di Vertex AI Feature Store:

Preparazione dell'origine dati in BigQuery

Durante la distribuzione online, Vertex AI Feature Store utilizza i dati delle caratteristiche dalle origini dati BigQuery. Prima di configurare il Registro di caratteristiche o le risorse di pubblicazione online, devi archiviare i dati delle caratteristiche in una o più tabelle o viste BigQuery.

All'interno di una tabella o una visualizzazione BigQuery, ogni colonna rappresenta una funzionalità. Ogni riga contiene i valori delle funzionalità corrispondenti a un ID univoco. Per ulteriori informazioni su come preparare i dati delle funzionalità in BigQuery, consulta Prepara l'origine dati.

Ad esempio, nella figura 1, la tabella BigQuery include le seguenti colonne:

  • f1 e f2: colonne delle funzionalità.

  • entity_id: una colonna ID contenente gli ID univoci per identificare ogni record di caratteristiche.

  • feature_timestamp: una colonna del timestamp.

Una vista elemento contenente le funzionalità f1 e f2 in un formato di serie temporali.
Figura 1. Esempio di un'origine dati BigQuery.

Poiché prepari l'origine dati in BigQuery e non in Vertex AI, in questa fase non devi creare risorse Vertex AI.

Configurazione del Registro di caratteristiche

Dopo aver preparato le origini dati in BigQuery, puoi registrare queste origini dati, incluse colonne di caratteristiche specifiche, in il Registro di caratteristiche.

La registrazione delle funzionalità è facoltativa. Puoi pubblicare elementi online anche se non aggiungi le origini dati BigQuery al Registry di funzionalità. Tuttavia, registrarle è vantaggioso nei seguenti scenari:

  • I tuoi dati contengono più istanze dello stesso ID entità e devi prepararli in un formato di serie temporali con una colonna di timestamp. Quando registri le funzionalità, Vertex AI Feature Store cerca il timestamp e pubblica solo i valori più recenti.

  • Vuoi registrare colonne di caratteristiche specifiche da un'origine dati.

  • Vuoi aggregare colonne specifiche da più origini dati per definire un'istanza della visualizzazione delle funzionalità.

Risorse del Registro di caratteristiche

Per registrare i dati delle caratteristiche nel Registro di caratteristiche, devi creare il metodo seguenti risorse di Vertex AI Feature Store:

  • Gruppo di funzionalità (FeatureGroup): Un FeatureGroup sia associata a una tabella di origine BigQuery specifica oppure vista. Rappresenta un raggruppamento logico di colonne di caratteristiche, rappresentate da risorse Feature. Per informazioni su come creare un gruppo di caratteristiche, consulta Creare un gruppo di caratteristiche.

  • Funzionalità (Feature): Un Feature risorsa rappresenta una colonna specifica contenente i valori delle caratteristiche della caratteristica origine dati associata alla risorsa FeatureGroup principale. Per informazioni su come creare caratteristiche all'interno di un gruppo di caratteristiche, consulta Creare una caratteristica.

Ad esempio, la figura 2 mostra un gruppo di funzionalità che include le colonne di funzionalità f1 e f2, ricavate da una tabella BigQuery associata al gruppo di funzionalità. L'origine dati BigQuery contiene quattro caratteristiche colonne: vengono aggregate due colonne per formare il gruppo di caratteristiche.

Un gruppo di caratteristiche contenente le caratteristiche f1 e f2 in formato serie temporale.
Figura 2. Esempio di FeatureGroup contenente due colonne Feature provenienti da un'origine dati BigQuery.

Configurazione della pubblicazione online

Per pubblicare le funzionalità per le previsioni online, devi definire e configurare almeno un cluster di pubblicazione online e associarlo all'origine dati delle funzionalità o alle risorse del Registry delle funzionalità. In Vertex AI Feature Store, Il cluster di gestione online è chiamato istanza di negozio online. Un negozio online L'istanza può contenere più istanze di visualizzazione caratteristiche, in cui ogni visualizzazione caratteristiche è associato a un'origine dati delle caratteristiche.

Risorse per la pubblicazione online

Per configurare la pubblicazione online, devi creare quanto segue Risorse di Vertex AI Feature Store:

  • Archiviazione online (FeatureOnlineStore): una risorsa FeatureOnlineStore rappresenta un'istanza di cluster di pubblicazione online e contiene la configurazione della pubblicazione online, ad esempio il numero di nodi di pubblicazione online. Un'istanza del negozio online non specifica l'origine dei dati delle funzionalità, ma contiene risorse FeatureView che specificano le origini dati delle funzionalità in BigQuery o nel registry delle funzionalità. Per informazioni su come Per creare un'istanza di un negozio online, consulta Creare un'istanza di un negozio online.

  • Visualizzazione caratteristiche (FeatureView): Un FeatureView è una raccolta logica di caratteristiche in un archivio online in esecuzione in un'istanza Compute Engine. Quando crei una visualizzazione elemento, puoi specificare la posizione dell'origine dati elemento in uno dei seguenti modi:

    • Associa uno o più gruppi di funzionalità e funzionalità dal Registro di funzionalità. Un gruppo di funzionalità specifica la posizione dell'origine dati BigQuery. Una caratteristica all'interno del gruppo di caratteristiche punta a una colonna di caratteristiche specifica all'interno dell'origine dati.

    • In alternativa, associa una tabella o una vista di origine BigQuery.

    Per informazioni su come creare istanze di visualizzazione caratteristiche all'interno di un archivio online, consulta Creare una visualizzazione delle caratteristiche.

Ad esempio, la figura 3 illustra una visualizzazione delle caratteristiche che comprende colonne di caratteristiche f2 e f4, che provengono da due gruppi di caratteristiche separati associati con una tabella BigQuery.

Una vista elemento contenente gli elementi f2 e f4 provenienti da due gruppi di elementi.
Figura 3. Esempio di un elemento FeatureView contenente caratteristiche di due gruppi di caratteristiche separati.

Distribuzione online

Vertex AI Feature Store fornisce i seguenti tipi di distribuzione online per previsioni online in tempo reale:

  • L'erogazione online di Bigtable è utile per l'erogazione di grandi volumi di dati (terabyte di dati). È simile alla pubblicazione online in Vertex AI Feature Store (legacy) e fornisce funzionalità migliorate per ridurre l'hotspotting. La distribuzione online tramite Bigtable non supporta gli embedding. Se devi pubblicare grandi volumi di dati aggiornati di frequente e non devi pubblicare embedding, utilizza la pubblicazione online di Bigtable.

  • La distribuzione online ottimizzata ti consente di pubblicare funzionalità online con latenze ultra-basse. Sebbene le latenze della pubblicazione online dipendano dal carico di lavoro, la pubblicazione online ottimizzata può fornire latenze inferiori rispetto alla pubblicazione online di Bigtable ed è consigliata per la maggior parte degli scenari. La pubblicazione online ottimizzata supporta anche la gestione degli embedding.

    Per utilizzare la pubblicazione online ottimizzata, devi configurare un o un endpoint Private Service Connect dedicato.

Per scoprire come configurare l'erogazione online in Vertex AI Feature Store dopo aver configurato le funzionalità, consulta Tipi di pubblicazione online.

Distribuzione offline per previsioni batch o addestramento del modello

Poiché non è necessario copiare o importare i dati delle caratteristiche da BigQuery a un datastore offline separato in Vertex AI, puoi utilizzare ed esportare di BigQuery per:

Per saperne di più sul machine learning con BigQuery, vedi Introduzione a BigQuery ML.

Termini di Vertex AI Feature Store

il feature engineering
  • Il feature engineering è il processo di trasformazione dei dati non elaborati di machine learning (ML) in caratteristiche che possono essere utilizzate per addestrare modelli ML o per fare previsioni.

funzionalità
  • Nel machine learning (ML), una funzionalità è una caratteristica o un attributo di un'istanza o entità che viene utilizzata come input per addestrare un modello di ML o fare previsioni.

valore della funzionalità
  • Un valore di caratteristica corrisponde al valore effettivo e misurabile di una caratteristica (attributo) di un'istanza o entità. Una raccolta di valori delle caratteristiche per l'entità univoca rappresenta il record di caratteristiche corrispondente all'entità.

feature timestamp
  • Un timestamp della caratteristica indica quando è stato generato l'insieme di valori della caratteristica in un record della caratteristica specifico per un'entità.

record di caratteristiche
  • Un record delle funzionalità è un'aggregazione di tutti i valori delle funzionalità che descrivono gli attributi di un'entità univoca in un determinato momento.

Termini relativi al Registro di caratteristiche

registro di caratteristiche
  • Un registry di funzionalità è un'interfaccia centrale per registrare le origini dati delle funzionalità che vuoi pubblicare per le previsioni online. Per ulteriori informazioni, consulta Configurazione del Registro di caratteristiche.

gruppo di funzionalità
  • Un gruppo di caratteristiche è una risorsa del registro di caratteristiche che corrisponde a una tabella o vista di origine BigQuery contenente dati delle caratteristiche. Una vista delle caratteristiche può contenere caratteristiche e può essere considerata come un raggruppamento logico di colonne di caratteristiche nell'origine dati.

Pubblicazione delle funzionalità
  • La distribuzione delle caratteristiche è il processo di esportazione o recupero dei valori delle caratteristiche per l'addestramento o l'inferenza. In Vertex AI esistono due tipi di pubblicazione delle funzionalità: online e offline. La pubblicazione online recupera gli ultimi valori delle caratteristiche di un sottoinsieme dell'origine dati delle caratteristiche per le previsioni online. La distribuzione offline o in batch esporta volumi elevati di dati delle caratteristiche per l'elaborazione offline, ad esempio l'addestramento dei modelli ML.

negozio offline
  • Lo spazio di archiviazione offline è un'area di archiviazione che memorizza i dati delle funzionalità recenti e storici, in genere utilizzati per l'addestramento dei modelli di ML. Un archivio offline contiene anche gli ultimi valori delle caratteristiche, che puoi utilizzare per le previsioni online.

negozio online
  • Nella gestione delle caratteristiche, un negozio online è una struttura di archiviazione per i valori più recenti delle caratteristiche da fornire per le previsioni online.

visualizzazione delle caratteristiche
  • Una visualizzazione delle caratteristiche è una raccolta logica di caratteristiche materializzate da un'origine dati BigQuery a un'istanza di un negozio online. Una visualizzazione caratteristiche archivia e aggiorna periodicamente i dati delle caratteristiche del cliente, che vengono aggiornati periodicamente dall'origine BigQuery. Una vista delle caratteristiche è associata allo spazio di archiviazione dei dati delle caratteristiche direttamente o tramite associazioni alle risorse del registry delle caratteristiche.

Vincoli di località

Tutte le risorse di Vertex AI Feature Store devono trovarsi nello stesso o la stessa località multiregionale dei dati BigQuery sorgente. Ad esempio, se l'origine dati delle caratteristiche si trova in us-central1, devi creare la tua istanza FeatureOnlineStore solo in us-central1 o nella località multiregionale US.

Metadati delle funzionalità

Vertex AI Feature Store è integrato con Dataplex per fornire funzionalità di governance delle funzionalità, inclusi i metadati delle funzionalità. Online le istanze di datastore, le visualizzazioni delle caratteristiche e i gruppi di caratteristiche vengono registrati automaticamente come asset di dati in Data Catalog, una funzionalità Dataplex che cataloga i metadati da queste risorse. Puoi quindi utilizzare la ricerca dei metadati di Dataplex per cercare, visualizzare e gestire metadati per queste risorse. Per saperne di più sulla ricerca delle risorse del Feature Store di Vertex AI in Dataplex, consulta Cercare i metadati delle risorse in Data Catalog.

Etichette delle funzionalità

Puoi aggiungere etichette alle risorse durante o dopo la loro creazione. Per ulteriori informazioni sull'aggiunta di etichette a dei alle risorse di Vertex AI Feature Store, vedi Aggiorna le etichette.

Metadati versione risorsa

Vertex AI Feature Store supporta solo la versione 0 per le caratteristiche.

Gestione dell'incorporamento e recupero vettoriale

La pubblicazione online ottimizzata in Vertex AI Feature Store supporta la gestione dell'embedding. Puoi archiviare gli incorporamenti in BigQuery regolari double di array. Utilizzando le funzionalità di gestione dell'incorporamento Vertex AI Feature Store, può eseguire ricerche di somiglianze vettoriali per recuperare entità che sono i vicini più prossimi approssimati per un l'entità o il valore di incorporamento.

Per utilizzare la gestione degli embedding in Vertex AI Feature Store, devi procedere nel seguente modo:

Per informazioni su come eseguire una ricerca di somiglianze vettoriali in Vertex AI Feature Store, consulta Eseguire una ricerca vettoriale delle entità.

Conservazione dei dati

Vertex AI Feature Store conserva gli ultimi valori delle funzionalità per un ID unico, in base al timestamp associato ai valori delle funzionalità nell'origine dati. Non esiste un limite di conservazione dei dati nel negozio online.

Poiché il provisioning del datastore offline viene eseguito da BigQuery, alle quote o ai limiti di conservazione dei dati di BigQuery potrebbero essere applicati all'origine dati delle funzionalità, inclusi i valori storici delle funzionalità. Scopri di più su quote e limiti in BigQuery.

Quote e limiti

Vertex AI Feature Store applica quote e limiti per aiutarti a gestire le risorse impostando limiti di utilizzo e per proteggere la community degli utenti di Google Cloud da picchi di utilizzo imprevisti. Per utilizzare in modo efficiente le risorse di Vertex AI Feature Store senza raggiungere questi vincoli, consulta le quote e i limiti di Vertex AI Feature Store.

Prezzi

Per informazioni sui prezzi di utilizzo delle risorse per Vertex AI Feature Store, vedi Prezzi di Vertex AI Feature Store.

Tutorial sul blocco note

Utilizza i seguenti esempi e tutorial per scoprire di più su Vertex AI Feature Store.

Distribuzione online delle caratteristiche e recupero dei dati BigQuery con la distribuzione online tramite Bigtable di Vertex AI Feature Store

In questo tutorial imparerai a utilizzare la distribuzione online di Bigtable in Vertex AI Feature Store per la distribuzione online e il recupero dei valori delle caratteristiche in BigQuery.

Apri in Colab  |  Apri in Colab Enterprise  |  Visualizza su GitHub  |  Apri nei blocchi note gestiti dall'utente di Vertex AI Workbench

Distribuzione delle caratteristiche online e recupero dei dati di BigQuery con la distribuzione online ottimizzata di Vertex AI Feature Store

In questo tutorial scoprirai come utilizzare la pubblicazione online ottimizzata in Vertex AI Feature Store per la pubblicazione e il recupero dei valori delle funzionalità da BigQuery.

Apri in Colab | Apri in Colab Enterprise | Visualizza su GitHub | Apri in blocchi note gestiti dall'utente di Vertex AI Workbench

Pubblicazione di funzionalità online e recupero di vettori dei dati BigQuery con Vertex AI Feature Store

In questo tutorial imparerai a utilizzare Vertex AI Feature Store per la distribuzione online e il recupero vettoriale dei valori delle caratteristiche in BigQuery.

Apri in Colab  |  Apri in Colab Enterprise  |  Visualizza su GitHub  |  Apri nei blocchi note gestiti dall'utente di Vertex AI Workbench

Agenti di servizio della visualizzazione delle funzionalità di Vertex AI Feature Store

In questo tutorial imparerai ad abilitare gli agenti di servizio per la visualizzazione caratteristiche e concedere a ogni visualizzazione caratteristiche l'accesso ai dati di origine specifici utilizzati.

Apri in Colab | Apri in Colab Enterprise | Visualizza su GitHub | Apri in blocchi note gestiti dall'utente di Vertex AI Workbench

Tutorial sul grounding dei modelli LLM basati su Vertex AI Feature Store

In questo tutorial imparerai a suddividere i dati forniti dall'utente e poi a generare vettori di embedding per ogni chunk utilizzando un modello linguistico di grandi dimensioni (LLM) con funzionalità di generazione di embedding. Il set di dati vettoriali di incorporamento risultante può quindi essere caricato in Vertex AI Feature Store, consentendo il recupero rapido delle caratteristiche e una pubblicazione online efficiente.

Apri in Colab | Apri in Colab Enterprise | Visualizza su GitHub | Apri in blocchi note gestiti dall'utente di Vertex AI Workbench

Creare un'applicazione RAG di IA generativa con Vertex AI Feature Store e BigQuery

In questo tutorial imparerai a creare un sistema di ricerca vettoriale a bassa latenza per la tua applicazione di IA generativa utilizzando la ricerca vettoriale di BigQuery e Vertex AI Feature Store.

Apri in Colab | Apri in Colab Enterprise | Visualizza su GitHub | Apri in blocchi note gestiti dall'utente di Vertex AI Workbench

Configura criterio IAM in Vertex AI Feature Store

In questo tutorial imparerai a configurare un criterio IAM per controllare l'accesso alle risorse e ai dati archiviati in Vertex AI Feature Store.

Apri in Colab  |  Apri in Colab Enterprise  |  Visualizza su GitHub  |  Apri nei blocchi note gestiti dall'utente di Vertex AI Workbench

Passaggi successivi