Informazioni su Vertex AI Feature Store

Vertex AI Feature Store è un servizio di Feature Store cloud-native gestito integrante in Vertex AI. Semplifica la gestione delle caratteristiche ML e i processi di pubblicazione online, permettendoti di gestire i dati delle caratteristiche in una tabella o vista BigQuery. Puoi quindi gestire le caratteristiche online direttamente dall'origine dati BigQuery.

Vertex AI Feature Store esegue il provisioning di risorse che ti consentono di configurare la pubblicazione online specificando le origini dati delle caratteristiche. Agisce quindi come livello dei metadati che interfaccia con le origini dati BigQuery e pubblica i valori delle funzionalità più recenti direttamente da BigQuery per le previsioni online con latenze ridotte.

In Vertex AI Feature Store, le tabelle o le viste BigQuery contenenti i dati delle caratteristiche formano collettivamente l'archivio offline. Puoi mantenere i valori delle caratteristiche, inclusi i dati storici delle caratteristiche, nell'archivio offline. Poiché tutti i dati delle caratteristiche vengono conservati in BigQuery, Vertex AI Feature Store non ha bisogno di eseguire il provisioning di un archivio offline separato in Vertex AI. Inoltre, se vuoi utilizzare i dati nell'archivio offline per addestrare i modelli ML, puoi utilizzare le API e le funzionalità di BigQuery per esportare o recuperare i dati.

Il flusso di lavoro per configurare e avviare la pubblicazione online utilizzando Vertex AI Feature Store può essere riassunto come segue:

  1. Preparare l'origine dati in BigQuery.

  2. (Facoltativo) Registra le origini dati creando gruppi di funzionalità e funzionalità.

  3. Configura risorse per l'archivio online e la visualizzazione delle caratteristiche per connettere le origini dati delle caratteristiche ai cluster di pubblicazione online.

  4. Pubblicare i valori delle funzionalità più recenti online da una visualizzazione delle caratteristiche.

Risorse e modello dei dati di Vertex AI Feature Store

Questa sezione illustra le risorse e i modelli di dati associati ai seguenti aspetti di Vertex AI Feature Store:

Preparazione dell'origine dati in BigQuery

Durante la pubblicazione online, Vertex AI Feature Store utilizza i dati delle caratteristiche provenienti dalle origini dati BigQuery. Prima di configurare le risorse di Feature Registry o di pubblicazione online, devi archiviare i dati delle caratteristiche in una o più tabelle o viste BigQuery.

All'interno di una tabella o vista BigQuery, ogni colonna rappresenta una caratteristica. Ogni riga contiene valori delle funzionalità corrispondenti a un ID univoco. Per saperne di più su come preparare i dati delle caratteristiche in BigQuery, consulta Preparare l'origine dati.

Ad esempio, nella Figura 1, la tabella BigQuery include le seguenti colonne:

  • f1 e f2: colonne delle funzionalità.

  • entity_id: una colonna ID contenente gli ID univoci per identificare ogni record di funzionalità.

  • feature_timestamp: una colonna di timestamp.

Una visualizzazione delle caratteristiche contenente le caratteristiche f1 e f2 in formato serie temporale.
Figura 1. Esempio di origine dati BigQuery.

Poiché prepari l'origine dati in BigQuery e non in Vertex AI, in questa fase non devi creare risorse Vertex AI.

Configurazione del registro delle caratteristiche

Dopo aver preparato le origini dati in BigQuery, puoi registrarle nel registro delle funzionalità, incluse colonne di funzionalità specifiche.

La registrazione delle funzionalità è facoltativa. Puoi gestire le funzionalità online anche se non aggiungi le origini dati BigQuery al registro delle caratteristiche. Tuttavia, la registrazione delle funzionalità è vantaggiosa nei seguenti scenari:

  • I dati potrebbero contenere più istanze dello stesso ID entità ed è necessario prepararli in formato serie temporale con una colonna di timestamp. Quando registri le caratteristiche, Vertex AI Feature Store cerca il timestamp e pubblica solo i valori delle funzionalità più recenti.

  • Vuoi registrare colonne di caratteristiche specifiche di un'origine dati.

  • Vuoi aggregare colonne specifiche di più origini dati per definire un'istanza di visualizzazione delle caratteristiche.

Risorse registro delle caratteristiche

Per registrare i dati delle caratteristiche nel registro delle caratteristiche, devi creare le seguenti risorse di Vertex AI Feature Store:

  • Gruppo di funzionalità (FeatureGroup): una risorsa FeatureGroup è associata a una tabella o vista di origine BigQuery specifica. Rappresenta un raggruppamento logico di colonne delle caratteristiche, rappresentate da risorse Feature. Per informazioni su come creare un gruppo di funzionalità, consulta Creare un gruppo di funzionalità.

  • Funzionalità (Feature): Feature rappresenta una colonna specifica contenente i valori delle caratteristiche dell'origine dati delle caratteristiche associata alla relativa risorsa FeatureGroup principale. Per informazioni su come creare funzionalità all'interno di un gruppo di funzionalità, consulta Creare una funzionalità.

Ad esempio, la figura 2 illustra un gruppo di caratteristiche, incluse le colonne di caratteristiche f1 e f2, provenienti da una tabella BigQuery associata al gruppo di funzionalità. L'origine dati BigQuery contiene quattro colonne di caratteristiche: due colonne sono aggregate per formare il gruppo di caratteristiche.

Un gruppo di caratteristiche che contiene le caratteristiche f1 e f2 in formato serie temporale.
Figura 2. Esempio di un elemento FeatureGroup contenente due colonne Feature provenienti da un'origine dati BigQuery.

Configurazione della pubblicazione online

Per gestire le funzionalità per le previsioni online, devi definire e configurare almeno un cluster di pubblicazione online e associarlo all'origine dati delle caratteristiche o alle risorse del registro delle caratteristiche. In Vertex AI Feature Store, il cluster di pubblicazione online è chiamato istanza del negozio online. Un'istanza di negozio online può contenere più istanze di visualizzazione delle caratteristiche, in cui ogni visualizzazione delle caratteristiche è associata a un'origine dati delle caratteristiche.

Risorse per la pubblicazione online

Per configurare la pubblicazione online, devi creare le seguenti risorse di Vertex AI Feature Store:

  • Negozio online (FeatureOnlineStore): una risorsa FeatureOnlineStore rappresenta un'istanza del cluster di pubblicazione online e contiene la configurazione della pubblicazione online, ad esempio il numero di nodi di pubblicazione online. Un'istanza di un negozio online non specifica l'origine dei dati delle caratteristiche, ma contiene risorse FeatureView che specificano le origini dati delle caratteristiche in BigQuery o nel registro delle caratteristiche. Per informazioni su come creare un'istanza di negozio online, consulta Creare un'istanza del negozio online.

  • Visualizzazione in primo piano (FeatureView): una risorsa FeatureView è una raccolta logica di funzionalità nell'istanza di un negozio online. Quando crei una visualizzazione delle caratteristiche, puoi specificare la posizione dell'origine dati delle caratteristiche in uno dei seguenti modi:

    • Associa uno o più gruppi di caratteristiche e caratteristiche dal registro delle caratteristiche. Un gruppo di caratteristiche specifica la posizione dell'origine dati BigQuery. Una caratteristica all'interno del gruppo di caratteristiche rimanda a una colonna di caratteristiche specifica all'interno di quell'origine dati.

    • In alternativa, associa una tabella o vista di origine BigQuery.

    Per informazioni su come creare istanze di visualizzazione delle caratteristiche in un negozio online, consulta Creare una visualizzazione delle caratteristiche.

Ad esempio, la figura 3 mostra una vista delle caratteristiche che comprende le colonne delle caratteristiche f2 e f4, che provengono da due gruppi di caratteristiche separati associati a una tabella BigQuery.

Una visualizzazione caratteristiche contenente le caratteristiche f2 e f4 provenienti da due gruppi di caratteristiche.
Figura 3. Esempio di un elemento FeatureView contenente funzionalità di due gruppi di funzionalità separati.

Distribuzione online

Vertex AI Feature Store fornisce i seguenti tipi di pubblicazione online per previsioni online in tempo reale:

  • La pubblicazione online di Bigtable è utile per gestire grandi volumi di dati (terabyte di dati). È simile alla pubblicazione online in Vertex AI Feature Store (legacy) e fornisce una memorizzazione nella cache migliorata per mitigare l'hotspot.

  • La pubblicazione online ottimizzata ti consente di pubblicare funzionalità online con latenze molto basse. Tieni presente che, sebbene le latenze di pubblicazione online dipendano dal carico di lavoro, la pubblicazione online ottimizzata può fornire latenze inferiori rispetto alla pubblicazione online di Bigtable ed è consigliata per la maggior parte degli scenari. Tuttavia, se hai bisogno di gestire grandi volumi di dati che vengono aggiornati di frequente, utilizza la pubblicazione online di Bigtable.

    Per utilizzare la pubblicazione online ottimizzata, devi configurare un endpoint pubblico o un endpoint Private Service Connect dedicato.

Per scoprire come configurare la pubblicazione online in Vertex AI Feature Store dopo aver configurato le funzionalità, consulta Tipi di pubblicazione online.

Pubblicazione offline per previsioni batch o addestramento del modello

Poiché non è necessario copiare o importare i dati delle caratteristiche da BigQuery in un archivio offline separato in Vertex AI, puoi utilizzare le funzionalità di gestione ed esportazione dei dati di BigQuery per:

Per ulteriori informazioni sul machine learning mediante BigQuery, consulta Introduzione a BigQuery ML.

Termini di Vertex AI Feature Store

feature engineering
  • Il feature engineering è il processo di trasformazione dei dati non elaborati di machine learning (ML) in caratteristiche da utilizzare per addestrare modelli ML o per fare previsioni.

  • Nel machine learning (ML), una caratteristica è una caratteristica o un attributo di un'istanza o entità che viene utilizzato come input per addestrare un modello ML o per fare previsioni.

valore della caratteristica
  • Il valore di una caratteristica corrisponde al valore effettivo e misurabile di una caratteristica (attributo) di un'istanza o entità. Una raccolta di valori delle caratteristiche per l'entità univoca rappresenta il record delle caratteristiche corrispondente all'entità.

timestamp della funzionalità
  • Il timestamp delle funzionalità indica quando è stato generato l'insieme di valori delle funzionalità in un record di funzionalità specifico per un'entità.

registrazione delle funzionalità
  • Un record di caratteristiche è un'aggregazione di tutti i valori delle caratteristiche che descrivono gli attributi di un'entità unica in un momento specifico.

Termini relativi al registro delle funzionalità

registro delle caratteristiche
  • Un registro di caratteristiche è un'interfaccia centrale per la registrazione delle origini dati delle caratteristiche che vuoi pubblicare per le previsioni online.

gruppo di funzionalità
  • Un gruppo di caratteristiche è una risorsa del registro di caratteristiche che corrisponde a una tabella o vista di origine BigQuery contenente dati delle caratteristiche. Una visualizzazione delle caratteristiche può contenere caratteristiche ed essere considerata come un raggruppamento logico di colonne di caratteristiche nell'origine dati.

la pubblicazione di funzionalità
  • La pubblicazione delle caratteristiche è il processo di esportazione o recupero dei valori delle caratteristiche per l'addestramento o l'inferenza. In Vertex AI esistono due tipi di pubblicazione di caratteristiche: online e offline. La pubblicazione online recupera i valori delle funzionalità più recenti di un sottoinsieme dell'origine dati delle caratteristiche per le previsioni online. La pubblicazione offline o batch esporta elevati volumi di dati delle funzionalità per l'elaborazione offline, come l'addestramento di modelli ML.

negozio offline
  • L'archivio offline è una struttura di archiviazione che archivia dati delle caratteristiche recenti e storici, che viene generalmente utilizzato per l'addestramento di modelli ML. Un negozio offline contiene anche i valori delle funzionalità più recenti, che puoi pubblicare per le previsioni online.

negozio online
  • Nella gestione delle funzionalità, un negozio online è una struttura di archiviazione per i valori delle caratteristiche più recenti da pubblicare per le previsioni online.

visualizzazione delle funzionalità
  • Una visualizzazione caratteristiche è una raccolta logica di caratteristiche materializzate da un'origine dati BigQuery a un'istanza di un negozio online. Una visualizzazione delle caratteristiche archivia e aggiorna periodicamente i dati delle funzionalità del cliente, che vengono aggiornati periodicamente dall'origine BigQuery. Una visualizzazione delle caratteristiche viene associata all'archiviazione dei dati delle caratteristiche direttamente o tramite associazioni alle risorse del registro delle caratteristiche.

Vincoli di località

Tutte le risorse di Vertex AI Feature Store devono trovarsi nella stessa regione o nella stessa località multiregionale dell'origine dati BigQuery. Ad esempio, se l'origine dati delle funzionalità si trova in us-central1, devi creare l'istanza FeatureOnlineStore solo in us-central1 o nella località US con più regioni.

Metadati delle funzionalità

Vertex AI Feature Store è integrato con Dataplex per fornire funzionalità di governance delle caratteristiche, inclusi i relativi metadati. Le istanze di negozi online, le viste delle caratteristiche e i gruppi di funzionalità vengono registrati automaticamente come asset di dati in Data Catalog, una funzionalità Dataplex che cataloga i metadati di queste risorse. Puoi quindi utilizzare la funzionalità di ricerca dei metadati di Dataplex per cercare, visualizzare e gestire i metadati per queste risorse. Per saperne di più sulla ricerca di risorse Vertex AI Feature Store in Dataplex, consulta Cercare i metadati delle risorse in Data Catalog.

Etichette caratteristiche

Puoi aggiungere etichette alle risorse durante o dopo la loro creazione. Per ulteriori informazioni sull'aggiunta di etichette alle risorse Vertex AI Feature Store esistenti, consulta Aggiornare le etichette.

Metadati delle versioni delle risorse

Vertex AI Feature Store supporta solo la versione 0 per le funzionalità.

Gestione dell'incorporamento e recupero vettoriale

Vertex AI Feature Store supporta la gestione dell'incorporamento. Puoi archiviare gli incorporamenti in BigQuery come normali array double. Utilizzando le funzionalità di gestione di incorporamento di Vertex AI Feature Store, puoi eseguire ricerche di somiglianze vettoriali per recuperare le entità che sono vicini approssimativi per un'entità o un valore di incorporamento specificato.

Per utilizzare la gestione degli incorporamenti in Vertex AI Feature Store, devi:

Per informazioni su come eseguire una ricerca di somiglianze vettoriali in Vertex AI Feature Store, consulta Eseguire una ricerca vettoriale per le entità.

Conservazione dei dati

Vertex AI Feature Store conserva i valori delle funzionalità più recenti per un ID univoco, in base al timestamp associato ai valori delle caratteristiche nell'origine dati. Non esiste un limite di conservazione dei dati nel negozio online.

Poiché BigQuery ha eseguito il provisioning dell'archivio offline, le quote o i limiti di conservazione dei dati di BigQuery potrebbero essere applicati all'origine dati delle caratteristiche, inclusi i valori storici delle funzionalità. Scopri di più su quote e limiti in BigQuery.

Quote e limiti

Vertex AI Feature Store applica quote e limiti per aiutarti a gestire le risorse impostando limiti di utilizzo e per proteggere la community di utenti di Google Cloud evitando picchi di utilizzo imprevisti. Per utilizzare in modo efficiente le risorse di Vertex AI Feature Store senza rispettare questi vincoli, consulta le quote e i limiti di Vertex AI Feature Store.

Prezzi

Per informazioni sui prezzi di utilizzo delle risorse per Vertex AI Feature Store, consulta Prezzi di Vertex AI Feature Store.

Tutorial sui blocchi note

Gestione e recupero online delle funzionalità dei dati BigQuery con Vertex AI Feature Store

Gestione e recupero online delle funzionalità dei dati BigQuery con Vertex AI Feature Store

In questo blocco note, imparerai a utilizzare Vertex AI Feature Store per la pubblicazione online e il recupero dei valori delle caratteristiche in BigQuery.

Esegui in Colab | Visualizza su GitHub

Pubblicazione di funzionalità online e recupero vettoriale dei dati BigQuery con Vertex AI Feature Store

Pubblicazione di funzionalità online e recupero vettoriale dei dati BigQuery con Vertex AI Feature Store

In questo blocco note, imparerai a utilizzare Vertex AI Feature Store per la pubblicazione online e il recupero vettoriale dei valori delle caratteristiche in BigQuery.

Esegui in Colab | Visualizza su GitHub

Pubblicazione e recupero di funzionalità online dei dati BigQuery con la pubblicazione ottimizzata di Vertex AI Feature Store

Gestione e recupero online delle funzionalità dei dati BigQuery con la pubblicazione ottimizzata di Vertex AI Feature Store

In questo blocco note, imparerai a utilizzare la pubblicazione online ottimizzata in Vertex AI Feature Store per la pubblicazione e il recupero dei valori delle caratteristiche da BigQuery.

Esegui in Colab | Visualizza su GitHub

Passaggi successivi