Informazioni su Vertex AI Feature Store

Vertex AI Feature Store è un servizio gestito e cloud-native integrale di Vertex AI. Semplifica la gestione delle caratteristiche di ML e i processi di distribuzione online consentendoti di gestire i dati delle caratteristiche in una tabella o vista BigQuery. Puoi quindi gestire le caratteristiche online direttamente dall'origine dati BigQuery.

Vertex AI Feature Store esegue il provisioning di risorse che consentono di configurare la pubblicazione online specificando le origini dati delle caratteristiche. Funge quindi da livello di metadati che si interfaccia con le origini dati BigQuery e fornisce i valori delle caratteristiche più recenti direttamente da BigQuery per le previsioni online a basse latenze.

In Vertex AI Feature Store, le tabelle o le viste BigQuery contenenti i dati delle caratteristiche formano collettivamente l'archivio offline. Puoi gestire i valori delle caratteristiche, inclusi i dati storici delle caratteristiche, nell'archivio offline. Poiché tutti i dati delle caratteristiche vengono gestiti in BigQuery, Vertex AI Feature Store non deve eseguire il provisioning di un archivio offline separato all'interno di Vertex AI. Inoltre, se vuoi utilizzare i dati nell'archivio offline per addestrare i modelli ML, puoi utilizzare le API e le funzionalità di BigQuery per esportare o recuperare i dati.

Il flusso di lavoro per configurare e avviare la distribuzione online utilizzando Vertex AI Feature Store può essere riassunto come segue:

  1. Prepara l'origine dati in BigQuery.

  2. (Facoltativo) Registra le origini dati creando gruppi di caratteristiche e caratteristiche.

  3. Configura risorse di archiviazione online e visualizzazione caratteristiche per connettere le origini dati delle caratteristiche ai cluster di pubblicazione online.

  4. Eroga i valori delle caratteristiche più aggiornati da una vista dedicata.

Modello dei dati e risorse di Vertex AI Feature Store

Questa sezione illustra le risorse e i modelli di dati associati ai seguenti aspetti di Vertex AI Feature Store:

Preparazione dell'origine dati in BigQuery

Durante la distribuzione online, Vertex AI Feature Store usa dati delle caratteristiche provenienti dalle origini dati BigQuery. Prima di configurare il registro delle caratteristiche o le risorse di distribuzione online, devi archiviare i dati delle caratteristiche in una o più tabelle o viste BigQuery.

All'interno di una tabella o vista BigQuery, ogni colonna rappresenta una caratteristica. Ogni riga contiene i valori delle caratteristiche corrispondenti a un ID univoco. Per saperne di più su come preparare i dati delle caratteristiche in BigQuery, consulta Preparare l'origine dati.

Ad esempio, nella figura 1, la tabella BigQuery include le seguenti colonne:

  • f1 e f2: colonne delle funzionalità.

  • entity_id: una colonna ID contenente gli ID univoci per identificare ogni record di caratteristiche.

  • feature_timestamp: una colonna timestamp.

Una visualizzazione delle caratteristiche contenente le caratteristiche f1 e f2 in formato serie temporale.
Figura 1. Esempio di un'origine dati BigQuery.

Poiché prepari l'origine dati in BigQuery e non in Vertex AI, in questa fase non è necessario creare risorse Vertex AI.

Configurazione del Registro di caratteristiche

Dopo aver preparato le origini dati in BigQuery, puoi registrarle nel Registro di caratteristiche, incluse le colonne di caratteristiche specifiche.

La registrazione delle tue caratteristiche è facoltativa. Puoi gestire le caratteristiche online anche se non aggiungi le origini dati BigQuery al Registro di caratteristiche. Tuttavia, la registrazione delle tue caratteristiche è vantaggiosa nei seguenti scenari:

  • I tuoi dati potrebbero contenere più istanze dello stesso ID entità ed è quindi necessario preparare i dati in un formato di serie temporali con una colonna di timestamp. Quando registri le tue caratteristiche, Vertex AI Feature Store cerca il timestamp e pubblica solo i valori delle caratteristiche più recenti.

  • Vuoi registrare colonne di caratteristiche specifiche da un'origine dati.

  • Vuoi aggregare colonne specifiche da più origini dati per definire un'istanza di visualizzazione caratteristiche.

Risorse del Registro di caratteristiche

Per registrare i dati delle caratteristiche nel registro delle caratteristiche, devi creare le seguenti risorse di Vertex AI Feature Store:

  • Gruppo di funzionalità (FeatureGroup): una risorsa FeatureGroup è associata a una tabella o vista di origine BigQuery specifica. Rappresenta un raggruppamento logico di colonne di caratteristiche, rappresentate da risorse Feature. Per informazioni su come creare un gruppo di caratteristiche, consulta Creare un gruppo di caratteristiche.

  • Caratteristica (Feature): Feature rappresenta una colonna specifica contenente i valori delle caratteristiche dell'origine dati delle caratteristiche associata alla risorsa FeatureGroup principale. Per informazioni su come creare caratteristiche all'interno di un gruppo di caratteristiche, consulta Creare una caratteristica.

Ad esempio, la figura 2 illustra un gruppo di caratteristiche che include le colonne di caratteristiche f1 e f2, proveniente da una tabella BigQuery associata al gruppo di caratteristiche. L'origine dati BigQuery contiene quattro colonne di caratteristiche: due colonne vengono aggregate per formare il gruppo di caratteristiche.

Un gruppo di caratteristiche contenente le caratteristiche f1 e f2 in formato serie temporale.
Figura 2. Esempio di FeatureGroup contenente due colonne Feature provenienti da un'origine dati BigQuery.

Configurazione della pubblicazione online

Per gestire le caratteristiche per le previsioni online, devi definire e configurare almeno un cluster di distribuzione online e associarlo alle risorse dell'origine dati delle caratteristiche o del Registro di caratteristiche. In Vertex AI Feature Store, il cluster di distribuzione online è chiamato istanza di negozio online. Un'istanza di un negozio online può contenere più istanze di visualizzazione caratteristiche, dove ciascuna visualizzazione delle caratteristiche è associata a un'origine dati delle caratteristiche.

Risorse per la pubblicazione online

Per configurare la pubblicazione online, devi creare le seguenti risorse Vertex AI Feature Store:

  • Archivio online (FeatureOnlineStore): una risorsa FeatureOnlineStore rappresenta un'istanza di un cluster di gestione online e contiene la configurazione della pubblicazione online, ad esempio il numero di nodi di gestione online. Un'istanza del negozio online non specifica l'origine dei dati delle caratteristiche, ma contiene risorse FeatureView che specificano le origini dati delle caratteristiche in BigQuery o nel Registro di caratteristiche. Per informazioni su come creare un'istanza di un negozio online, consulta Creare un'istanza di un negozio online.

  • Visualizzazione caratteristiche (FeatureView): una risorsa FeatureView è una raccolta logica di caratteristiche in un'istanza di un negozio online. Quando crei una visualizzazione delle caratteristiche, puoi specificare la località dell'origine dati delle caratteristiche in uno dei seguenti modi:

    • Associare uno o più gruppi di caratteristiche e caratteristiche dal Registro di caratteristiche. Un gruppo di caratteristiche specifica la località dell'origine dati BigQuery. Una caratteristica all'interno del gruppo di caratteristiche rimanda a una colonna di caratteristiche specifica all'interno dell'origine dati.

    • In alternativa, associa una tabella o una vista di origine BigQuery.

    Per informazioni su come creare istanze di visualizzazione caratteristiche all'interno di un archivio online, consulta Creare una visualizzazione caratteristiche.

Ad esempio, la figura 3 mostra una visualizzazione delle caratteristiche che comprende le colonne delle caratteristiche f2 e f4, che provengono da due gruppi di caratteristiche separati associati a una tabella BigQuery.

Una visualizzazione delle caratteristiche contenente le caratteristiche f2 e f4 provenienti da due gruppi di caratteristiche.
Figura 3. Esempio di un elemento FeatureView contenente caratteristiche di due gruppi di caratteristiche separati.

Distribuzione online

Vertex AI Feature Store fornisce i seguenti tipi di distribuzione online per le previsioni online in tempo reale:

  • La distribuzione online di Bigtable è utile per gestire grandi volumi di dati (terabyte di dati). È simile alla pubblicazione online in Vertex AI Feature Store (legacy) e offre una memorizzazione nella cache migliorata per mitigare l'hotspotting. La distribuzione online di Bigtable non supporta l'incorporamento.

  • La pubblicazione online ottimizzata ti consente di pubblicare funzionalità con latenze molto basse. Tieni presente che, sebbene le latenze di distribuzione online dipendano dal carico di lavoro, la distribuzione online ottimizzata può fornire latenze inferiori rispetto alla distribuzione online di Bigtable ed è consigliata per la maggior parte degli scenari. La pubblicazione online ottimizzata supporta anche la gestione degli incorporamenti. Tuttavia, se devi gestire grandi volumi di dati aggiornati di frequente e non devi pubblicare incorporamenti, utilizza la pubblicazione online di Bigtable.

    Per utilizzare la pubblicazione online ottimizzata, devi configurare un endpoint pubblico o un endpoint Private Service Connect dedicato.

Per scoprire come configurare la pubblicazione online in Vertex AI Feature Store dopo aver configurato le caratteristiche, consulta Tipi di pubblicazione online.

Distribuzione offline per previsioni batch o addestramento del modello

Poiché non è necessario copiare o importare i dati delle caratteristiche da BigQuery in un archivio offline separato in Vertex AI, puoi utilizzare le funzionalità di gestione ed esportazione dei dati di BigQuery per:

Per ulteriori informazioni sul machine learning con BigQuery, consulta l'introduzione a BigQuery ML.

Termini di Vertex AI Feature Store

il feature engineering
  • Il feature engineering è il processo di trasformazione dei dati non elaborati di machine learning (ML) in caratteristiche che possono essere utilizzate per addestrare modelli ML o per fare previsioni.

funzionalità
  • Nel machine learning (ML), una caratteristica è una caratteristica o un attributo di un'istanza o entità che viene utilizzata come input per addestrare un modello ML o fare previsioni.

valore delle caratteristiche
  • Un valore di caratteristica corrisponde al valore effettivo e misurabile di una caratteristica (attributo) di un'istanza o entità. Una raccolta di valori delle caratteristiche per l'entità univoca rappresenta il record di caratteristiche corrispondente all'entità.

timestamp delle caratteristiche
  • Un timestamp della caratteristica indica quando è stato generato l'insieme di valori delle caratteristiche in un record di caratteristiche specifico per un'entità.

record di caratteristiche
  • Un record di caratteristiche è un'aggregazione di tutti i valori delle caratteristiche che descrivono gli attributi di un'entità unica in un momento specifico.

Termini relativi al Registro di caratteristiche

registro di caratteristiche
  • Un registro di caratteristiche è un'interfaccia centrale per la registrazione delle origini dati delle caratteristiche da utilizzare per le previsioni online. Per ulteriori informazioni, consulta Configurazione del Registro di caratteristiche.

gruppo di caratteristiche
  • Un gruppo di caratteristiche è una risorsa del registro di caratteristiche che corrisponde a una tabella o vista di origine BigQuery contenente dati delle caratteristiche. Una vista delle caratteristiche può contenere caratteristiche e può essere considerata come un raggruppamento logico di colonne di caratteristiche nell'origine dati.

funzionalità
  • La distribuzione delle caratteristiche è il processo di esportazione o recupero dei valori delle caratteristiche per l'addestramento o l'inferenza. In Vertex AI esistono due tipi di distribuzione delle caratteristiche: pubblicazione online e pubblicazione offline. La pubblicazione online recupera gli ultimi valori delle caratteristiche di un sottoinsieme dell'origine dati delle caratteristiche per le previsioni online. La distribuzione offline o in batch esporta volumi elevati di dati delle caratteristiche per l'elaborazione offline, ad esempio l'addestramento dei modelli ML.

negozio offline
  • Il negozio offline è una struttura di archiviazione in cui sono archiviati dati recenti e storici delle caratteristiche, che in genere vengono utilizzati per l'addestramento dei modelli ML. Un archivio offline contiene anche gli ultimi valori delle caratteristiche, che puoi utilizzare per le previsioni online.

negozio online
  • Nella gestione delle caratteristiche, un negozio online è una struttura di archiviazione per i valori più recenti delle caratteristiche da fornire per le previsioni online.

visualizzazione delle caratteristiche
  • Una visualizzazione delle caratteristiche è una raccolta logica di caratteristiche materializzate da un'origine dati BigQuery a un'istanza di un negozio online. Una visualizzazione caratteristiche archivia e aggiorna periodicamente i dati delle caratteristiche del cliente, che vengono aggiornati periodicamente dall'origine BigQuery. Una visualizzazione delle caratteristiche è associata all'archiviazione dei dati delle caratteristiche direttamente o tramite associazioni alle risorse del registro delle caratteristiche.

Vincoli di località

Tutte le risorse di Vertex AI Feature Store devono trovarsi nella stessa regione o nella stessa località a più regioni dell'origine dati BigQuery. Ad esempio, se l'origine dati delle caratteristiche si trova in us-central1, devi creare la tua istanza FeatureOnlineStore solo in us-central1 o nella località multiregionale US.

Metadati delle caratteristiche

Vertex AI Feature Store si integra con Dataplex per fornire funzionalità di governance. Le istanze degli archivi online, le visualizzazioni delle caratteristiche e i gruppi di caratteristiche vengono registrati automaticamente come asset di dati in Data Catalog, una funzionalità Dataplex che cataloga i metadati di queste risorse. Puoi quindi utilizzare la funzionalità di ricerca dei metadati di Dataplex per cercare, visualizzare e gestire i metadati per queste risorse. Per ulteriori informazioni sulla ricerca delle risorse Vertex AI Feature Store in Dataplex, consulta Cercare metadati delle risorse in Data Catalog.

Etichette delle caratteristiche

Puoi aggiungere etichette alle risorse durante o dopo la loro creazione. Per ulteriori informazioni sull'aggiunta di etichette alle risorse Vertex AI Feature Store esistenti, consulta Aggiornare le etichette.

Metadati versione risorsa

Vertex AI Feature Store supporta solo la versione 0 per le caratteristiche.

Gestione dell'incorporamento e recupero vettoriale

La pubblicazione online ottimizzata in Vertex AI Feature Store supporta la gestione dell'incorporamento. Puoi archiviare gli incorporamenti in BigQuery come normali array double. Utilizzando le funzionalità di gestione dell'incorporamento di Vertex AI Feature Store, è possibile eseguire ricerche di somiglianze vettoriali per recuperare le entità che sono vicini più prossimi approssimati per un'entità o un valore di incorporamento specifico.

Per utilizzare la gestione dell'incorporamento in Vertex AI Feature Store, devi fare quanto segue:

Per informazioni su come eseguire una ricerca di similitudini vettoriali in Vertex AI Feature Store, consulta Eseguire una ricerca di entità vettoriali.

Conservazione dei dati

Vertex AI Feature Store conserva i valori più recenti delle caratteristiche per un ID univoco, in base al timestamp associato ai valori delle caratteristiche nell'origine dati. Non esiste un limite di conservazione dei dati nel negozio online.

Poiché il provisioning dell'archivio offline viene eseguito da BigQuery, i limiti o le quote di conservazione dei dati di BigQuery potrebbero essere applicati all'origine dati delle caratteristiche, inclusi i valori storici delle caratteristiche. Scopri di più su quote e limiti in BigQuery.

Quote e limiti

Vertex AI Feature Store applica quote e limiti per aiutarti a gestire le risorse impostando limiti di utilizzo e per proteggere la community di utenti di Google Cloud evitando picchi di utilizzo imprevisti. Per utilizzare in modo efficiente le risorse di Vertex AI Feature Store senza raggiungere questi vincoli, esamina le quote e i limiti di Vertex AI Feature Store.

Prezzi

Per informazioni sui prezzi di utilizzo delle risorse per Vertex AI Feature Store, consulta Prezzi di Vertex AI Feature Store.

Tutorial sul blocco note

Distribuzione delle caratteristiche e recupero online dei dati di BigQuery con Vertex AI Feature Store

Distribuzione delle caratteristiche e recupero online dei dati di BigQuery con Vertex AI Feature Store

In questo blocco note imparerai a utilizzare Vertex AI Feature Store per la distribuzione online e il recupero dei valori delle caratteristiche in BigQuery.

Esegui in Colab | Visualizza su GitHub

Distribuzione delle caratteristiche online e recupero vettoriale dei dati BigQuery con Vertex AI Feature Store

Distribuzione delle caratteristiche online e recupero vettoriale dei dati BigQuery con Vertex AI Feature Store

In questo blocco note imparerai a utilizzare Vertex AI Feature Store per la distribuzione online e il recupero vettoriale dei valori delle caratteristiche in BigQuery.

Esegui in Colab | Visualizza su GitHub

Distribuzione delle caratteristiche e recupero online dei dati di BigQuery con la pubblicazione ottimizzata di Vertex AI Feature Store

Distribuzione delle caratteristiche online e recupero dei dati di BigQuery con la pubblicazione ottimizzata di Vertex AI Feature Store

In questo blocco note imparerai a utilizzare la pubblicazione online ottimizzata in Vertex AI Feature Store per fornire e recuperare i valori delle caratteristiche da BigQuery.

Esegui in Colab | Visualizza su GitHub

Passaggi successivi