Informazioni su Vertex AI Feature Store

Vertex AI Feature Store è un servizio gestito e cloud-native di Feature Store parte integrante di Vertex AI. Semplifica la gestione delle caratteristiche di ML e i processi di distribuzione online, consentendoti di gestire i dati delle caratteristiche in un Tabella o vista BigQuery. Puoi quindi gestire le caratteristiche online direttamente Origine dati BigQuery.

Vertex AI Feature Store esegue il provisioning di risorse che consentono di configurare la distribuzione online specificando le origini dati delle caratteristiche. Funge quindi da metadati l'interfaccia con le origini dati BigQuery gli ultimi valori delle funzionalità direttamente da BigQuery per le previsioni con latenze basse.

In Vertex AI Feature Store, le tabelle BigQuery le visualizzazioni contenenti i dati delle funzionalità formano collettivamente l'archivio offline. Puoi Mantenere i valori delle caratteristiche, inclusi i dati storici delle caratteristiche, nell'archivio offline. Poiché tutti i dati delle caratteristiche sono gestiti in BigQuery, Vertex AI Feature Store non deve eseguire il provisioning di di archiviazione offline all'interno di Vertex AI. Inoltre, se vuoi utilizzare nel datastore offline per addestrare i modelli ML, puoi utilizzare le API in BigQuery per esportare o recuperare i dati.

Il flusso di lavoro per configurare e avviare la pubblicazione online utilizzando Vertex AI Feature Store può essere riassunta come segue:

  1. Prepara l'origine dati in BigQuery.

  2. (Facoltativo) Registra le origini dati creando gruppi di caratteristiche e caratteristiche.

  3. Configura le risorse del negozio online e della visualizzazione caratteristiche per collegare le origini dati delle caratteristiche con i cluster di pubblicazione online.

  4. Eroga i valori delle caratteristiche più aggiornati da una vista dedicata.

Modello dei dati e risorse di Vertex AI Feature Store

Questa sezione illustra le risorse e i modelli di dati associati i seguenti aspetti di Vertex AI Feature Store:

Preparazione dell'origine dati in BigQuery

Durante la distribuzione online, Vertex AI Feature Store utilizza i dati delle caratteristiche dalle origini dati BigQuery. Prima di configurare il Registro di caratteristiche o di distribuzione online, devi archiviare i dati delle caratteristiche in una o più Tabelle o viste BigQuery.

All'interno di una tabella o vista BigQuery, ogni colonna rappresenta una caratteristica. Ogni riga contiene i valori delle caratteristiche corrispondenti a un ID univoco. Per ulteriori informazioni informazioni su come preparare i dati delle caratteristiche in BigQuery, consulta Preparare l'origine dati.

Ad esempio, nella figura 1, la tabella BigQuery include le seguenti colonne:

  • f1 e f2: colonne delle funzionalità.

  • entity_id: una colonna ID contenente gli ID univoci per identificare ogni record di caratteristiche.

  • feature_timestamp: una colonna timestamp.

Una visualizzazione delle caratteristiche contenente le caratteristiche f1 e f2 in formato serie temporale.
Figura 1. Esempio di un'origine dati BigQuery.

Poiché prepari l'origine dati in BigQuery e non in Vertex AI, non devi creare risorse Vertex AI in questa fase.

Configurazione del Registro di caratteristiche

Dopo aver preparato le origini dati in BigQuery, puoi registrare queste origini dati, incluse colonne di caratteristiche specifiche, in il Registro di caratteristiche.

La registrazione delle tue caratteristiche è facoltativa. Puoi gestire le caratteristiche online anche non devi aggiungere le origini dati BigQuery al Registro di caratteristiche. Tuttavia, La registrazione delle tue caratteristiche è vantaggiosa nei seguenti scenari:

  • I tuoi dati potrebbero contenere più istanze dello stesso ID entità e hai bisogno per preparare i dati in formato di serie temporali con una colonna timestamp. Quando registrare le tue caratteristiche, Vertex AI Feature Store cerca timestamp e pubblica solo i valori delle caratteristiche più recenti.

  • Vuoi registrare colonne di caratteristiche specifiche da un'origine dati.

  • Vuoi aggregare colonne specifiche da più origini dati per definire un'istanza di visualizzazione caratteristiche.

Risorse del Registro di caratteristiche

Per registrare i dati delle caratteristiche nel Registro di caratteristiche, devi creare il metodo seguenti risorse di Vertex AI Feature Store:

  • Gruppo di funzionalità (FeatureGroup): Un FeatureGroup sia associata a una tabella di origine BigQuery specifica oppure vista. Rappresenta un raggruppamento logico di colonne di caratteristiche, rappresentate da risorse Feature. Per informazioni su come creare un gruppo di caratteristiche, consulta Creare un gruppo di caratteristiche.

  • Funzionalità (Feature): Un Feature risorsa rappresenta una colonna specifica contenente i valori delle caratteristiche della caratteristica origine dati associata alla risorsa FeatureGroup principale. Per informazioni su come creare caratteristiche all'interno di un gruppo di caratteristiche, consulta Creare una caratteristica.

Ad esempio, la figura 2 illustra un gruppo di caratteristiche che include colonne di caratteristiche f1 e f2, provenienti da una tabella BigQuery associata all'oggetto gruppo di caratteristiche. L'origine dati BigQuery contiene quattro caratteristiche colonne: vengono aggregate due colonne per formare il gruppo di caratteristiche.

Un gruppo di caratteristiche contenente le caratteristiche f1 e f2 in formato serie temporale.
Figura 2. Esempio di FeatureGroup contenente due colonne Feature provenienti da un'origine dati BigQuery.

Configurazione della pubblicazione online

Per distribuire caratteristiche per le previsioni online, devi definire e configurare almeno un cluster di pubblicazione online e associarlo alla tua caratteristica dell'origine dati o del registro di caratteristiche. In Vertex AI Feature Store, Questo cluster di gestione online è chiamato istanza di negozio online. Un negozio online L'istanza può contenere più istanze di visualizzazione caratteristiche, in cui ogni visualizzazione caratteristiche è associato a un'origine dati delle caratteristiche.

Risorse per la pubblicazione online

Per configurare la pubblicazione online, devi creare quanto segue Risorse di Vertex AI Feature Store:

  • Negozio online (FeatureOnlineStore): Un FeatureOnlineStore rappresenta un'istanza di un cluster di gestione online e contiene configurazione della pubblicazione online, ad esempio il numero di nodi di pubblicazione online. Un l'istanza del negozio online non specifica l'origine dei dati delle caratteristiche, ma contiene FeatureView risorse che specificano le origini dati delle funzionalità in BigQuery o il Registro di caratteristiche. Per informazioni su come Per creare un'istanza di un negozio online, consulta Creare un'istanza di un negozio online.

  • Visualizzazione caratteristiche (FeatureView): Un FeatureView è una raccolta logica di caratteristiche in un archivio online in esecuzione in un'istanza Compute Engine. Quando crei una visualizzazione caratteristiche, puoi specificare la posizione del dell'origine dati delle caratteristiche in uno dei seguenti modi:

    • Associare uno o più gruppi di caratteristiche e caratteristiche dal Registro di caratteristiche. R Il gruppo di caratteristiche specifica la posizione dell'origine dati BigQuery. Una caratteristica all'interno del gruppo di caratteristiche punta a una colonna di caratteristiche specifica all'interno dell'origine dati.

    • In alternativa, associa una tabella o una vista di origine BigQuery.

    Per informazioni su come creare istanze di visualizzazione caratteristiche all'interno di un archivio online, consulta Creare una visualizzazione delle caratteristiche.

Ad esempio, la figura 3 illustra una visualizzazione delle caratteristiche che comprende colonne di caratteristiche f2 e f4, che provengono da due gruppi di caratteristiche separati associati con una tabella BigQuery.

Una visualizzazione delle caratteristiche contenente le caratteristiche f2 e f4 provenienti da due gruppi di caratteristiche.
Figura 3. Esempio di un elemento FeatureView contenente caratteristiche di due gruppi di caratteristiche separati.

Distribuzione online

Vertex AI Feature Store fornisce i seguenti tipi di distribuzione online per previsioni online in tempo reale:

  • La pubblicazione online di Bigtable è utile per gestire grandi volumi di dati (terabyte di dati). È simile alla pubblicazione online in Vertex AI Feature Store (legacy) e fornisce funzionalità migliorate per ridurre l'hotspotting. La pubblicazione online tramite Bigtable non supporta incorporamenti.

  • La pubblicazione online ottimizzata ti consente di pubblicare le caratteristiche online con latenze molto basse. Tieni presente che, sebbene le latenze di distribuzione online dipendano carico di lavoro, la pubblicazione online ottimizzata può fornire latenze inferiori rispetto Distribuzione online tramite Bigtable ed è consigliata per la maggior parte degli scenari. La pubblicazione online ottimizzata supporta anche la gestione degli incorporamenti. Tuttavia, se devi gestire grandi volumi di dati che vengono e non hanno bisogno di pubblicare incorporamenti, usa la pubblicazione online di Bigtable.

    Per utilizzare la pubblicazione online ottimizzata, devi configurare un o un endpoint Private Service Connect dedicato.

Scopri come configurare la pubblicazione online in Vertex AI Feature Store Dopo aver configurato le funzionalità, consulta Tipi di pubblicazione online.

Distribuzione offline per previsioni batch o addestramento del modello

Poiché non è necessario copiare o importare i dati delle caratteristiche da BigQuery a un datastore offline separato in Vertex AI, puoi utilizzare ed esportare di BigQuery per:

Per saperne di più sul machine learning con BigQuery, vedi Introduzione a BigQuery ML.

Termini di Vertex AI Feature Store

il feature engineering
  • Il feature engineering è il processo di trasformazione dei dati non elaborati di machine learning (ML) in caratteristiche che possono essere utilizzate per addestrare modelli ML o per fare previsioni.

funzionalità
  • Nel machine learning (ML), una caratteristica è una caratteristica o un attributo di un'istanza o entità che viene utilizzata come input per addestrare un modello ML o fare previsioni.

valore delle caratteristiche
  • Un valore di caratteristica corrisponde al valore effettivo e misurabile di una caratteristica (attributo) di un'istanza o entità. Una raccolta di valori delle caratteristiche per l'entità univoca rappresenta il record di caratteristiche corrispondente all'entità.

timestamp delle caratteristiche
  • Un timestamp della caratteristica indica quando è stato generato l'insieme di valori delle caratteristiche in un record di caratteristiche specifico per un'entità.

record di caratteristiche
  • Un record di caratteristiche è un'aggregazione di tutti i valori di caratteristiche che descrivono gli attributi di un'entità unica in un momento specifico.

Termini relativi al Registro di caratteristiche

registro di caratteristiche
  • Un registro di caratteristiche è un'interfaccia centrale per la registrazione delle origini dati delle caratteristiche da utilizzare per le previsioni online. Per ulteriori informazioni, consulta Configurazione del Registro di caratteristiche.

gruppo di caratteristiche
  • Un gruppo di caratteristiche è una risorsa del registro di caratteristiche che corrisponde a una tabella o vista di origine BigQuery contenente dati delle caratteristiche. Una visualizzazione delle caratteristiche può contenere caratteristiche e può essere considerata come un raggruppamento logico di colonne di caratteristiche nell'origine dati.

funzionalità
  • La distribuzione delle caratteristiche è il processo di esportazione o recupero dei valori delle caratteristiche per l'addestramento o l'inferenza. In Vertex AI esistono due tipi di distribuzione delle caratteristiche: pubblicazione online e pubblicazione offline. La pubblicazione online recupera gli ultimi valori delle caratteristiche di un sottoinsieme dell'origine dati delle caratteristiche per le previsioni online. La distribuzione offline o in batch esporta volumi elevati di dati delle caratteristiche per l'elaborazione offline, ad esempio l'addestramento dei modelli ML.

negozio offline
  • Il negozio offline è una struttura di archiviazione in cui sono archiviati dati recenti e storici delle caratteristiche, che in genere vengono utilizzati per l'addestramento dei modelli ML. Un archivio offline contiene anche gli ultimi valori delle caratteristiche, che puoi utilizzare per le previsioni online.

negozio online
  • Nella gestione delle caratteristiche, un negozio online è una struttura di archiviazione per i valori più recenti delle caratteristiche da fornire per le previsioni online.

visualizzazione delle caratteristiche
  • Una visualizzazione delle caratteristiche è una raccolta logica di caratteristiche materializzate da un'origine dati BigQuery a un'istanza di un negozio online. Una visualizzazione caratteristiche archivia e aggiorna periodicamente i dati delle caratteristiche del cliente, che vengono aggiornati periodicamente dall'origine BigQuery. Una visualizzazione delle caratteristiche è associata all'archiviazione dei dati delle caratteristiche direttamente o tramite associazioni alle risorse del registro delle caratteristiche.

Vincoli di località

Tutte le risorse di Vertex AI Feature Store devono trovarsi nello stesso o la stessa località multiregionale dei dati BigQuery sorgente. Ad esempio, se l'origine dati delle caratteristiche si trova in us-central1, devi creare la tua istanza FeatureOnlineStore solo in us-central1 o nella località multiregionale US.

Metadati delle caratteristiche

Vertex AI Feature Store è integrato con Dataplex per forniscono funzionalità di governance delle caratteristiche, inclusi i metadati delle caratteristiche. Online le istanze di datastore, le visualizzazioni delle caratteristiche e i gruppi di caratteristiche vengono registrati automaticamente come asset di dati in Data Catalog, una funzionalità Dataplex che cataloga i metadati da queste risorse. Puoi quindi utilizzare la ricerca dei metadati di Dataplex per cercare, visualizzare e gestire metadati per queste risorse. Per ulteriori informazioni sulla ricerca Risorse Vertex AI Feature Store in Dataplex, vedi Cerca metadati delle risorse in Data Catalog.

Etichette delle caratteristiche

Puoi aggiungere etichette alle risorse durante o dopo la loro creazione. Per ulteriori informazioni sull'aggiunta di etichette a dei alle risorse di Vertex AI Feature Store, vedi Aggiorna le etichette.

Metadati versione risorsa

Vertex AI Feature Store supporta solo la versione 0 per le caratteristiche.

Gestione dell'incorporamento e recupero vettoriale

La pubblicazione online ottimizzata in Vertex AI Feature Store supporta la gestione dell'incorporamento. Puoi archiviare gli incorporamenti in BigQuery regolari double di array. Utilizzando le funzionalità di gestione dell'incorporamento Vertex AI Feature Store, può eseguire ricerche di somiglianze vettoriali per recuperare entità che sono i vicini più prossimi approssimati per un l'entità o il valore di incorporamento.

Per utilizzare la gestione dell'incorporamento in Vertex AI Feature Store, devi fare quanto segue:

Per informazioni su come eseguire una ricerca di somiglianze vettoriali in Vertex AI Feature Store, consulta Eseguire una ricerca vettoriale delle entità.

Conservazione dei dati

Vertex AI Feature Store conserva gli ultimi valori delle caratteristiche per un ID univoco, basato sul timestamp associato ai valori delle caratteristiche nei dati sorgente. Non esiste un limite di conservazione dei dati nel negozio online.

Poiché il provisioning del datastore offline viene eseguito da BigQuery, i limiti di conservazione o le quote di BigQuery potrebbero essere applicati origine dati sulle caratteristiche, inclusi i valori storici delle caratteristiche. Scopri di più su quote e limiti in BigQuery.

Quote e limiti

Vertex AI Feature Store applica quote e limiti per aiutarti gestire le risorse impostando limiti di utilizzo e per proteggere la per gli utenti di Google Cloud evitando picchi di utilizzo imprevisti. Per utilizza le risorse di Vertex AI Feature Store senza raggiungere questi i vincoli, esamina il Quote e limiti di Vertex AI Feature Store.

Prezzi

Per informazioni sui prezzi di utilizzo delle risorse per Vertex AI Feature Store, vedi Prezzi di Vertex AI Feature Store.

Tutorial sul blocco note

Distribuzione delle caratteristiche e recupero online dei dati di BigQuery con Vertex AI Feature Store

Distribuzione delle caratteristiche e recupero online dei dati di BigQuery con Vertex AI Feature Store

In questo blocco note imparerai a utilizzare Vertex AI Feature Store per la distribuzione online e il recupero dei valori delle caratteristiche in BigQuery.

Esegui in Colab | Visualizza su GitHub

Distribuzione delle caratteristiche online e recupero vettoriale dei dati BigQuery con Vertex AI Feature Store

Distribuzione delle caratteristiche online e recupero vettoriale dei dati BigQuery con Vertex AI Feature Store

In questo blocco note imparerai a utilizzare Vertex AI Feature Store per la distribuzione online e il recupero vettoriale dei valori delle caratteristiche in BigQuery.

Esegui in Colab | Visualizza su GitHub

Distribuzione delle caratteristiche e recupero online dei dati di BigQuery con la pubblicazione ottimizzata di Vertex AI Feature Store

Distribuzione delle caratteristiche online e recupero dei dati di BigQuery con la pubblicazione ottimizzata di Vertex AI Feature Store

In questo blocco note, imparerai a utilizzare la pubblicazione online ottimizzata Vertex AI Feature Store per fornire e recuperare la caratteristica da BigQuery.

Esegui in Colab | Visualizza su GitHub

Recupero dei valori storici delle caratteristiche

Recupero dei valori storici delle caratteristiche

In questo blocco note imparerai a utilizzare l'SDK Vertex AI per Python per Recuperare i valori storici dall'origine dati delle caratteristiche in BigQuery.

Esegui in Colab | Visualizza su GitHub

Recupera più entità

Recupera più entità utilizzando la pubblicazione online di Bigtable

In questo blocco note, imparerai come recuperare più entità e le relative i valori delle caratteristiche in tempo reale. Questo blocco note introduce API StreamingFetchFeatureValues per una ricerca multi-entità più rapida.

Esegui in Colab | Visualizza su GitHub

Passaggi successivi