Prima di poter iniziare a pubblicare le funzionalità online utilizzando Vertex AI Feature Store, devi configurare l'origine dati delle funzionalità in BigQuery, come segue:
Crea una tabella o una vista BigQuery utilizzando i dati delle funzionalità. Per caricare i dati delle funzionalità in una tabella o vista BigQuery, puoi creare un set di dati BigQuery utilizzando i dati, creare una tabella BigQuery e poi caricare i dati delle funzionalità dal set di dati nella tabella.
Dopo aver caricato i dati delle funzionalità nella tabella o nella vista BigQuery, devi rendere disponibile questa origine dati per Vertex AI Feature Store per la pubblicazione online. Esistono due modi per collegare l'origine dati alle risorse di pubblicazione online, ad esempio i negozi online e le istanze di visualizzazione delle caratteristiche:
Registra l'origine dati creando gruppi di funzionalità e funzionalità: puoi associare gruppi di funzionalità e funzionalità a istanze di visualizzazione delle funzionalità nel tuo negozio online. Puoi formattare i dati in uno dei seguenti modi:
Formatta i dati come serie temporali includendo una colonna di timestamp delle funzionalità. Vertex AI Feature Store pubblica solo i valori di funzionalità più recenti per ogni ID entità univoco, in base al timestamp della funzionalità in questa colonna.
Formatta i dati senza includere colonne di timestamp delle funzionalità. Vertex AI Feature Store gestisce i timestamp e pubblica solo i valori delle funzionalità più recenti per ogni ID entità univoco.
Per informazioni su come creare gruppi di funzionalità, consulta Creare un gruppo di funzionalità. Per informazioni su come creare elementi all'interno di un gruppo di elementi, consulta Creare un elemento.
Pubblica direttamente le funzionalità dall'origine dati senza creare gruppi di funzionalità e funzionalità: puoi specificare l'URI dell'origine dati nella vista delle funzionalità. Tieni presente che in questo scenario non puoi formattare i dati come serie temporali o includere dati storici nell'origine BigQuery. Ogni riga deve contenere gli ultimi valori delle funzionalità corrispondenti a un ID univoco. Non sono supportate più occorrenze dello stesso ID entità in righe diverse.
Poiché Vertex AI Feature Store ti consente di gestire i dati delle funzionalità in BigQuery e di pubblicare funzionalità dall'origine data BigQuery, non è necessario importare o copiare le funzionalità in un magazzino offline.
Linee guida per la preparazione delle origini dati
Segui queste linee guida per comprendere lo schema e i vincoli durante la preparazione dell'origine dati in BigQuery:
Includi le seguenti colonne nell'origine dati:
Colonne ID entità: l'origine dati deve avere almeno una colonna ID entità con valori
string
oint
. Il nome predefinito per questa colonna èentity_id
. Se vuoi, puoi utilizzare un nome diverso per questa colonna. Le dimensioni di ogni valore in questa colonna devono essere inferiori a 4 KB.Tieni presente che puoi anche designare un record della funzionalità costruendo l'ID entità utilizzando elementi di più colonne. In questo scenario, puoi includere più colonne ID entità nell'origine dati. Il nome di ogni colonna ID entità deve essere univoco. Se registri l'origine dati creando gruppi di funzionalità, imposta le colonne ID entità per ogni gruppo di funzionalità. In caso contrario, se associ direttamente l'origine dati a una visualizzazione delle caratteristiche, configura le visualizzazioni delle caratteristiche in modo da specificare le colonne ID entità.
Tieni presente che puoi includere più colonne ID in un'origine dati. In questo scenario, il nome di ogni colonna ID entità deve essere univoco. Puoi configurare i gruppi di funzionalità o le viste delle funzionalità per creare l'ID entità utilizzando i valori di ogni colonna per un record della funzionalità.
Colonna timestamp della funzionalità: facoltativa. Se registri l'origine dati utilizzando gruppi di funzionalità e funzionalità e devi formattare i dati come serie temporale, includi una colonna di timestamp delle funzionalità. La colonna timestamp contiene valori di tipo
timestamp
. Il nome predefinito per la colonna del timestamp èfeature_timestamp
. Se vuoi utilizzare un nome di colonna diverso, utilizza il parametrotime_series
per impostare la colonna del timestamp per il gruppo di funzionalità.Se non specifichi una colonna di timestamp per formattare i dati come serie temporali, Vertex AI Feature Store gestisce i timestamp per le funzionalità e fornisce i valori più recenti delle funzionalità.
Se associ direttamente un'origine dati BigQuery a una vista funzionalità, la colonna
feature_timestamp
non è obbligatoria. In questo scenario, devi includere solo i valori delle caratteristiche più recenti nell'origine dati e Vertex AI Feature Store non cerca il timestamp.Incorporazione e filtri delle colonne: facoltativo. Se vuoi utilizzare la gestione dell'inserimento in un negozio online creato per la pubblicazione online ottimizzata, l'origine dati deve contenere le seguenti colonne:
Una colonna
embedding
contenente array di tipofloat
.(Facoltativo) Una o più colonne di filtro di tipo
string
o arraystring
.(Facoltativo) Una colonna di affollamento di tipo
int
.
Ogni riga dell'origine dati è un record completo dei valori delle funzionalità associati a un ID entità. Se un valore della funzionalità non è presente in una delle colonne, viene considerato un valore nullo.
Ogni colonna della tabella o della vista BigQuery rappresenta una funzionalità. Fornisci i valori di ogni elemento in una colonna separata. Se associ l'origine dati a un gruppo di funzionalità e a funzionalità, associa ogni colonna a una funzionalità separata.
I tipi di dati supportati per i valori delle funzionalità includono
bool
,int
,float
,string
,timestamp
, array di questi tipi di dati e byte. Tieni presente che durante la sincronizzazione dei dati, i valori delle funzionalità di tipotimestamp
vengono convertiti inint64
.L'origine dati deve trovarsi nella stessa regione dell'istanza del negozio online o in più regioni che include o si sovrappone alla regione del negozio online. Ad esempio, se il negozio online si trova in
us-central
, l'origine BigQuery potrebbe trovarsi inus-central
oUS
.Sincronizza i dati in una vista delle funzionalità prima della pubblicazione online per assicurarti di pubblicare solo i valori delle funzionalità più recenti. Se utilizzi la sincronizzazione dei dati pianificata, potrebbe essere necessario sincronizzare manualmente i dati nella visualizzazione delle funzionalità. Tuttavia, se utilizzi la sincronizzazione continua dei dati con la pubblicazione online ottimizzata, non devi sincronizzare manualmente i dati.
Passaggi successivi
Scopri come creare gruppi di funzionalità e funzionalità.
Scopri come creare una visualizzazione dei componenti.
Tipi di pubblicazione online in Vertex AI Feature Store.