Se devi recuperare o pubblicare dati sulle funzionalità attuali e storici, utilizza la pubblicazione offline per recuperare i valori delle funzionalità da BigQuery. Ad esempio, puoi utilizzare la pubblicazione offline per recuperare i valori delle funzionalità per timestamp specifici per addestrare un modello.
Tutti i dati delle funzionalità, inclusi i dati storici, vengono gestiti in BigQuery, che costituisce il negozio offline per i valori delle funzionalità. Per utilizzare la pubblicazione offline, devi prima registrare l'origine dati BigQuery creando gruppi di funzionalità e valori delle funzionalità. Inoltre, nel caso della pubblicazione offline, ogni riga contenente lo stesso ID entità deve avere un timestamp diverso. Per saperne di più sulle linee guida per la preparazione delle origini dati, consulta Preparare l'origine dati.
Prima di iniziare
Esegui l'autenticazione su Vertex AI, se non l'hai ancora fatto.
Per utilizzare gli Python esempi in questa pagina in un ambiente di sviluppo locale, installa e inizializza l'interfaccia alla gcloud CLI, quindi configura le Credenziali predefinite dell'applicazione con le tue credenziali utente.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
If you're using a local shell, then create local authentication credentials for your user account:
gcloud auth application-default login
You don't need to do this if you're using Cloud Shell.
Per ulteriori informazioni, consulta Set up authentication for a local development environment.
Recupera i valori delle funzionalità storici
Utilizza il seguente esempio per recuperare i valori storici da una funzionalità da più ID entità e timestamp.
Python
Prima di provare questo esempio, segui le istruzioni di configurazione Python riportate nella guida rapida all'utilizzo delle librerie client di Vertex AI. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Python di Vertex AI.
Per autenticarti a Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
import bigframes
import bigframes.pandas
import pandas as pd
from google.cloud import bigquery
from vertexai.resources.preview.feature_store import (Feature, FeatureGroup, offline_store)
from vertexai.resources.preview.feature_store import utils as fs_utils
fg = FeatureGroup("FEATURE_GROUP_NAME")
f1 = fg.get_feature("FEATURE_NAME_1")
f2 = fg.get_feature("FEATURE_NAME_2")
entity_df = pd.DataFrame(
data={
"ENTITY_ID_COLUMN": [
"ENTITY_ID_1",
"ENTITY_ID_2",
],
"timestamp": [
pd.Timestamp("FEATURE_TIMESTAMP_1"),
pd.Timestamp("FEATURE_TIMESTAMP_2"),
],
},
)
offline_store.fetch_historical_feature_values(
entity_df=entity_df,
features=[f1,f2],
)
Sostituisci quanto segue:
FEATURE_GROUP_NAME: il nome del gruppo di funzionalità esistente contenente la funzionalità.
FEATURE_NAME_1 e FEATURE_NAME_2: i nomi delle caratteristiche registrate da cui vuoi recuperare i valori.
ENTITY_ID_COLUMN: il nome della colonna contenente gli ID entità. Puoi specificare il nome di una colonna solo se è registrata nel gruppo di funzionalità.
ENTITY_ID_1 e ENTITY_ID_2: gli ID entità per i quali vuoi recuperare i valori delle caratteristiche. Se vuoi recuperare i valori delle caratteristiche per lo stesso ID entità in timestamp diversi, specifica lo stesso ID entità corrispondente a ciascun timestamp.
FEATURE_TIMESTAMP_1 e FEATURE_TIMESTAMP_2: i valori dei timestamp corrispondenti ai valori storici delle funzionalità che vuoi recuperare. FEATURE_TIMESTAMP_1 corrisponde a ENTITY_ID_1, FEATURE_TIMESTAMP_2 corrisponde a ENTITY_ID_2 e così via. Specifica i timestamp nel formato data e ora, ad esempio
2024-05-01T12:00:00
.