Se devi recuperare o pubblicare dati attuali e storici utilizza la pubblicazione offline per recuperare i valori delle caratteristiche da in BigQuery. Ad esempio, puoi utilizzare la pubblicazione offline per recuperare i valori delle funzionalità per timestamp specifici per addestrare un modello.
Tutti i dati delle funzionalità, inclusi i dati storici, vengono gestiti in BigQuery, che costituisce il negozio offline per i valori delle funzionalità. Per utilizzare la pubblicazione offline, devi prima registrare il tuo account BigQuery dell'origine dati creando gruppi di caratteristiche e valori delle caratteristiche. Inoltre, nel caso della pubblicazione offline, ogni riga contenente lo stesso ID entità deve avere un timestamp diverso. Per saperne di più sull'origine dati linee guida per la preparazione, consulta Preparare l'origine dati.
Prima di iniziare
Esegui l'autenticazione su Vertex AI, se non l'hai ancora fatto.
Per utilizzare gli Python esempi in questa pagina in un ambiente di sviluppo locale, installa e inizializza l'interfaccia alla gcloud CLI, quindi configura le Credenziali predefinite dell'applicazione con le tue credenziali utente.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
If you're using a local shell, then create local authentication credentials for your user account:
gcloud auth application-default login
You don't need to do this if you're using Cloud Shell.
Per ulteriori informazioni, consulta Set up authentication for a local development environment.
Recupera i valori delle funzionalità storici
Utilizza il seguente esempio per recuperare i valori storici da una funzionalità da più ID entità e timestamp.
Python
Prima di provare questo esempio, segui le istruzioni di configurazione Python riportate nella guida rapida all'utilizzo delle librerie client di Vertex AI. Per ulteriori informazioni, consulta API Python Vertex AI documentazione di riferimento.
Per eseguire l'autenticazione su Vertex AI, configura Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
import bigframes
import bigframes.pandas
import pandas as pd
from google.cloud import bigquery
from vertexai.resources.preview.feature_store import (Feature, FeatureGroup, offline_store)
from vertexai.resources.preview.feature_store import utils as fs_utils
fg = FeatureGroup("FEATURE_GROUP_NAME")
f1 = fg.get_feature("FEATURE_NAME_1")
f2 = fg.get_feature("FEATURE_NAME_2")
entity_df = pd.DataFrame(
data={
"ENTITY_ID_COLUMN": [
"ENTITY_ID_1",
"ENTITY_ID_2",
],
"timestamp": [
pd.Timestamp("FEATURE_TIMESTAMP_1"),
pd.Timestamp("FEATURE_TIMESTAMP_2"),
],
},
)
offline_store.fetch_historical_feature_values(
entity_df=entity_df,
features=[f1,f2],
)
Sostituisci quanto segue:
FEATURE_GROUP_NAME: il nome del gruppo di funzionalità esistente contenente la funzionalità.
FEATURE_NAME_1 e FEATURE_NAME_2: i nomi degli utenti caratteristiche registrate da cui desideri recuperare i valori delle caratteristiche.
ENTITY_ID_COLUMN: il nome della colonna contenente gli ID entità. Puoi specificare il nome di una colonna solo se è registrata nel gruppo di funzionalità.
ENTITY_ID_1 e ENTITY_ID_2: gli ID entità per i quali vuoi recuperare i valori delle caratteristiche. Se vuoi recuperare i valori delle caratteristiche per lo stesso ID entità in timestamp diversi, specifica lo stesso ID entità corrispondenti a ogni timestamp.
FEATURE_TIMESTAMP_1 e FEATURE_TIMESTAMP_2: i valori dei timestamp corrispondenti ai valori storici delle funzionalità che vuoi recuperare. FEATURE_TIMESTAMP_1 corrisponde a ENTITY_ID_1, FEATURE_TIMESTAMP_2 corrisponde a ENTITY_ID_2 e così via. Specifica i timestamp nel formato data/ora, ad esempio
2024-05-01T12:00:00
.