Si vous devez récupérer ou diffuser des données de caractéristiques actuelles et historiques, utilisez la diffusion hors connexion pour extraire les valeurs de caractéristiques à partir de BigQuery. Par exemple, vous pouvez utiliser la diffusion hors connexion pour récupérer les valeurs de caractéristiques pour des horodatages spécifiques afin d'entraîner un modèle.
Toutes les données de caractéristiques, y compris les données de caractéristiques historiques, sont gérées dans BigQuery, qui est le magasin hors connexion pour vos valeurs de caractéristiques. Pour utiliser la diffusion hors connexion, vous devez d'abord enregistrer votre source de données BigQuery en créant des groupes de caractéristiques et des valeurs de caractéristiques. En outre, dans le cas de la diffusion hors connexion, chaque ligne contenant le même ID d'entité doit avoir un horodatage différent. Pour en savoir plus sur les consignes de préparation des sources de données, consultez la page Préparer une source de données.
Avant de commencer
Authentifiez-vous auprès de Vertex AI, sauf si vous l'avez déjà fait.
Pour utiliser les exemples Python de cette page dans un environnement de développement local, installez et initialisez gcloud CLI, puis configurez le service Identifiants par défaut de l'application à l'aide de vos identifiants utilisateur.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
Create local authentication credentials for your user account:
gcloud auth application-default login
Pour en savoir plus, consultez les sections sur Configurer l'authentification pour un environnement de développement local.
Récupérer des valeurs de caractéristiques historiques
Utilisez l'exemple suivant pour extraire des valeurs historiques d'une caractéristique à partir de plusieurs ID d'entité et horodatages.
Python
Avant d'essayer cet exemple, suivez les instructions de configuration pour Python décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Python.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
import bigframes
import bigframes.pandas
import pandas as pd
from google.cloud import bigquery
from vertexai.resources.preview.feature_store import (Feature, FeatureGroup, offline_store)
from vertexai.resources.preview.feature_store import utils as fs_utils
fg = FeatureGroup("FEATURE_GROUP_NAME")
f1 = fg.get_feature("FEATURE_NAME_1")
f2 = fg.get_feature("FEATURE_NAME_2")
entity_df = pd.DataFrame(
data={
"ENTITY_ID_COLUMN": [
"ENTITY_ID_1",
"ENTITY_ID_2",
],
"timestamp": [
pd.Timestamp("FEATURE_TIMESTAMP_1"),
pd.Timestamp("FEATURE_TIMESTAMP_2"),
],
},
)
offline_store.fetch_historical_feature_values(
entity_df=entity_df,
features=[f1,f2],
)
Remplacez les éléments suivants :
FEATURE_GROUP_NAME : nom du groupe de caractéristiques existant dans lequel se trouve la caractéristique.
FEATURE_NAME_1 et FEATURE_NAME_2 : noms des caractéristiques enregistrées à partir desquelles vous souhaitez récupérer les valeurs des caractéristiques.
ENTITY_ID_COLUMN : nom de la colonne contenant les ID d'entité. Vous ne pouvez spécifier un nom de colonne que si celui-ci est enregistré dans le groupe de caractéristiques.
ENTITY_ID_1 et ENTITY_ID_2 : ID d'entité pour lesquels vous souhaitez récupérer les valeurs des caractéristiques. Si vous souhaitez récupérer des valeurs de caractéristiques pour un même ID d'entité à différents horodatages, spécifiez le même ID d'entité pour chaque horodatage concerné.
FEATURE_TIMESTAMP_1 et FEATURE_TIMESTAMP_2 : horodatages correspondant aux valeurs de caractéristiques historiques que vous souhaitez récupérer. FEATURE_TIMESTAMP_1 correspond à ENTITY_ID_1, FEATURE_TIMESTAMP_2 correspond à ENTITY_ID_2, et ainsi de suite. Spécifiez les horodatages au format date/heure, par exemple
2024-05-01T12:00:00
.