Avant de pouvoir diffuser des caractéristiques en ligne à l'aide de Vertex AI Feature Store, vous devez configurer votre source de données de caractéristiques dans BigQuery comme suit:
Créez une table ou une vue BigQuery à l'aide de vos données de caractéristiques. Pour charger des données de caractéristiques dans une table ou une vue BigQuery, vous pouvez créer un ensemble de données BigQuery à l'aide de ces données, créer une table BigQuery, puis charger les données de caractéristiques à partir de l'ensemble de données dans la table.
Après avoir chargé les données de caractéristiques dans la table ou la vue BigQuery, vous devez rendre cette source de données disponible pour Vertex AI Feature Store pour la diffusion en ligne. Il existe deux manières de connecter la source de données à des ressources de diffusion en ligne, telles que les magasins en ligne et les instances de vue des caractéristiques:
Enregistrer la source de données en créant des groupes de caractéristiques et des caractéristiques:vous pouvez associer des groupes de caractéristiques et des caractéristiques à des instances de vue de caractéristiques dans votre magasin en ligne. Dans ce scénario, vous pouvez formater les données sous forme de série temporelle en incluant la colonne
feature_timestamp
. Feature Store Vertex AI ne diffuse que les dernières valeurs non nulles pour chaque ID d'entité unique, en fonction de l'horodatage de la caractéristique. Pour en savoir plus sur la création de groupes de caractéristiques, consultez la page Créer un groupe de caractéristiques. Pour en savoir plus sur la création de caractéristiques dans un groupe de caractéristiques, consultez la page Créer une caractéristique.Diffuser directement les caractéristiques de la source de données sans créer de groupes de caractéristiques et de caractéristiques:vous pouvez spécifier l'URI de la source de données dans la vue des caractéristiques. Notez que dans ce scénario, vous ne pouvez pas mettre en forme vos données en tant que séries temporelles ni inclure de données historiques dans la source BigQuery. Chaque ligne doit contenir les dernières valeurs de caractéristiques correspondant à un ID unique. L'utilisation de plusieurs occurrences du même ID d'entité dans différentes lignes n'est pas acceptée.
Comme Vertex AI Feature Store vous permet de gérer les données de caractéristiques dans BigQuery et de les diffuser à partir de la source de données BigQuery, il n'est pas nécessaire d'importer ni de copier les caractéristiques dans un magasin hors connexion.
Consignes pour la préparation de la source de données
Suivez ces instructions pour comprendre le schéma et les contraintes lors de la préparation de la source de données dans BigQuery:
La source de données doit contenir les colonnes suivantes:
Au moins une colonne d'ID d'entité avec les valeurs
string
. La taille de chaque valeur dans cette colonne doit être inférieure à 4 Ko.Si vous enregistrez la source de données à l'aide de groupes de caractéristiques et de caractéristiques, incluez la colonne
feature_timestamp
et mettez en forme les données en tant que séries temporelles. La colonnefeature_timestamp
contient des valeurs de typetimestamp
. Lors de la diffusion en ligne, Vertex AI Feature Store diffuse les dernières valeurs non nulles d'une caractéristique en fonction de cet horodatage.
Si vous associez directement une source de données BigQuery à une vue de caractéristiques, la colonne
feature_timestamp
n'est pas obligatoire. Dans ce scénario, vous devez inclure uniquement les dernières valeurs de caractéristiques dans la source de données, et Vertex AI Feature Store ne recherche pas l'horodatage.Si vous souhaitez utiliser la gestion des embeddings dans un magasin en ligne créé pour la diffusion en ligne optimisée, la source de données doit contenir les colonnes suivantes :
Une colonne
embedding
contenant des tableaux de typefloat
.Facultatif: une ou plusieurs colonnes de filtrage de type
string
ou tableaustring
.Facultatif: Colonne de regroupement de type
int
.
Chaque ligne de la source de données est un enregistrement complet des valeurs de caractéristiques associées à un ID d'entité. Si une valeur de caractéristique est manquante dans l'une des colonnes, elle est considérée comme une valeur nulle. Selon la façon dont vous définissez la vue des caractéristiques, Vertex AI Feature Store sélectionne les valeurs de caractéristiques de deux manières:
Si la vue des caractéristiques est définie en fonction des groupes de caractéristiques et des caractéristiques, Vertex AI Feature Store diffuse la dernière valeur de caractéristique non nulle à l'aide de l'horodatage de la caractéristique. Par exemple, si la valeur d'une caractéristique spécifique correspondant au dernier horodatage est nulle, Vertex AI Feature Store diffuse la valeur non nulle la plus récente à partir des valeurs historiques de la caractéristique.
Si la vue des caractéristiques est définie en spécifiant directement une source de données BigQuery, chaque ligne doit contenir une valeur unique pour une colonne d'ID d'entité. Dans ce cas, Vertex AI Feature Store diffuse toutes les valeurs de caractéristiques à partir de la source de données associée.
Chaque colonne de la table ou de la vue BigQuery représente une caractéristique. Indiquez les valeurs de chaque caractéristique dans une colonne distincte. Si vous associez la source de données à un groupe de caractéristiques et à des caractéristiques, associez chaque colonne à une caractéristique distincte.
Les types de données compatibles pour les valeurs de caractéristiques incluent
bool
,int
,float
,string
,timestamp
, des tableaux de ces types de données et des octets. Notez que lors de la synchronisation des données, les valeurs de caractéristiques de typetimestamp
sont converties enint64
.La source de données doit être située dans la même région que l'instance de magasin en ligne, ou dans un emplacement multirégional qui inclut ou chevauche la région du magasin en ligne. Par exemple, si le magasin en ligne se trouve dans
us-central
, la source BigQuery peut se trouver dansus-central
ouUS
.Synchronisez les données dans une vue de caractéristiques avant la diffusion en ligne pour vous assurer que vous ne diffusez que les dernières valeurs des caractéristiques.
Étapes suivantes
Découvrez comment créer des groupes de caractéristiques et des caractéristiques.
Découvrez comment créer une vue de caractéristiques.
Obtenez des informations sur les types de diffusion en ligne dans Vertex AI Feature Store.