Vertex AI Feature Store est un service de magasin de caractéristiques cloud natif géré, qui fait partie intégrante de Vertex AI. Il simplifie la gestion de vos caractéristiques de ML et les processus de livraison en ligne en vous permettant de gérer vos données de caractéristiques dans une table ou une vue BigQuery. Vous pouvez ensuite diffuser des caractéristiques en ligne directement à partir de la source de données BigQuery.
Vertex AI Feature Store provisionne des ressources qui vous permettent de configurer la diffusion en ligne en spécifiant vos sources de données de caractéristiques. Il sert ensuite de couche de métadonnées reliant les sources de données BigQuery et diffuse les dernières valeurs de caractéristiques directement depuis BigQuery pour les prédictions en ligne à faible latence.
Dans Vertex AI Feature Store, les tables ou vues BigQuery contenant les données de caractéristiques forment collectivement le magasin hors connexion. Vous pouvez conserver les valeurs de caractéristiques, y compris les données d'historique des caractéristiques, dans le magasin hors connexion. Étant donné que toutes les données de caractéristiques sont gérées dans BigQuery, Vertex AI Feature Store n'a pas besoin de provisionner un magasin hors connexion distinct dans Vertex AI. De plus, si vous souhaitez utiliser les données du magasin hors connexion pour entraîner des modèles de ML, vous pouvez utiliser les API et les fonctionnalités de BigQuery pour exporter ou récupérer les données.
Le workflow permettant de configurer et de démarrer la diffusion en ligne à l'aide de Vertex AI Feature Store peut être résumé comme suit :
Préparer votre source de données dans BigQuery
Facultatif : Enregistrez vos sources de données en créant des groupes de caractéristiques et des caractéristiques.
Configurer les ressources du magasin en ligne et de la vue des caractéristiques pour connecter les sources de données des caractéristiques aux clusters de livraison en ligne.
Diffusez les dernières valeurs de caractéristiques en ligne à partir d'une vue des caractéristiques.
Ressources et modèle données de Vertex AI Feature Store
Cette section explique les modèles de données et les ressources associés aux aspects suivants de Vertex AI Feature Store :
Préparer la source de données dans BigQuery
Lors de la livraison en ligne, Vertex AI Feature Store utilise les données de caractéristiques provenant de sources de données BigQuery. Avant de configurer le registre de caractéristiques ou des ressources de diffusion en ligne, vous devez stocker vos données de caractéristiques dans une ou plusieurs tables ou vues BigQuery.
Dans une table ou une vue BigQuery, chaque colonne représente une caractéristique. Chaque ligne contient les valeurs de caractéristiques correspondant à un ID unique. Pour en savoir plus sur la préparation des données de caractéristiques dans BigQuery, consultez la page Préparer une source de données.
Par exemple, dans la figure 1, la table BigQuery inclut les colonnes suivantes :
f1
etf2
: colonnes de caractéristiques.entity_id
: une colonne "ID" contenant les ID uniques pour identifier chaque enregistrement de caractéristique.feature_timestamp
: une colonne d'horodatage.
Étant donné que vous préparez la source de données dans BigQuery et non dans Vertex AI, vous n'avez pas besoin de créer de ressources Vertex AI à ce stade.
Configuration du registre de caractéristiques
Une fois que vous avez préparé vos sources de données dans BigQuery, vous pouvez les enregistrer, y compris des colonnes de caractéristiques spécifiques, dans le registre de caractéristiques.
L'enregistrement de vos caractéristiques est facultatif. Vous pouvez diffuser des caractéristiques en ligne même si vous n'ajoutez pas vos sources de données BigQuery au registre de caractéristiques. Toutefois, l'enregistrement de vos caractéristiques est avantageux dans les cas suivants :
Vos données peuvent contenir plusieurs instances du même ID d'entité. Vous devez donc préparer vos données dans un format de série temporelle avec une colonne d'horodatage. Lorsque vous enregistrez vos caractéristiques, Vertex AI Feature Store recherche l'horodatage et ne diffuse que les dernières valeurs des caractéristiques.
Vous souhaitez enregistrer des colonnes de caractéristiques spécifiques à partir d'une source de données.
Vous souhaitez agréger des colonnes spécifiques de plusieurs sources de données pour définir une instance de vue de caractéristiques.
Ressources d'un registre de caractéristiques
Pour enregistrer vos données de caractéristiques dans le registre de caractéristiques, vous devez créer les ressources Vertex AI Feature Store suivantes :
Groupe de caractéristiques (
FeatureGroup
) : Une ressourceFeatureGroup
est associée à une table ou à une vue source BigQuery spécifique. Il s'agit d'un regroupement logique de colonnes de caractéristiques, représentées par des ressourcesFeature
. Pour en savoir plus sur la création d'un groupe de caractéristiques, consultez la page Créer un groupe de caractéristiques.Caractéristique (
Feature
): Une ressourceFeature
représente une colonne spécifique contenant des valeurs de caractéristiques à partir de source de données de la caractéristique associée à sa ressourceFeatureGroup
parente. Pour en savoir plus sur la création de caractéristiques dans un groupe de caractéristiques, consultez la page Créer une caractéristique.
Par exemple, la figure 2 illustre un groupe de caractéristiques incluant des colonnes de caractéristiques f1
et f2
, provenant d'une table BigQuery associée au groupe de caractéristiques. La source de données BigQuery contient quatre colonnes de caractéristiques. Deux colonnes sont agrégées pour former le groupe de caractéristiques.
Configuration de la diffusion en ligne
Pour livrer des caractéristiques pour les prédictions en ligne, vous devez définir et configurer au moins un cluster de livraison en ligne, et l'associer à votre source de données de caractéristiques ou à vos ressources de registre de caractéristiques. Dans Vertex AI Feature Store, le cluster de livraison en ligne est appelé instance magasin en ligne. Une instance de magasin en ligne peut contenir plusieurs instances de vue de caractéristiques, chaque vue de caractéristiques étant associée à une source de données de caractéristiques.
Ressources de diffusion en ligne
Pour configurer la diffusion en ligne, vous devez créer les ressources Vertex AI Feature Store suivantes :
Magasin en ligne (
FeatureOnlineStore
) : Une ressourceFeatureOnlineStore
représente une instance de cluster de diffusion en ligne et contient la configuration de diffusion en ligne, telle que le nombre de nœuds de diffusion en ligne. Une instance de magasin en ligne ne spécifie pas la source des données de caractéristique, mais contient des ressourcesFeatureView
qui spécifient les sources de données de la caractéristique dans BigQuery ou dans le registre de caractéristiques. Pour savoir comment créer une instance de magasin en ligne, consultez la page Créer une instance de magasin en ligne.Vue des caractéristiques (
FeatureView
) : Une ressourceFeatureView
est un ensemble logique de caractéristiques dans une instance de magasin en ligne. Lorsque vous créez une vue de caractéristiques, vous pouvez spécifier l'emplacement de la source de données de caractéristiques de l'une des manières suivantes :Associez un ou plusieurs groupes de caractéristiques et caractéristiques à partir du registre de caractéristiques. Un groupe de caractéristiques spécifie l'emplacement de la source de données BigQuery. Une caractéristique du groupe de caractéristiques pointe vers une colonne de caractéristiques spécifique dans cette source de données.
Vous pouvez également associer une table ou une vue source BigQuery.
Pour en savoir plus sur la création d'instances de vue de caractéristiques dans un magasin en ligne, consultez la section Créer une vue de caractéristiques.
Par exemple, la figure 3 illustre une vue de caractéristiques composée de colonnes de caractéristiques f2
et f4
, qui proviennent de deux groupes de caractéristiques distincts associés à une table BigQuery.
Livraison en ligne
Vertex AI Feature Store fournit les types de livraison en ligne suivants pour les prédictions en ligne en temps réel :
La mise en service en ligne Bigtable est utile pour diffuser des volumes de données importants (téraoctets de données). Elle est semblable à la diffusion en ligne dans Vertex AI Feature Store (ancien) et fournit une mise en cache améliorée pour limiter le hotspotting. La diffusion en ligne Bigtable n'est pas compatible avec les embeddings.
La diffusion en ligne optimisée vous permet de diffuser des caractéristiques en ligne avec des latences très faibles. Notez que bien que les latences de mise en service en ligne dépendent de la charge de travail, la mise en service en ligne optimisée peut fournir des latences inférieures à celles de la mise en service en ligne Bigtable. Elle est recommandée pour la plupart des scénarios. La diffusion en ligne optimisée est également compatible avec la gestion des embeddings. Toutefois, si vous devez diffuser de grands volumes de données fréquemment mis à jour et que vous n'avez pas besoin de diffuser des embeddings, utilisez la mise en service en ligne Bigtable.
Pour utiliser la diffusion en ligne optimisée, vous devez configurer un point de terminaison public ou un point de terminaison Private Service Connect dédié.
Pour apprendre à configurer la livraison en ligne dans Vertex AI Feature Store après avoir configuré des caractéristiques, consultez la page Types de livraison en ligne.
Diffusion hors connexion pour les prédictions par lot ou l'entraînement de modèles
Comme vous n'avez pas besoin de copier ou d'importer vos données de caractéristiques depuis BigQuery vers un magasin hors connexion distinct dans Vertex AI, vous pouvez utiliser les fonctionnalités de gestion et d'exportation des données de BigQuery pour effectuer les opérations suivantes :
Interroger les données de caractéristiques, y compris les données d'historique à un moment précis.
Prétraiter et exporter des données de caractéristiques pour l'entraînement de modèles et les prédictions par lot
Pour en savoir plus sur le machine learning avec BigQuery, consultez la page Présentation de BigQuery ML.
Conditions d'utilisation de Vertex AI Feature Store
Termes liés à l'ingénierie des caractéristiques
Ingénierie des caractéristiques
- L'ingénierie des caractéristiques est le processus de transformation de données de machine learning (ML) brutes en caractéristiques pouvant être utilisées pour entraîner des modèles de ML ou effectuer des prédictions.
fonctionnalité
- En machine learning (ML), une caractéristique est une caractéristique ou un attribut d'une instance ou d'une entité utilisée comme entrée pour entraîner un modèle de ML ou pour effectuer des prédictions.
Valeur de la caractéristique
- Une valeur de caractéristique correspond à la valeur réelle et mesurable d'une caractéristique (attribut) d'une instance ou d'une entité. Une collection de valeurs de caractéristiques pour l'entité unique représente l'enregistrement de caractéristiques correspondant à l'entité.
horodatage de la caractéristique
- Un horodatage de caractéristique indique quand l'ensemble de valeurs de caractéristiques d'un enregistrement de caractéristiques pour une entité a été généré.
enregistrement de caractéristiques
- Un enregistrement de caractéristiques est une agrégation de toutes les valeurs de caractéristiques qui décrivent les attributs d'une entité unique à un moment donné.
Termes liés au registre de caractéristiques
Registre de caractéristiques
- Un registre de caractéristiques est une interface centrale pour l'enregistrement des sources de données de caractéristique que vous souhaitez diffuser pour les prédictions en ligne. Pour en savoir plus, consultez la page Configurer le registre de caractéristiques.
groupe de caractéristiques
- Un groupe de caractéristiques est une ressource de registre de caractéristiques qui correspond à une table ou à une vue source BigQuery contenant des données de caractéristiques. Une vue de caractéristiques peut contenir des caractéristiques et peut être considérée comme un regroupement logique de colonnes de caractéristiques dans la source de données.
Termes liés à la publication de caractéristiques
publication de caractéristiques
- La livraison de caractéristiques consiste à exporter ou récupérer des valeurs de caractéristiques pour l'entraînement ou l'inférence. Dans Vertex AI, il existe deux types de publication de caractéristiques : la diffusion en ligne et la diffusion hors connexion. La diffusion en ligne récupère les dernières valeurs de caractéristiques d'un sous-ensemble de la source de données de caractéristiques pour les prédictions en ligne. La diffusion hors connexion ou par lot exporte d'importants volumes de données de caractéristiques pour le traitement hors connexion, comme l'entraînement de modèles de ML.
Magasin hors connexion
- Le magasin hors connexion est une installation de stockage qui stocke des données de caractéristiques récentes et historiques, généralement utilisées pour l'entraînement des modèles de ML. Un magasin hors connexion contient également les dernières valeurs de caractéristiques, que vous pouvez diffuser pour les prédictions en ligne.
Magasin en ligne
- Dans la gestion des caractéristiques, un magasin en ligne est une installation de stockage permettant de diffuser les dernières valeurs de caractéristiques pour les prédictions en ligne.
Vue des caractéristiques
- Une vue de caractéristiques est une collection logique de caractéristiques matérialisées depuis une source de données BigQuery vers une instance de magasin en ligne. Une vue de caractéristiques stocke et actualise régulièrement les données des caractéristiques du client, qui sont actualisées périodiquement à partir de la source BigQuery. Une vue de caractéristique est associée au stockage de données de caractéristiques, directement ou via des associations aux ressources de registre de caractéristiques.
Contraintes de localisation
Toutes les ressources de Vertex AI Feature Store doivent être situées dans la même région ou dans le même emplacement multirégional que votre source de données BigQuery. Par exemple, si la source de données de la caractéristique se trouve dans us-central1
, vous ne devez créer votre instance FeatureOnlineStore
que dans la région us-central1
ou dans l'emplacement multirégional US
.
Métadonnées de caractéristiques
Vertex AI Feature Store est intégré à Dataplex pour fournir des fonctionnalités de gouvernance des caractéristiques, y compris les métadonnées de caractéristiques. Les instances de magasin en ligne, les vues de caractéristiques et les groupes de caractéristiques sont automatiquement enregistrés en tant qu'éléments de données dans Data Catalog, une fonctionnalité Dataplex qui catalogue les métadonnées de ces ressources. Vous pouvez ensuite utiliser la fonctionnalité de recherche de métadonnées de Dataplex pour rechercher, afficher et gérer les métadonnées de ces ressources. Pour en savoir plus sur la recherche de ressources Vertex AI Feature Store dans Dataplex, consultez la section Rechercher des métadonnées de ressources dans Data Catalog.
Étiquettes de caractéristiques
Vous pouvez ajouter des étiquettes aux ressources pendant ou après leur création. Pour en savoir plus sur l'ajout de libellés aux ressources Vertex AI Feature Store existantes, consultez la section Mettre à jour des libellés.
Métadonnées de version des ressources
Vertex AI Feature Store n'est compatible qu'avec la version 0
pour les caractéristiques.
Gestion de l'embedding et récupération de vecteurs
La diffusion en ligne optimisée dans Vertex AI Feature Store est compatible avec la gestion des représentations vectorielles continues. Vous pouvez stocker des embeddings dans BigQuery sous la forme de tableaux double
standards. À l'aide des fonctionnalités de gestion des représentations vectorielles continues de Vertex AI Feature Store, vous pouvez effectuer des recherches de similarités vectorielles pour récupérer les entités voisines approximatives les plus proches d'une entité ou d'une valeur de représentation spécifiée.
Pour utiliser la gestion des représentations vectorielles continues dans Vertex AI Feature Store, vous devez effectuer les opérations suivantes :
Configurez la source de données BigQuery pour accepter les représentations vectorielles continues en incluant la colonne
embedding
. Vous pouvez également inclure des colonnes de filtrage et de regroupement. Pour en savoir plus, consultez les consignes de préparation des sources de données.Créez une instance de magasin en ligne pour la livraison en ligne optimisée.
Spécifiez la colonne
embedding
lors de la création de la vue des caractéristiques. Pour en savoir plus sur la création d'une vue de caractéristiques compatible avec les embeddings, consultez la section Configurer la récupération vectorielle pour une vue de caractéristiques.
Pour en savoir plus sur la recherche de similarité vectorielle dans Vertex AI Feature Store, consultez la page Effectuer une recherche vectorielle des entités.
Conservation des données
Vertex AI Feature Store conserve les dernières valeurs de caractéristiques pour un ID unique, en fonction de l'horodatage associé aux valeurs de caractéristiques dans la source de données. Il n'y a pas de limite à la conservation des données dans la boutique en ligne.
Étant donné que le magasin hors connexion est provisionné par BigQuery, les limites de conservation des données ou les quotas de BigQuery peuvent s'appliquer à la source de données de caractéristique, y compris les valeurs de caractéristiques historiques. En savoir plus sur les quotas et les limites dans BigQuery
Quotas et limites
Vertex AI Feature Store applique des quotas et des limites pour vous aider à gérer les ressources en définissant des limites d'utilisation et pour protéger la communauté des utilisateurs de Google Cloud en empêchant les pics d'utilisation imprévus. Pour utiliser efficacement les ressources Vertex AI Feature Store sans atteindre ces contraintes, consultez les quotas et limites de Vertex AI Feature Store.
Tarifs
Pour en savoir plus sur la tarification de l'utilisation des ressources pour Vertex AI Feature Store, consultez la page Tarifs de Vertex AI Feature Store.
Tutoriels sur les notebooks
Utilisez les exemples et tutoriels suivants pour en savoir plus sur Vertex AI Feature Store.
Livraison de caractéristiques en ligne et récupération des données BigQuery avec la diffusion en ligne Bigtable Vertex AI Feature Store
Dans ce tutoriel, vous allez apprendre à utiliser la diffusion en ligne Bigtable dans Vertex AI Feature Store pour la livraison et la récupération en ligne de valeurs de caractéristiques dans BigQuery. Ouvrir dans Colab | Ouvrir dans Colab Enterprise | Afficher sur GitHub | Ouvrir dans les notebooks gérés par l'utilisateur Vertex AI Workbench |
Livraison et récupération de caractéristiques en ligne sur des données BigQuery avec la livraison en ligne optimisée de Vertex AI Feature Store
Dans ce tutoriel, vous allez apprendre à utiliser la diffusion en ligne optimisée dans Vertex AI Feature Store afin de livrer et récupérer des valeurs de caractéristiques à partir de BigQuery. Ouvrir dans Colab | Ouvrir dans Colab Enterprise | Afficher sur GitHub | Ouvrir dans les notebooks gérés par l'utilisateur Vertex AI Workbench |
Publication des caractéristiques en ligne et récupération vectorielle des données BigQuery avec Vertex AI Feature Store
Dans ce tutoriel, vous allez apprendre à utiliser Vertex AI Feature Store pour la livraison en ligne et la récupération vectorielle de valeurs de caractéristiques dans BigQuery. Ouvrir dans Colab | Ouvrir dans Colab Enterprise | Afficher sur GitHub | Ouvrir dans les notebooks gérés par l'utilisateur Vertex AI Workbench |
Agents de service de vue des caractéristiques de Vertex AI Feature Store
Dans ce tutoriel, vous allez apprendre à activer les agents de service des vues de caractéristiques et à accorder à chaque vue de caractéristiques l'accès aux données sources spécifiques utilisées. Ouvrir dans Colab | Ouvrir dans Colab Enterprise | Afficher sur GitHub | Ouvrir dans les notebooks gérés par l'utilisateur Vertex AI Workbench |
Tutoriel sur l'ancrage LLM basé sur Vertex AI Feature Store.
Dans ce tutoriel, vous allez apprendre à fragmenter des données fournies par l'utilisateur, puis à générer des vecteurs d'embedding pour chaque fragment à l'aide d'un grand modèle de langage (LLM) doté de fonctionnalités de génération d'embeddings. L'ensemble de données vectorielles d'embedding obtenu peut ensuite être chargé dans Vertex AI Feature Store, ce qui permet une récupération rapide des caractéristiques et une livraison en ligne efficace. Ouvrir dans Colab | Ouvrir dans Colab Enterprise | Afficher sur GitHub | Ouvrir dans les notebooks gérés par l'utilisateur Vertex AI Workbench |
Créer une application RAG d'IA générative avec Vertex AI Feature Store et BigQuery
Dans ce tutoriel, vous allez apprendre à créer un système de recherche vectorielle à faible latence pour votre application d'IA générative à l'aide de la recherche vectorielle BigQuery et de Vertex AI Feature Store. Ouvrir dans Colab | Ouvrir dans Colab Enterprise | Afficher sur GitHub | Ouvrir dans les notebooks gérés par l'utilisateur Vertex AI Workbench |
Configurer une règle IAM dans Vertex AI Feature Store
Dans ce tutoriel, vous allez apprendre à configurer une règle IAM pour contrôler l'accès aux ressources et aux données stockées dans Vertex AI Feature Store. Ouvrir dans Colab | Ouvrir dans Colab Enterprise | Afficher sur GitHub | Ouvrir dans les notebooks gérés par l'utilisateur Vertex AI Workbench |
Étape suivante
Apprenez à configurer vos données dans BigQuery.
Découvrez comment créer des groupes de caractéristiques et des caractéristiques.
Apprenez à créer une instance de magasin en ligne.