Présentation de la gestion des caractéristiques dans Vertex AI

Dans le machine learning (ML), les caractéristiques sont des attributs caractéristiques d'une instance ou d'une entité que vous pouvez utiliser pour entraîner des modèles ou pour effectuer des prédictions en ligne. Les caractéristiques sont générées en transformant les données de ML brutes en attributs mesurables et partageables à l'aide de techniques d'ingénierie des caractéristiques, généralement appelées transformations de caractéristiques.

La gestion des caractéristiques fait référence au processus de création, de maintenance, de partage et de diffusion des caractéristiques de ML stockées dans un emplacement ou un dépôt centralisé. La gestion des caractéristiques facilite la réutilisation des caractéristiques pour entraîner et réentraîner des modèles, réduisant ainsi le cycle de vie des déploiements d'IA et de ML.

Un produit ou service incluant des services de gestion des caractéristiques pour stocker, découvrir, partager et diffuser des caractéristiques de ML est appelé un magasin de caractéristiques. Vertex AI intègre les services de magasin de caractéristiques suivants :

Cette page présente et compare les deux services de gestion des caractéristiques et présente leurs fonctionnalités. Elle explique également comment migrer un magasin de caractéristiques existant dans Vertex AI Feature Store (ancien) vers le nouveau Vertex AI Feature Store.

Vertex AI Feature Store

Vertex AI Feature Store propose une nouvelle approche de gestion des caractéristiques en vous permettant de gérer et de diffuser vos données de caractéristiques à partir d'une source de données BigQuery. Dans cette approche, Vertex AI Feature Store agit comme une couche de métadonnées qui fournit des fonctionnalités de diffusion en ligne à votre source de données de caractéristiques dans BigQuery et vous permet de diffuser des caractéristiques en ligne en fonction de ces données. Vous n'avez pas besoin de copier ni d'importer les données dans un magasin hors connexion distinct dans Vertex AI.

Vertex AI Feature Store est intégré à Dataplex pour suivre les métadonnées de caractéristiques. Il est également compatible avec les embeddings et vous permet d'effectuer des recherches de similarités vectorielles pour les voisins les plus proches.

Vertex AI Feature Store est optimisé pour la diffusion à très faible latence et vous permet d'effectuer les opérations suivantes :

  • Stockez et gérez vos données de caractéristiques hors connexion dans BigQuery, en tirant parti des fonctionnalités de gestion des données de BigQuery.

  • Partager et réutiliser des caractéristiques en les ajoutant au registre de caractéristiques

  • Servez des caractéristiques pour les prédictions en ligne à faible latence avec la mise en service en ligne Bigtable ou à très faible latence avec la mise en service en ligne optimisée.

  • Stocker les embeddings dans vos données de caractéristiques et effectuer des recherches de similarité vectorielle à l'aide de la diffusion en ligne optimisée.

  • Suivez les métadonnées de caractéristiques dans Dataplex.

Pour en savoir plus sur Vertex AI Feature Store, consultez la documentation sur Vertex AI Feature Store.

Vertex AI Feature Store (ancien)

Vertex AI Feature Store (ancien) fournit un dépôt centralisé pour stocker, organiser et diffuser les données de caractéristiques de ML. Il provisionne une hiérarchie de ressources qui encapsule à la fois un magasin en ligne et un magasin hors connexion au sein de Vertex AI. Le magasin en ligne diffuse les valeurs de caractéristiques les plus récentes pour les prédictions en ligne. Le magasin hors connexion stocke et gère les données de caractéristiques (y compris les données historiques) que vous pouvez diffuser par lot pour l'entraînement de modèles de ML.

Vertex AI Feature Store (ancien) est un service de gestion des caractéristiques entièrement fonctionnel qui vous permet d'effectuer les opérations suivantes :

  • Importez des données de caractéristiques par lots ou par flux dans un magasin hors connexion à partir d'une source de données, telle qu'un bucket Cloud Storage ou une source BigQuery.

  • Diffusez des caractéristiques en ligne pour les prédictions.

  • Diffusez ou exportez des caractéristiques par lots pour l'entraînement ou l'analyse des modèles de ML.

  • Définissez des stratégies de gestion de l'authentification et des accès (IAM) sur les ressources EntityType et Featurestore.

  • Gérez les ressources des magasins de caractéristiques à partir de Google Cloud Console.

Vertex AI Feature Store (ancien) n'inclut pas les fonctionnalités de gestion des embeddings ni de récupération vectorielle. Si vous devez gérer les embeddings dans vos données de caractéristiques ou effectuer des recherches de similarité vectorielle, envisagez de passer à Vertex AI Feature Store. Pour en savoir plus sur la migration vers Vertex AI Feature Store, consultez la page Migrer vers Vertex AI Feature Store.

Pour en savoir plus sur Vertex AI Feature Store (ancien), consultez la documentation sur Vertex AI Feature Store (ancien).

Comparaison entre Vertex AI Feature Store et Vertex AI Feature Store (ancien)

Le tableau suivant compare les différents aspects de Vertex AI Feature Store (ancien) et le nouveau Vertex AI Feature Store :

Catégorie Vertex AI Feature Store Vertex AI Feature Store (ancien)
Modèles de données
Hiérarchie des ressources (magasin en ligne et hors connexion) La hiérarchie des ressources dans le magasin en ligne est la suivante : FeatureOnlineStore -> FeatureView
  • FeatureOnlineStore ne contient que les paramètres de configuration pour le stockage et la récupération en ligne. Il peut contenir plusieurs ressources FeatureView.
  • FeatureView est un regroupement logique de caractéristiques dans une requête de diffusion en ligne. Il s'agit d'une ressource unique qui remplace les types d'entités et les caractéristiques. Les données d'une vue de caractéristiques reflètent les dernières valeurs de caractéristiques dans l'espace de stockage BigQuery.
Il n'y a pas de ressources de magasin hors connexion, car les données résident dans BigQuery.
Les ressources sont hiérarchisées comme suit : Featurestore -> EntityType -> Feature
  • Featurestore contient les paramètres de configuration pour les magasins en ligne et hors connexion. Il peut contenir plusieurs ressources EntityType.
  • EntityType est un ensemble de caractéristiques présentant des relations sémantiques. Il peut comprendre plusieurs instances appelées "entités", qui peuvent contenir plusieurs ressources Feature.
  • Feature est une propriété ou un attribut d'un EntityType.
Hiérarchie des ressources (registre de caractéristiques) La hiérarchie des ressources dans le registre de caractéristiques est la suivante : FeatureGroup -> Feature
  • FeatureGroup enregistre l'emplacement de la source de données BigQuery. Il peut contenir plusieurs ressources Feature.
  • Feature correspond à une colonne de la source de données enregistrée auprès du groupe de caractéristiques.
Il n'existe pas de registre de caractéristiques dans Vertex AI Feature Store (ancien).
Gestion des caractéristiques
Magasins en ligne et hors connexion Vous devez créer une instance de magasin en ligne et définir les vues de caractéristiques.
Vertex AI Feature Store ne nécessite pas de magasin hors connexion distinct, car la source de données BigQuery constitue le magasin hors connexion.
Lorsque vous provisionnez un magasin de caractéristiques, Vertex AI Feature Store (ancien) crée des magasins distincts en ligne et hors connexion.
Importation de caractéristiques Vous n'avez pas besoin d'importer des données dans des magasins hors connexion, car les données résident dans BigQuery et vous pouvez les utiliser directement pour les besoins hors connexion. Pour les cas d'utilisation de diffusion en ligne, vous pouvez enregistrer une table BigQuery ou afficher une vue de caractéristiques, qui copie les données de caractéristiques dans le magasin en ligne. Feature Store Vertex AI actualise les données du magasin en ligne lors de la synchronisation des données. Vous devez importer des données de caractéristiques dans des magasins hors connexion et en ligne à l'aide d'une importation par lot ou d'une importation en flux continu depuis une source externe, telle qu'une table BigQuery ou une vue BigQuery.
Transfert de données entre magasins en ligne et hors connexion Vertex AI Feature Store utilise BigQuery comme magasin hors connexion et ne copie que les dernières valeurs des caractéristiques dans le magasin en ligne. Il n'y a pas de magasin hors connexion distinct provisionné dans Vertex AI. Les valeurs des caractéristiques sont copiées dans l'espace de stockage hors connexion, puis dans l'espace de stockage en ligne.
Publication de caractéristiques
Diffusion hors connexion Pour interagir avec le magasin hors connexion, vous devez utiliser les API BigQuery. Les fonctionnalités sous-jacentes sont identiques. Pour interagir avec le magasin hors connexion géré par Vertex AI Feature Store (ancien), vous devez utiliser les API Vertex AI. Voici quelques exemples de ces interactions : les recherches à un moment précis et les fonctionnalités d'exportation.
Publication en ligne

Vertex AI Feature Store fournit deux types de diffusion en ligne :

  • La mise en service en ligne Bigtable est semblable à celle dans Vertex AI Feature Store (ancien), mais fournit une mise en cache améliorée pour limiter le hotspotting. Elle est utile pour les volumes de données volumineux (téraoctets).
  • La diffusion en ligne optimisée convient aux besoins de diffusion à très faible latence.

Chaque requête de lecture en ligne récupère toutes les caractéristiques prédéfinies dans une vue de caractéristiques sans traitement supplémentaire, ce qui réduit les latences.

Vertex AI Feature Store (ancien) ne fournit qu'un seul type de diffusion en ligne. Vous pouvez spécifier les entités et les caractéristiques pour récupérer les données de caractéristique.
Interfaces et API
Fonctionnalités de la console Google Cloud Utilisez la console Google Cloud pour créer et gérer des ressources, telles que des instances de magasin en ligne, des instances de vue des caractéristiques, des groupes de caractéristiques et des caractéristiques. Vous pouvez également afficher la liste des magasins en ligne et des informations sur la traçabilité des caractéristiques. Utilisez la console Google Cloud pour effectuer la plupart des tâches de gestion des caractéristiques, y compris la surveillance de la création de ressources.
API de création de ressources Inclut les API permettant de créer des ressources FeatureOnlineStore, FeatureView, FeatureGroup et Feature. Ces ressources vous permettent de configurer votre registre de caractéristiques et votre boutique en ligne. BigQuery est utilisé pour le magasin hors connexion. Inclut les API permettant de créer des ressources Featurestore, EntityType et Feature, qui sont utilisées dans les magasins en ligne et hors connexion.
Importer des API par lot (magasin hors connexion) Ne nécessite pas d'API pour l'importation par lots dans le magasin hors connexion, car une étape d'importation par lot distincte n'est pas nécessaire. Utilise les API Vertex AI pour l'importation par lots dans le magasin hors connexion.
API d'importation par lot (magasin en ligne) Copier régulièrement les données de BigQuery vers la boutique en ligne lors de la synchronisation des données. Utilise les API Vertex AI pour l'importation par lots dans le magasin en ligne.
API d'importation en flux continu (magasin hors connexion) Ne nécessite pas d'API pour l'importation en flux continu dans le magasin hors connexion, car une étape d'importation en flux continu distincte n'est pas nécessaire. Utilise Vertex AI pour l'importation en flux continu dans le magasin hors connexion.
API d'importation en flux continu (magasin en ligne) L'importation en flux continu n'est pas compatible. Utilise les API Vertex AI pour l'importation en flux continu dans la boutique en ligne.
API de diffusion par lot Utilise les API BigQuery pour diffuser des données par lot directement à partir des sources de données BigQuery définies dans les vues de caractéristiques. Utilise les API Vertex AI pour diffuser des données de caractéristiques par lot.
API de diffusion en ligne Utilise l'FetchFeatureValues(FetchFeatureValuesRequest) API. Utilise l'API ReadFeatureValues(ReadFeatureValuesRequest) pour la diffusion en ligne.

Migrer vers Vertex AI Feature Store

Les ressources et données de caractéristiques Vertex AI Feature Store (ancien) ne sont pas immédiatement disponibles dans Vertex AI Feature Store. Si vous utilisez déjà Vertex AI Feature Store (ancien) et que vous souhaitez migrer votre projet vers Vertex AI, procédez comme suit. Notez que la hiérarchie des ressources dans Vertex AI Feature Store est différente de la hiérarchie des ressources dans Vertex AI Feature Store (ancien). Vous devrez donc créer manuellement les ressources après la migration des données de caractéristiques.

  1. Si vos données de caractéristiques ne sont pas déjà disponibles dans BigQuery, exportez-les vers BigQuery, puis créez des tables et des vues BigQuery. Suivez les consignes de préparation des données lorsque vous exportez et préparez les données. Exemple :

    • Chaque caractéristique correspond à une colonne. Les ID d'entité peuvent être une colonne distincte, que vous pouvez identifier en tant que colonne ID.

    • Vertex AI Feature Store ne dispose pas des ressources EntityType et Entity. Indiquez les valeurs de caractéristiques pour chaque entité dans la ligne correspondant à l'ID d'entité.

  2. Facultatif : Enregistrez votre source de données de caractéristiques en ajoutant des groupes de caractéristiques et des caractéristiques. Pour en savoir plus, consultez les pages Créer un groupe de caractéristiques et Créer une caractéristique.

  3. Configurez la diffusion en ligne en créant des instances de magasin en ligne et de vue des caractéristiques en fonction des données de la caractéristique.

Étape suivante