Glossaire Vertex AI

  • ensemble d'annotations
    • Un ensemble d'annotations contient les étiquettes associées aux fichiers sources importés dans un ensemble de données. Un ensemble d'annotations est associé à la fois à un type de données et à un objectif (par exemple, vidéo/classification).
  • points de terminaison de l'API
    • Les points de terminaison de l'API sont un aspect de la configuration du service qui spécifie les adresses réseau, à savoir les points de terminaison du service. (par exemple, aiplatform.googleapis.com).
  • ANN (voisin le plus proche)
    • Le service ANN (voisin le plus proche) est une solution à grande échelle et à faible latence permettant de trouver des vecteurs (ou plus précisément, des "représentations vectorielles continues") similaires pour un corpus volumineux.
  • artefact
    • Un artefact est une entité discrète ou une donnée produite et consommée par un workflow de machine learning. Les ensembles de données, les modèles, les fichiers d'entrée et les journaux d'entraînement sont des exemples d'artefacts.
  • Artifact Registry
    • Artifact Registry est un service universel de gestion d'artefacts. Il s'agit du service recommandé pour la gestion des conteneurs et d'autres artefacts sur Google Cloud. Pour en savoir plus, consultez la page Artifact Registry.
  • prédiction par lot
    • La prédiction par lot extrait un groupe de requêtes de prédiction et génère les résultats dans un fichier. Pour en savoir plus, consultez la page Obtenir des prédictions par lot.
  • cadre de délimitation
    • Un cadre de délimitation pour un objet dans l'image vidéo peut être spécifié de deux manières : (i) Utiliser deux sommets composés d'un ensemble de coordonnées x et y s'ils correspondent à des points diagonalement opposés du rectangle. Par exemple : x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,, (ii) Utiliser les quatre sommets. Pour en savoir plus, consultez la section Préparer des données vidéo.
  • métriques de classification
    • Les métriques de classification compatibles avec le SDK Vertex AI pour Python sont la matrice de confusion et la courbe ROC.
  • context
    • Un contexte permet de regrouper des artefacts et des exécutions sous une catégorie unique, interrogeable et typée. Les contextes peuvent servir à représenter des ensembles de métadonnées. Un exemple de contexte pourrait être une exécution d'un pipeline de machine learning.
  • Clés de chiffrement gérées par le client (CMEK)
    • Les clés de chiffrement gérées par le client (CMEK, Customer-Managed Encryption Keys) sont des intégrations qui permettent aux clients de chiffrer des données dans les services Google existants à l'aide d'une clé qu'ils gèrent dans Cloud KMS (alias Storky). La clé dans Cloud KMS est la clé de chiffrement de clé qui protège ses données.
  • ensemble de données
    • Un ensemble de données est défini comme une collection d'enregistrements de données structurés ou non structurés. Pour en savoir plus, voir Créer un ensemble de données
  • représentation vectorielle continue
    • Une représentation vectorielle continue est un type de vecteur utilisé pour représenter les données de manière à capturer leur signification sémantique. Les représentations vectorielles continues sont généralement créées à l'aide de techniques de machine learning et sont souvent utilisées dans le traitement du langage naturel (TLN) et d'autres applications de machine learning.
  • event
    • Un événement décrit la relation entre les artefacts et les exécutions. Chaque artefact peut être produit par une exécution et utilisé par d'autres exécutions. Les événements vous aident à déterminer la provenance des artefacts dans leurs workflows de ML en associant des artefacts et des exécutions.
  • exécution
    • Une exécution est un enregistrement d'une étape individuelle de workflow de machine learning, généralement annoté avec ses paramètres d'exécution. Les exemples d'exécution incluent l'ingestion de données, la validation de données, l'entraînement de modèle, l'évaluation de modèle et le déploiement de modèle.
  • test
    • Un test est un contexte pouvant contenir un ensemble de n exécutions de test en plus de n exécutions de pipeline, dans lequel un utilisateur peut examiner, de manière groupée, différentes configurations telles que des artefacts d'entrée ou des hyperparamètres.
  • exécution de test
    • Une exécution de test peut contenir des métriques, des paramètres, des exécutions, des artefacts et des ressources Vertex (par exemple, PipelineJob) définis par l'utilisateur.
  • Analyse exploratoire des données
    • En statistiques, l'analyse exploratoire des données (AED) est une approche permettant d'analyser des ensembles de données afin de résumer leurs principales caractéristiques, souvent en employant des méthodes de visualisation des données. Un modèle statistique peut être utilisé ou non, mais l'AED consiste principalement à identifier ce que les données peuvent nous dévoiler au-delà de la modélisation formelle ou du test des hypothèses.
  • fonctionnalité
    • En machine learning (ML), une caractéristique est une caractéristique ou un attribut d'une instance ou d'une entité utilisée comme entrée pour entraîner un modèle de ML ou pour effectuer des prédictions.
  • Ingénierie des caractéristiques
    • L'ingénierie des caractéristiques est le processus de transformation de données de machine learning (ML) brutes en caractéristiques pouvant être utilisées pour entraîner des modèles de ML ou effectuer des prédictions.
  • Valeur de la caractéristique
    • Une valeur de caractéristique correspond à la valeur réelle et mesurable d'une caractéristique (attribut) d'une instance ou d'une entité. Une collection de valeurs de caractéristiques pour l'entité unique représente l'enregistrement de caractéristiques correspondant à l'entité.
  • publication de caractéristiques
    • La diffusion de caractéristiques consiste à exporter ou récupérer des valeurs de caractéristiques pour l'entraînement ou l'inférence. Dans Vertex AI, il existe deux types de diffusion de caractéristiques : la diffusion en ligne et la diffusion hors connexion. La diffusion en ligne récupère les dernières valeurs de caractéristiques d'un sous-ensemble de la source de données de caractéristiques pour les prédictions en ligne. La diffusion hors connexion ou par lot exporte d'importants volumes de données de caractéristiques pour le traitement hors connexion, comme l'entraînement de modèles de ML.
  • horodatage de la caractéristique
    • Un horodatage de caractéristique indique quand l'ensemble de valeurs de caractéristiques d'un enregistrement de caractéristiques pour une entité a été généré.
  • enregistrement de caractéristiques
    • Un enregistrement de caractéristiques est une agrégation de toutes les valeurs de caractéristiques qui décrivent les attributs d'une entité unique à un moment donné.
  • Registre de caractéristiques
    • Un registre de caractéristiques est une interface centrale pour l'enregistrement des sources de données de caractéristique que vous souhaitez diffuser pour les prédictions en ligne.
  • groupe de caractéristiques
    • Un groupe de caractéristiques est une ressource de registre de caractéristiques qui correspond à une table ou à une vue source BigQuery contenant des données de caractéristiques. Une vue de caractéristiques peut contenir des caractéristiques et peut être considérée comme un regroupement logique de colonnes de caractéristiques dans la source de données.
  • Vue des caractéristiques
    • Une vue de caractéristiques est une collection logique de caractéristiques matérialisées depuis une source de données BigQuery vers une instance de magasin en ligne. Une vue de caractéristiques stocke et actualise régulièrement les données des caractéristiques du client, qui sont actualisées périodiquement à partir de la source BigQuery. Une vue de caractéristiques est associée au stockage de données de caractéristiques, directement ou via des associations aux ressources de registre de caractéristiques.
  • SDK des composants du pipeline Google Cloud
    • Le SDK des composants du pipeline Google Cloud (GCPC) fournit un ensemble de composants Kubeflow Pipelines prédéfinis, de qualité production, performants et faciles à utiliser. Vous pouvez utiliser les composants du pipeline Google Cloud pour définir et exécuter des pipelines de ML dans Vertex AI Pipelines et d'autres backends d'exécution de pipeline de ML conformes à Kubeflow Pipelines. Pour en savoir plus, consultez .
  • histogram
    • Affichage graphique de la variation d'un ensemble de données à l'aide de barres. Un histogramme permet de visualiser des modèles difficiles à détecter dans une simple table de nombres.
  • index
    • Un ensemble de vecteurs déployés pour la recherche de similarités. Les vecteurs peuvent être ajoutés à un index ou supprimés de celui-ci. Les requêtes de recherche de similarités sont émises sur un index spécifique et recherchent les vecteurs de cet index.
  • vérité terrain
    • Un terme faisant référence à la vérification de la justesse du machine learning par rapport au monde réel (par exemple, un ensemble de données de vérité terrain).
  • Machine Learning Metadata
    • ML Metadata (MLMD) est une bibliothèque permettant d'enregistrer et de récupérer les métadonnées associées aux workflows pour les data scientists et les développeurs ML. MLMD fait partie intégrante de TensorFlow Extended (TFX), mais il est conçu pour pouvoir être utilisé indépendamment. Dans la perspective plus large de la plate-forme TFX, la plupart des utilisateurs n'interagissent avec MLMD que lorsqu'ils examinent les résultats des composants du pipeline, par exemple dans les notebooks ou dans TensorBoard.
  • Ensemble de données géré
    • Objet d'ensemble de données créé et hébergé par Vertex AI.
  • ressources de métadonnées
    • Vertex ML Metadata expose un modèle de données de type graphique pour représenter les métadonnées produites et consommées à partir des workflows de ML. Les concepts principaux sont les artefacts, les exécutions, les événements et les contextes.
  • MetadataSchema
    • Un MetadataSchema décrit le schéma de types particuliers d'artefacts, d'exécutions ou de contextes. Les MetadataSchema permettent de valider les paires clé/valeur lors de la création des ressources de métadonnées correspondantes. La validation de schéma n'est effectuée que sur les champs correspondants entre la ressource et le MetadataSchema. Les schémas de type sont représentés avec des objets de schéma OpenAPI, qui doivent être décrits à l'aide de YAML.
  • MetadataStore
    • MetadataStore est le conteneur de premier niveau pour les ressources de métadonnées. MetadataStore est régionalisé et associé à un projet Google Cloud spécifique. En règle générale, une organisation utilise un MetadataStore partagé pour les ressources de métadonnées au sein de chaque projet.
  • Pipelines de ML
    • Les pipelines de ML sont des workflows de ML portables et évolutifs basés sur des conteneurs.
  • model
    • Tout modèle pré-entraîné ou non.
  • nom de ressource de modèle
    • Nom de ressource pour un model, défini comme suit : projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Vous pouvez trouver l'ID du modèle dans la console Cloud, sur la page "Model Registry".
  • Magasin hors connexion
    • Le magasin hors connexion est une installation de stockage qui stocke des données de caractéristiques récentes et historiques, généralement utilisées pour l'entraînement des modèles de ML. Un magasin hors connexion contient également les dernières valeurs de caractéristiques, que vous pouvez diffuser pour les prédictions en ligne.
  • Magasin en ligne
    • Dans la gestion des caractéristiques, un magasin en ligne est une installation de stockage permettant de diffuser les dernières valeurs de caractéristiques pour les prédictions en ligne.
  • paramètres
    • Les paramètres sont des valeurs d'entrée à clé qui configurent une exécution, régulent le comportement de l'exécution et affectent les résultats de l'exécution. Exemples : taux d'apprentissage, taux d'abandon et nombre d'étapes d'entraînement.
  • pipeline
    • Les pipelines de ML sont des workflows de ML portables et évolutifs basés sur des conteneurs.
  • composant du pipeline
    • Un ensemble autonome de code qui effectue une étape dans le workflow d'un pipeline, comme le prétraitement des données, la transformation des données et l'entraînement d'un modèle.
  • tâche de pipeline
    • Ressource de l'API Vertex AI correspondant aux tâches Vertex Pipeline. Les utilisateurs créent une tâche PipelineJob lorsqu'ils souhaitent exécuter un pipeline de ML sur Vertex AI.
  • exécution de pipeline
    • Un ou plusieurs PipelineJobs Vertex peuvent être associés à un test où chaque PipelineJob est représenté comme une seule exécution. Dans ce contexte, les paramètres de l'exécution sont déduits par les paramètres de la tâche PipelineJob. Les métriques sont déduits des artefacts system.Metric générés par cette tâche PipelineJob. Les artefacts de l'exécution sont déduits des artefacts produits par cette tâche PipelineJob.
  • modèle de pipeline
    • Définition d'un workflow de ML qu'un ou plusieurs utilisateurs peuvent réutiliser pour créer plusieurs exécutions de pipeline.
  • recall
    • Le pourcentage de vrais voisins les plus proches renvoyé par l'index. Par exemple, si une requête de 20 voisins les plus proches renvoie un résultat de 19 voisins les plus proches de "vérité terrain", le rappel est de 19 / 20 x 100 = 95 %.
  • Restrictions
    • Fonctionnalité permettant de limiter les recherches à un sous-ensemble de l'index à l'aide de règles booléennes. La restriction est également appelée "filtrage". Vector Search vous permet d'utiliser le filtrage numérique et le filtrage des attributs de texte.
  • compte de service
    • Dans Google Cloud, un compte de service est un type de compte particulier utilisé par une application ou une instance de machine virtuelle (VM), et non par une personne. Les applications effectuent des appels d'API autorisés à l'aide de comptes de service.
  • métriques récapitulatives
    • Les métriques récapitulatives sont une valeur unique pour chaque clé de métrique lors d'une exécution de test. Par exemple, la justesse d'un test est la justesse calculée à partir d'un ensemble de données de test à la fin de l'entraînement et pouvant être capturée en tant que métrique récapitulative à valeur unique.
  • TensorBoard
    • TensorBoard est une suite d'applications Web permettant de visualiser et de comprendre les exécutions et les modèles TensorFlow. Pour en savoir plus, consultez la page sur TensorBoard.
  • Nom de ressource TensorBoard
    • Un nom de ressource TensorBoard permet d'identifier complètement une instance Vertex AI TensorBoard. Le format est le suivant: projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID.
  • Instance TensorBoard
    • Une instance TensorBoard est une ressource régionalisée qui stocke les tests Vertex AI TensorBoard associés à un projet. Vous pouvez créer plusieurs instances TensorBoard dans un projet si, par exemple, vous souhaitez plusieurs instances configurées pour utiliser les CMEK. Elle correspond à la ressource TensorBoard dans l'API.
  • TensorFlow Extended (TFX)
    • TensorFlow Extended (tfx), une plate-forme de bout en bout permettant de déployer des pipelines de machine learning de production basés sur la plate-forme TensorFlow.
  • horodatage
    • L'horodatage fait référence au début d'une vidéo.
  • segment de temps
    • Un segment de temps est identifié par des horodatages de début et de fin.
  • métriques de séries temporelles
    • Les métriques de séries temporelles sont des valeurs de métriques longitudinales où chaque valeur représente une étape de la partie routine d'entraînement d'une exécution. Les métriques de séries temporelles sont stockées dans Vertex AI TensorBoard. Les tests Vertex AI stockent une référence à la ressource Vertex TensorBoard.
  • token
    • Dans un modèle de langage, le jeton est l'unité atomique sur laquelle le modèle effectue l'entraînement et les prédictions (c'est-à-dire les mots, les morphèmes et les caractères). Dans les domaines autres que les modèles de langage, les jetons peuvent représenter d'autres types d'unités atomiques. Par exemple, dans les applications de vision par ordinateur, un jeton peut être un sous-ensemble d'une image.
  • artefacts non gérés
    • Artefact existant en dehors du contexte Vertex AI.
  • vecteur
    • Un vecteur est une liste de valeurs flottantes ayant une magnitude et une direction. Il permet de représenter n'importe quel type de données, comme des nombres, des points dans l'espace ou des directions.
  • Tests Vertex AI
    • Les tests Vertex AI permettent aux utilisateurs de suivre (i) les étapes d'une exécution de test (par exemple, le prétraitement, l'entraînement), (ii) les entrées (par exemple, l'algorithme, les paramètres, les ensembles de données), (iii) les sorties de ces étapes (par exemple, les modèles, les points de contrôle, les métriques).
  • Test Vertex AI TensorBoard
    • Les données associées à un test peuvent être visualisées dans l'application Web TensorBoard (scalaires, histogrammes, distributions, etc.). Les scalaires de séries temporelles peuvent être consultés dans la console Google Cloud. Pour en savoir plus, consultez la page Comparer et analyser les exécutions.
  • SDK Vertex AI pour Python
    • Le SDK Vertex AI pour Python offre des fonctionnalités semblables à la bibliothèque cliente Vertex AI pour Python, à la différence que le SDK est de niveau plus élevé et possède une précision moindre.
  • Type de données Vertex
    • Les types de données Vertex AI sont "image", "text", "tabular" et "video".
  • segment vidéo
    • Un segment vidéo est identifié par l'horodatage de début et de fin d'une vidéo.
  • Cloud privé virtuel (VPC)
    • Un cloud privé virtuel est un pool configurable de ressources informatiques partagées à la demande, alloué dans un environnement cloud public et fournissant un niveau d'isolation entre différentes organisations utilisant ces ressources.