Glossaire Vertex AI | Vertex AI

ensemble d'annotations

Un ensemble d'annotations contient les étiquettes associées aux fichiers sources importés dans un ensemble de données. Un ensemble d'annotations est associé à la fois à un type de données et à un objectif (par exemple, vidéo/classification).

points de terminaison de l'API

Les points de terminaison de l'API sont un aspect de la configuration du service qui spécifie les adresses réseau, à savoir les points de terminaison du service. (par exemple, aiplatform.googleapis.com).

ANN (voisin le plus proche)

Le service ANN (voisin le plus proche) est une solution à grande échelle et à faible latence permettant de trouver des vecteurs (ou plus précisément, des "représentations vectorielles continues") similaires pour un corpus volumineux. Pour en savoir plus, consultez Utiliser Vector Search pour la mise en correspondance sémantique.

artefact

Un artefact est une entité discrète ou une donnée produite et consommée par un workflow de machine learning. Les ensembles de données, les modèles, les fichiers d'entrée et les journaux d'entraînement sont des exemples d'artefacts.

Artifact Registry

Artifact Registry est un service universel de gestion d'artefacts. Il s'agit du service recommandé pour la gestion des conteneurs et d'autres artefacts sur Google Cloud. Pour en savoir plus, consultez la page Artifact Registry.

authentication

Processus de vérification de l'identité d'un client (qui peut être un utilisateur ou un autre processus) afin d'accéder à un système sécurisé. Un client qui a prouvé son identité est dit authentifié. Pour en savoir plus, consultez la page Méthodes d'authentification chez Google.

prédiction par lot

La prédiction par lot extrait un groupe de requêtes de prédiction et génère les résultats dans un fichier. Pour en savoir plus, consultez la page Obtenir des prédictions par lot.

cadre de délimitation

Un cadre de délimitation pour un objet dans l'image vidéo peut être spécifié de deux manières : (i) Utiliser deux sommets composés d'un ensemble de coordonnées x et y s'ils correspondent à des points diagonalement opposés du rectangle. Par exemple : x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,, (ii) Utiliser les quatre sommets. Pour en savoir plus, consultez la section Préparer des données vidéo.

métriques de classification

Les métriques de classification compatibles avec le SDK Vertex AI pour Python sont la matrice de confusion et la courbe ROC.

context

Un contexte permet de regrouper des artefacts et des exécutions sous une catégorie unique, interrogeable et typée. Les contextes peuvent servir à représenter des ensembles de métadonnées. Un exemple de contexte pourrait être une exécution d'un pipeline de machine learning.

Clés de chiffrement gérées par le client (CMEK)

Les clés de chiffrement gérées par le client (CMEK, Customer-Managed Encryption Keys) sont des intégrations qui permettent aux clients de chiffrer des données dans les services Google existants à l'aide d'une clé qu'ils gèrent dans Cloud KMS (alias Storky). La clé dans Cloud KMS est la clé de chiffrement de clé qui protège ses données. Pour en savoir plus, consultez Clés de chiffrement gérées par le client (CMEK).

ensemble de données

Un ensemble de données est défini comme une collection d'enregistrements de données structurés ou non structurés. Pour en savoir plus, voir Créer un ensemble de données

embedding

Un embedding est un type de vecteur utilisé pour représenter les données de manière à capturer leur signification sémantique. Les représentations vectorielles continues sont généralement créées à l'aide de techniques de machine learning et sont souvent utilisées dans le traitement du langage naturel (TLN) et d'autres applications de machine learning.

event

Un événement décrit la relation entre les artefacts et les exécutions. Chaque artefact peut être produit par une exécution et utilisé par d'autres exécutions. Les événements vous aident à déterminer la provenance des artefacts dans leurs workflows de ML en associant des artefacts et des exécutions.

exécution

Une exécution est un enregistrement d'une étape individuelle de workflow de machine learning, généralement annoté avec ses paramètres d'exécution. Les exemples d'exécution incluent l'ingestion de données, la validation de données, l'entraînement de modèle, l'évaluation de modèle et le déploiement de modèle.

test

Un test est un contexte pouvant contenir un ensemble de n exécutions de test en plus de n exécutions de pipeline, dans lequel un utilisateur peut examiner, de manière groupée, différentes configurations telles que des artefacts d'entrée ou des hyperparamètres.

exécution de test

Une exécution de test peut contenir des métriques, des paramètres, des exécutions, des artefacts et des ressources Vertex (par exemple, PipelineJob) définis par l'utilisateur.

Analyse exploratoire des données

En statistiques, l'analyse exploratoire des données (AED) est une approche permettant d'analyser des ensembles de données afin de résumer leurs principales caractéristiques, souvent en employant des méthodes de visualisation des données. Un modèle statistique peut être utilisé ou non, mais l'AED consiste principalement à identifier ce que les données peuvent nous dévoiler au-delà de la modélisation formelle ou du test des hypothèses.

fonctionnalité

En machine learning (ML), une caractéristique est une caractéristique ou un attribut d'une instance ou d'une entité utilisée comme entrée pour entraîner un modèle de ML ou pour effectuer des prédictions.

Ingénierie des caractéristiques

L'ingénierie des caractéristiques est le processus de transformation de données de machine learning (ML) brutes en caractéristiques pouvant être utilisées pour entraîner des modèles de ML ou effectuer des prédictions.

Valeur de la caractéristique

Une valeur de caractéristique correspond à la valeur réelle et mesurable d'une caractéristique (attribut) d'une instance ou d'une entité. Une collection de valeurs de caractéristiques pour l'entité unique représente l'enregistrement de caractéristiques correspondant à l'entité.

publication de caractéristiques

La livraison de caractéristiques consiste à exporter ou récupérer des valeurs de caractéristiques pour l'entraînement ou l'inférence. Dans Vertex AI, il existe deux types de publication de caractéristiques : la diffusion en ligne et la diffusion hors connexion. La diffusion en ligne récupère les dernières valeurs de caractéristiques d'un sous-ensemble de la source de données de caractéristiques pour les prédictions en ligne. La diffusion hors connexion ou par lot exporte d'importants volumes de données de caractéristiques pour le traitement hors connexion, comme l'entraînement de modèles de ML.

horodatage de la caractéristique

Un horodatage de caractéristique indique quand l'ensemble de valeurs de caractéristiques d'un enregistrement de caractéristiques pour une entité a été généré.

enregistrement de caractéristiques

Un enregistrement de caractéristiques est une agrégation de toutes les valeurs de caractéristiques qui décrivent les attributs d'une entité unique à un moment donné.

Registre de caractéristiques

Un registre de caractéristiques est une interface centrale pour l'enregistrement des sources de données de caractéristique que vous souhaitez diffuser pour les prédictions en ligne. Pour en savoir plus, consultez la page Configurer le registre de caractéristiques.

groupe de caractéristiques

Un groupe de caractéristiques est une ressource de registre de caractéristiques qui correspond à une table ou à une vue source BigQuery contenant des données de caractéristiques. Une vue de caractéristiques peut contenir des caractéristiques et peut être considérée comme un regroupement logique de colonnes de caractéristiques dans la source de données.

Vue des caractéristiques

Une vue de caractéristiques est une collection logique de caractéristiques matérialisées depuis une source de données BigQuery vers une instance de magasin en ligne. Une vue de caractéristiques stocke et actualise régulièrement les données des caractéristiques du client, qui sont actualisées périodiquement à partir de la source BigQuery. Une vue de caractéristiques est associée au stockage de données de caractéristiques, directement ou via des associations aux ressources de registre de caractéristiques.

SDK des composants du pipeline Google Cloud

Le SDK des composants du pipeline Google Cloud (GCPC) fournit un ensemble de composants Kubeflow Pipelines prédéfinis, de qualité production, performants et faciles à utiliser. Vous pouvez utiliser les composants du pipeline Google Cloud pour définir et exécuter des pipelines de ML dans Vertex AI Pipelines et d'autres backends d'exécution de pipeline de ML conformes à Kubeflow Pipelines. Pour en savoir plus, consultez Présentation des composants du pipeline Google Cloud.

histogram

Affichage graphique de la variation d'un ensemble de données à l'aide de barres. Un histogramme permet de visualiser des modèles difficiles à détecter dans une simple table de nombres.

index

Un ensemble de vecteurs déployés pour la recherche de similarités. Les vecteurs peuvent être ajoutés à un index ou supprimés de celui-ci. Les requêtes de recherche de similarités sont émises sur un index spécifique et recherchent les vecteurs de cet index.

vérité terrain

Un terme faisant référence à la vérification de la justesse du machine learning par rapport au monde réel (par exemple, un ensemble de données de vérité terrain).

Machine Learning Metadata

ML Metadata (MLMD) est une bibliothèque permettant d'enregistrer et de récupérer les métadonnées associées aux workflows pour les data scientists et les développeurs ML. MLMD fait partie intégrante de TensorFlow Extended (TFX), mais il est conçu pour pouvoir être utilisé indépendamment. Dans la perspective plus large de la plate-forme TFX, la plupart des utilisateurs n'interagissent avec MLMD que lorsqu'ils examinent les résultats des composants du pipeline, par exemple dans les notebooks ou dans TensorBoard.

Ensemble de données géré

Objet d'ensemble de données créé et hébergé par Vertex AI.

ressources de métadonnées

Vertex ML Metadata expose un modèle de données de type graphique pour représenter les métadonnées produites et consommées à partir des workflows de ML. Les concepts principaux sont les artefacts, les exécutions, les événements et les contextes.

MetadataSchema

Un MetadataSchema décrit le schéma de types particuliers d'artefacts, d'exécutions ou de contextes. Les MetadataSchema permettent de valider les paires clé/valeur lors de la création des ressources de métadonnées correspondantes. La validation de schéma n'est effectuée que sur les champs correspondants entre la ressource et le MetadataSchema. Les schémas de type sont représentés avec des objets de schéma OpenAPI, qui doivent être décrits à l'aide de YAML.

MetadataStore

MetadataStore est le conteneur de premier niveau pour les ressources de métadonnées. MetadataStore est régionalisé et associé à un projet Google Cloud spécifique. En règle générale, une organisation utilise un MetadataStore partagé pour les ressources de métadonnées au sein de chaque projet.

Pipelines de ML

Les pipelines de ML sont des workflows de ML portables et évolutifs basés sur des conteneurs.

model

Tout modèle pré-entraîné ou non.

nom de ressource de modèle

Nom de ressource pour un model, défini comme suit : projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Vous pouvez trouver l'ID du modèle dans la console Cloud, sur la page "Model Registry".

Magasin hors connexion

Le magasin hors connexion est une installation de stockage qui stocke des données de caractéristiques récentes et historiques, généralement utilisées pour l'entraînement des modèles de ML. Un magasin hors connexion contient également les dernières valeurs de caractéristiques, que vous pouvez diffuser pour les prédictions en ligne.

Magasin en ligne

Dans la gestion des caractéristiques, un magasin en ligne est une installation de stockage permettant de diffuser les dernières valeurs de caractéristiques pour les prédictions en ligne.

paramètres

Les paramètres sont des valeurs d'entrée à clé qui configurent une exécution, régulent le comportement de l'exécution et affectent les résultats de l'exécution. Exemples : taux d'apprentissage, taux d'abandon et nombre d'étapes d'entraînement.

pipeline

Les pipelines de ML sont des workflows de ML portables et évolutifs basés sur des conteneurs.

composant du pipeline

Un ensemble autonome de code qui effectue une étape dans le workflow d'un pipeline, comme le prétraitement des données, la transformation des données et l'entraînement d'un modèle.

tâche de pipeline

Ressource de l'API Vertex AI correspondant aux tâches Vertex Pipeline. Les utilisateurs créent une tâche PipelineJob lorsqu'ils souhaitent exécuter un pipeline de ML sur Vertex AI.

exécution de pipeline

Un ou plusieurs PipelineJobs Vertex peuvent être associés à un test où chaque PipelineJob est représenté comme une seule exécution. Dans ce contexte, les paramètres de l'exécution sont déduits par les paramètres de la tâche PipelineJob. Les métriques sont déduits des artefacts system.Metric générés par cette tâche PipelineJob. Les artefacts de l'exécution sont déduits des artefacts produits par cette tâche PipelineJob.

modèle de pipeline

Définition d'un workflow de ML qu'un ou plusieurs utilisateurs peuvent réutiliser pour créer plusieurs exécutions de pipeline.

recall

Le pourcentage de vrais voisins les plus proches renvoyé par l'index. Par exemple, si une requête de 20 voisins les plus proches renvoie un résultat de 19 voisins les plus proches de "vérité terrain", le rappel est de 19 / 20 x 100 = 95 %.

Restrictions

Fonctionnalité permettant de limiter les recherches à un sous-ensemble de l'index à l'aide de règles booléennes. La restriction est également appelée "filtrage". Vector Search vous permet d'utiliser le filtrage numérique et le filtrage des attributs de texte.

compte de service

Dans Google Cloud, un compte de service est un type de compte particulier utilisé par une application ou une instance de machine virtuelle (VM), et non par une personne. Les applications effectuent des appels d'API autorisés à l'aide de comptes de service.

métriques récapitulatives

Les métriques récapitulatives sont une valeur unique pour chaque clé de métrique lors d'une exécution de test. Par exemple, la justesse d'un test est la justesse calculée à partir d'un ensemble de données de test à la fin de l'entraînement et pouvant être capturée en tant que métrique récapitulative à valeur unique.

TensorBoard

TensorBoard est une suite d'applications Web permettant de visualiser et de comprendre les exécutions et les modèles TensorFlow. Pour en savoir plus, consultez la page sur TensorBoard.

Nom de ressource TensorBoard

Le nom de la ressource TensorBoard permet d'identifier complètement une instance Vertex AI TensorBoard. Le format est le suivant : projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID.

Instance TensorBoard

Une instance TensorBoard est une ressource régionalisée qui stocke les tests Vertex AI TensorBoard associés à un projet. Vous pouvez créer plusieurs instances TensorBoard dans un projet si, par exemple, vous souhaitez plusieurs instances configurées pour utiliser les CMEK. Elle correspond à la ressource TensorBoard dans l'API.

TensorFlow Extended (TFX)

TensorFlow Extended (tfx), une plate-forme de bout en bout permettant de déployer des pipelines de machine learning de production basés sur la plate-forme TensorFlow.

horodatage

L'horodatage fait référence au début d'une vidéo.

segment de temps

Un segment de temps est identifié par des horodatages de début et de fin.

métriques de séries temporelles

Les métriques de séries temporelles sont des valeurs de métriques longitudinales où chaque valeur représente une étape de la partie routine d'entraînement d'une exécution. Les métriques de séries temporelles sont stockées dans Vertex AI TensorBoard. Vertex AI Experiments stocke une référence à la ressource Vertex TensorBoard.

token

Dans un modèle de langage, le jeton est l'unité atomique sur laquelle le modèle effectue l'entraînement et les prédictions (c'est-à-dire les mots, les morphèmes et les caractères). Dans les domaines autres que les modèles de langage, les jetons peuvent représenter d'autres types d'unités atomiques. Par exemple, dans les applications de vision par ordinateur, un jeton peut être un sous-ensemble d'une image.

artefacts non gérés

Artefact existant en dehors du contexte Vertex AI.

vecteur

Un vecteur est une liste de valeurs flottantes ayant une magnitude et une direction. Il permet de représenter n'importe quel type de données, comme des nombres, des points dans l'espace ou des directions.

Vertex AI Experiments

Vertex AI Experiments permet aux utilisateurs de suivre (i) les étapes d'une exécution de test (par exemple, le prétraitement, l'entraînement), (ii) les entrées (par exemple, l'algorithme, les paramètres, les ensembles de données), (iii) les sorties de ces étapes (par exemple, les modèles, les points de contrôle, les métriques).

Test Vertex AI TensorBoard

Les données associées à un test peuvent être visualisées dans l'application Web TensorBoard (scalaires, histogrammes, distributions, etc.). Les scalaires de séries temporelles peuvent être consultés dans la console Google Cloud. Pour en savoir plus, consultez la page Comparer et analyser les exécutions.

SDK Vertex AI pour Python

Le SDK Vertex AI pour Python offre des fonctionnalités semblables à la bibliothèque cliente Vertex AI pour Python, à la différence que le SDK est de niveau plus élevé et possède une précision moindre.

Type de données Vertex

Les types de données Vertex AI sont "image", "text", "tabular" et "video".

segment vidéo

Un segment vidéo est identifié par l'horodatage de début et de fin d'une vidéo.

Cloud privé virtuel (VPC)

Un cloud privé virtuel est un pool configurable de ressources informatiques partagées à la demande, alloué dans un environnement cloud public et fournissant un niveau d'isolation entre différentes organisations utilisant ces ressources.