Glossaire Dataplex

Dataplex unifie le parcours de bout en bout pour l'analyse avec une gestion centralisée des données et des services. Ce glossaire vise à définir les termes utilisés dans le système de gestion.

Liste des glossaires

Action

Problèmes exploitables par les utilisateurs. Exemple :

  • Échec de la propagation des stratégies de sécurité en raison d'un groupe de sécurité inexistant fourni par l'utilisateur.
  • Dataplex ne peut pas accéder à une ressource gérée.
  • La tâche de découverte a échoué pour diverses raisons (qui peuvent être résolues par l'utilisateur). Cela peut être dû à des problèmes liés aux données utilisateur, tels que des formats de données non valides, un schéma incompatible entre les partitions, une dénomination incohérente des partitions, etc.

Dataplex génère automatiquement des actions. Certaines actions sont automatiquement effacées par Dataplex lorsque le problème sous-jacent a été détecté comme ayant été résolu par l'utilisateur. D'autres actions doivent être explicitement marquées comme résolues par l'utilisateur.

Par exemple, une fois que l'utilisateur a pris soin d'actions de découverte, il doit appeler l'API Dataplex pour les marquer comme résolues, afin que le système de découverte puisse se réactiver et planifier une exécution de découverte immédiate.

Asset

L'élément représente une seule ressource gérée (bucket/ensemble de données) dans Dataplex. Il sert également d'espace réservé pour diverses configurations des ressources gérées et des sous-systèmes (détection, administration des règles, etc.) qui les utilisent.

BigQuery

BigQuery est l'entrepôt de données d'analyse entièrement géré, à l'échelle du pétaoctet et économique de Google Cloud, qui vous permet d'analyser de grandes quantités de données en temps quasi réel.

Avec BigQuery, vous n'avez aucune infrastructure à configurer ni à gérer, ce qui vous permet de vous concentrer sur la recherche d'insights pertinents à l'aide du langage SQL standard et sur l'utilisation de modèles de tarification flexibles pour les options à la demande et forfaitaires. En savoir plus

Données

Données utilisateur dans une ressource gérée. Par exemple, les objets Cloud Storage d'un bucket ou les lignes d'une table BigQuery dans un ensemble de données. Dans le cas de Cloud Storage, les objets sont des unités de données utilisateur immuables. Dans le cas d'un ensemble de données BigQuery, les lignes des tables enfants sont considérées comme des données utilisateur.

Data Catalog

Data Catalog est un service de gestion des métadonnées entièrement géré et évolutif qui permet aux organisations de découvrir, de gérer et d'interpréter rapidement l'ensemble de leurs données dans Google Cloud. En savoir plus

Compte de service Dataplex

Représente un compte de service Google Cloud géré en interne qui effectue diverses actions pour le compte de Dataplex. Par exemple, les identifiants du compte de service sont utilisés par le système de découverte, le système d'administration des règles, etc.

Le compte de service a besoin de plusieurs autorisations IAM sur les ressources et les projets gérés par l'utilisateur pour effectuer sa tâche. Certaines sont automatiquement accordées lors de l'activation de Dataplex sur un projet. D'autres (par exemple, l'association d'un bucket d'un autre projet) doivent être accordées manuellement par l'utilisateur.

Dataproc Metastore

Dataproc Metastore est un service de métastore natif entièrement géré, à disponibilité élevée, avec autoscaling, autoréparation et OSS, qui simplifie considérablement la gestion des métadonnées techniques. Le service Dataproc Metastore est basé sur le métastore Apache Hive et joue un rôle essentiel pour les lacs de données d'entreprise. En savoir plus

Découverte

Sous-système responsable de l'exploration des données utilisateur et de l'extraction des métadonnées.

Groupe d'entrées

Un groupe d'entrées contient des entrées. Un groupe d'entrées est un ensemble d'entrées associées de manière logique à des stratégies Identity and Access Management qui spécifient les utilisateurs pouvant créer, modifier et afficher les entrées d'un groupe d'entrées.

Ensemble de fichiers

Un ensemble de fichiers est une entrée dans un groupe d'entrées créé par un utilisateur. Un ensemble de fichiers est défini par un ou plusieurs modèles de fichiers spécifiant un ensemble d'un ou plusieurs fichiers Cloud Storage. Les entrées d'ensemble de fichiers permettent d'organiser et de découvrir des fichiers Cloud Storage, ainsi que d'y ajouter des métadonnées.

Lac

Un lac est un dépôt centralisé permettant de gérer les données d'entreprise de l'organisation distribuées sur de nombreux projets cloud et stockées dans divers services de stockage tels que Cloud Storage et BigQuery. Les ressources associées à un lac sont appelées ressources gérées. Les données contenues dans ces ressources gérées peuvent être structurées ou non structurées.

Un lac fournit aux administrateurs de données des outils pour organiser, sécuriser et gérer leurs données à grande échelle, et offrir aux data scientists et aux ingénieurs de données une expérience intégrée leur permettant de rechercher, découvrir, analyser et transformer facilement les données et les métadonnées associées.

Journaux

Journaux Stackdriver fournis par Dataplex que les utilisateurs peuvent utiliser pour obtenir des insights sur le fonctionnement de leur lac, effectuer des opérations de débogage, définir des alertes, etc. Par exemple, les journaux qui:

  • Afficher les actions qui requièrent votre attention
  • Afficher les modifications apportées aux métadonnées
  • Afficher un résumé des exécutions de job
  • Mettre en évidence les actions du job de découverte (fichiers lus, écrits, etc.)

Métadonnées

Informations extraites des données utilisateur par le système de découverte. Par exemple, le nom du bucket Cloud Storage, les propriétés de l'ensemble de données BigQuery, le schéma des tables BigQuery enfants, etc.

Il existe deux types de métadonnées:

  • Métadonnées techniques telles que le schéma
  • Métadonnées opérationnelles, telles que les statistiques de données (nombre total d'objets et taille dans Cloud Storage)

Métriques

Les métriques représentent les métriques Stackdriver qui sont exposées en tant qu'API publiques par Dataplex. Les utilisateurs peuvent ensuite les utiliser pour configurer des alertes Stackdriver ou les visualiser via des graphiques. Pour en savoir plus sur les métriques Dataplex spécifiques, consultez la page Cloud Monitoring de Dataplex.

Propagation

La modification de certaines configurations de ressources lance un processus asynchrone en arrière-plan visant à rapprocher l'état des ressources gérées de celui spécifié par l'utilisateur. Par exemple, la configuration de sécurité spécifiée sur un lac doit être propagée à la stratégie IAM de plusieurs milliers de ressources gérées (buckets/ensembles de données) sous ce lac. Cela ne se produit pas immédiatement lorsque l'API est appelée. Ce processus est appelé propagation.

L'état de la propagation sera reflété dans les champs d'état correspondants, et des erreurs seront signalées via des actions.

Ressource

Ressource Dataplex

Ressources Google Cloud définies par le service Dataplex telles qu'un lac, une zone de données et un élément.

Ressource enfant

Enfant d'une ressource gérée. Il peut s'agir d'objets Cloud Storage ou de tables/routines/modèles BigQuery. L'administration des règles de ressources enfants ne s'effectue pas directement via Dataplex. Toutefois, sa règle effective est influencée par ce qui est hérité du parent.

Ressource gérée

Ressources Google Cloud pouvant être administrées et découvertes via Dataplex. Actuellement, il s'agit des buckets Cloud Storage et des ensembles de données BigQuery. Une ressource gérée peut appartenir à un projet différent de celui du lac, mais elle doit appartenir à la même organisation.

Spécification

Spécifications fournies par l'utilisateur. Exemple :

  • La spécification de sécurité spécifie la configuration de sécurité pour le lac/la zone/l'élément.
  • La spécification de ressource d'un élément spécifie un pointeur vers la ressource gérée (bucket/ensemble de données).
  • La spécification de découverte spécifie la configuration de découverte pour un élément.

État

Représente l'état de la spécification fournie par l'utilisateur. Par exemple:

  • L'état de sécurité représente l'état de la propagation de la stratégie de sécurité (telle qu'une spécification de sécurité) aux buckets/ensembles de données sous-jacents.
  • L'état de la ressource représente l'état de la ressource gérée (OK / Introuvable/Autorisation refusée, etc.) spécifié dans la spécification de la ressource.
  • L'état de découverte représente l'état de la tâche de découverte, basé sur les spécifications de découverte.

Table

Table logique (lignes et colonnes) avec un schéma bien défini (noms et types de colonnes) reposant sur des données (ou un sous-ensemble de celles-ci) contenues dans une ressource gérée. Par exemple, une table peut reposer sur un sous-ensemble d'objets Cloud Storage dans un bucket Cloud Storage ou sur une table BigQuery de l'ensemble de données BigQuery.

  • Les tables en tant que concept de première classe sont mises en évidence dans Dataproc Metastore, Data Catalog et BigQuery (enregistrement de métadonnées). Les tables ne seront pas mises en évidence si la découverte ou la publication dans le système en aval ne sont pas activées. Par exemple, les tables découvertes à partir de données utilisateur dans Cloud Storage ne seront pas présentées à BigQuery si la publication dans BigQuery n'est pas activée.
  • Découvert par le système de découverte. Ne peut pas être créé par l'utilisateur.
  • Les noms de table sont générés de manière à être courts et significatifs, afin d'être faciles à interroger. Les noms contiennent trois parties, [Prefix_]table root path[_Sequence number].

Zone

Conteneur logique d'une ou de plusieurs ressources de données créées dans un lac. Une zone de données peut être utilisée pour modéliser les unités commerciales au sein d'une organisation (par exemple, ventes vs opérations). Les zones de données modélisent également le parcours des données ou leur aptitude à être utilisées.

Zone brute

Zone de données contenant des données qui nécessitent un traitement supplémentaire avant d'être considérées comme généralement prêtes pour les charges de travail de consommation et d'analyse.

Zone suggérée

Une zone de données contenant des données considérées comme prêtes pour une consommation plus large et des charges de travail d'analyse Les données structurées sélectionnées stockées dans Cloud Storage doivent être conformes à certains formats de fichiers (Parquet, Avro et ORC) et organisées dans une mise en page de répertoire compatible avec Hive.

Étape suivante