Glossaire Dataplex

Dataplex unifie le parcours de bout en bout pour l'analyse grâce à une gestion centralisée des données et des services. Ce glossaire a pour but de définir les termes utilisés dans le système de gestion.

Liste de glossaires

Action

Problèmes pouvant être résolus par l'utilisateur. Exemple :

  • La propagation de la stratégie de sécurité a échoué en raison d'un groupe de sécurité inexistant fourni par l'utilisateur.
  • Dataplex ne peut pas accéder à une ressource gérée.
  • La tâche de découverte a échoué pour diverses raisons (que l'utilisateur peut corriger). Cela peut être dû à des problèmes de données utilisateur, tels que des formats de données non valides, un schéma incompatible entre les partitions ou un nom de partition incohérent, etc.

Les actions sont générées automatiquement par Dataplex. Certaines actions sont automatiquement effacées par Dataplex lorsque le problème sous-jacent est détecté comme ayant été résolu par l'utilisateur. Les autres actions doivent être explicitement marquées comme résolues par l'utilisateur.

Par exemple, une fois que l'utilisateur a pris en charge les actions de découverte, il doit appeler l'API Dataplex pour marquer les actions comme résolues afin que le système de découverte puisse réactiver la pause et planifier une exécution de découverte immédiate.

Élément

Un élément représente une seule ressource gérée (bucket/ensemble de données) dans Dataplex. Il sert également d'espace réservé pour diverses configurations de la ressource et des sous-systèmes gérés (découverte, administration des règles, etc.) qui y agissent.

BigQuery

Google BigQuery est l'entrepôt de données d'analyse de Google Cloud, entièrement géré à l'échelle du pétaoctet et à faible coût, qui vous permet d'exécuter des analyses sur de grandes quantités de données en quasi-temps réel.

Avec BigQuery, vous n'avez aucune infrastructure à configurer ni à gérer. Vous pouvez donc vous concentrer sur la recherche d'insights pertinents grâce au langage SQL standard, et ainsi tirer parti de modèles de tarification flexibles pour les options à la demande et forfaitaires. En savoir plus

Données

Données utilisateur dans une ressource gérée. Par exemple, des objets Cloud Storage dans un bucket ou des lignes de table BigQuery dans un ensemble de données. Dans le cas de Cloud Storage, les objets sont des unités immuables de données utilisateur. Dans le cas d'un ensemble de données BigQuery, les lignes des tables enfants sont considérées comme des données utilisateur.

Data Catalog

Data Catalog est un service de gestion des métadonnées entièrement géré et adaptable qui permet aux organisations de découvrir, de gérer et d'interpréter rapidement l'ensemble de leurs données dans Google Cloud. En savoir plus

Compte de service Dataplex

Représente un agent de service, un type de compte de service qui effectue diverses actions au nom de Dataplex. Par exemple, le système de découverte et le système d'administration des stratégies s'appuient sur l'agent de service.

L'agent de service a besoin de diverses autorisations IAM sur les ressources et les projets gérés par l'utilisateur pour accomplir sa tâche. Certaines sont automatiquement accordées lors de l'activation de Dataplex sur un projet. D'autres (par exemple, l'association d'un bucket à partir d'un autre projet) doivent être accordées manuellement par l'utilisateur.

Dataproc Metastore

Dataproc Metastore est un service de métastore OSS natif entièrement géré, hautement disponible, avec scaling et réparation automatiques, qui simplifie considérablement la gestion des métadonnées techniques. Le service Dataproc Metastore est basé sur le métastore Apache Hive et sert de composant essentiel aux lacs de données d'entreprise. En savoir plus

Discovery

Sous-système chargé d'explorer les données utilisateur et d'extraire les métadonnées.

Groupe d'entrées

Un groupe d'entrées contient des entrées. Un groupe d'entrées est un ensemble d'entrées associées de manière logique à des stratégies Identity and Access Management qui spécifient les utilisateurs pouvant créer, modifier et afficher les entrées d'un groupe d'entrées.

Ensemble de fichiers

Un ensemble de fichiers est une entrée d'un groupe d'entrées créé par l'utilisateur. Un ensemble de fichiers est défini par un ou plusieurs modèles de fichiers qui spécifient un ensemble d'un ou plusieurs fichiers Cloud Storage. Les entrées de l'ensemble de fichiers peuvent être utilisées pour organiser et découvrir des fichiers Cloud Storage, et pour leur ajouter des métadonnées.

Lac

Un lac de données est un référentiel centralisé permettant de gérer les données d'entreprise dans l'ensemble de l'organisation, distribuées sur de nombreux projets cloud et stockées dans divers services de stockage tels que Cloud Storage et BigQuery. Les ressources associées à un lac sont appelées ressources gérées. Les données de ces ressources gérées peuvent être structurées ou non structurées.

Un lac de données fournit aux administrateurs de données des outils pour organiser, sécuriser et gérer leurs données à grande échelle. Il offre également aux data scientists et aux ingénieurs de données une expérience intégrée pour rechercher, découvrir, analyser et transformer facilement les données et les métadonnées associées.

Journaux

Journaux Stackdriver fournis par Dataplex que les utilisateurs peuvent utiliser pour obtenir des insights sur le fonctionnement de leur lac, effectuer un débogage, définir des alertes, etc. Par exemple, les journaux qui:

  • Actions de surface nécessitant votre attention
  • Afficher les modifications des métadonnées
  • Afficher un résumé des exécutions de tâches
  • Actions de la tâche de détection de surface (fichiers lus, écrits, etc.)

Métadonnées

Informations extraites des données utilisateur par le système de découverte. Par exemple, le nom du bucket Cloud Storage, les propriétés de l'ensemble de données BigQuery, le schéma des tables BigQuery enfants, etc.

Il existe deux types de métadonnées:

  • Métadonnées techniques telles que le schéma
  • Métadonnées opérationnelles telles que les statistiques sur les données (nombre et taille total des objets dans Cloud Storage)

Métriques

Les métriques représentent des métriques Stackdriver exposées en tant qu'API publique par Dataplex, que les utilisateurs peuvent ensuite utiliser pour configurer des alertes Stackdriver ou les visualiser via des graphiques. Pour en savoir plus sur les métriques Dataplex spécifiques, consultez la page Cloud Monitoring de Dataplex.

Propagation

La modification de certaines configurations de ressources lance un processus asynchrone en arrière-plan pour rapprocher l'état des ressources gérées de ce que l'utilisateur a spécifié. Par exemple, la configuration de sécurité spécifiée sur un lac doit être propagée à la stratégie IAM de milliers de ressources gérées (buckets/ensembles de données) sous ce lac. Cela ne se produit pas immédiatement lorsque l'API est appelée. Ce processus est appelé "propagation".

L'état de la propagation sera reflété par les champs d'état appropriés, et les erreurs s'afficheront via des actions.

Ressource

Ressource Dataplex

Ressources Google Cloud définies par le service Dataplex, telles que le lac, la zone de données et l'élément.

Ressource enfant

Enfant d'une ressource gérée. Par exemple, des objets Cloud Storage ou des tables/routines/modèles BigQuery. L'administration des stratégies de ressources enfants ne se fait pas directement via Dataplex. Toutefois, sa stratégie effective est influencée par ce qui est hérité de la ressource parente.

Ressource gérée

Ressources Google Cloud pouvant être administrées et découvertes via Dataplex. Actuellement, les buckets Cloud Storage et les ensembles de données BigQuery. Une ressource gérée peut appartenir à un projet différent du lac, mais elle doit appartenir à la même organisation.

Spécification

Spécification fournie par l'utilisateur. Exemple :

  • La spécification de sécurité spécifie la configuration de sécurité pour le lac/la zone/l'asset.
  • La spécification de ressource d'un élément spécifie un pointeur vers la ressource gérée (bucket/ensemble de données).
  • La spécification de découverte spécifie la configuration de découverte d'un composant.

État

Représente l'état de la spécification fournie par l'utilisateur. Par exemple:

  • L'état de sécurité représente l'état de la propagation de la stratégie de sécurité (telle qu'une spécification de sécurité) vers les buckets/ensembles de données sous-jacents.
  • L'état de la ressource représente l'état de la ressource gérée (OK / Introuvable/Autorisation refusée, etc.), qui est spécifié dans la spécification de la ressource.
  • L'état de la découverte représente l'état de la tâche de découverte, qui est déterminé par les spécifications de découverte.

Tableau

Table logique (lignes et colonnes) avec un schéma bien défini (noms et types de colonnes) basé sur des données (ou un sous-ensemble de celles-ci) dans une ressource gérée. Par exemple, une table peut être prise en charge par un sous-ensemble d'objets Cloud Storage dans un bucket Cloud Storage ou une table BigQuery dans l'ensemble de données BigQuery.

  • Les tables en tant que concept de premier ordre sont présentées dans Dataproc Metastore, Data Catalog et BigQuery (enregistrement des métadonnées). Les tables ne s'affichent pas en aval si la découverte ou la publication dans le système en aval n'est pas activée. Par exemple, les tables découvertes à partir des données utilisateur dans Cloud Storage ne s'affichent pas dans BigQuery si la publication dans BigQuery n'est pas activée.
  • Détecté par le système de découverte. ne peuvent pas être créés par l'utilisateur ;
  • Les noms de table sont générés pour être courts et significatifs afin qu'ils soient faciles à interroger. Les noms contiennent trois parties, [Prefix_]table root path[_Sequence number].

Zone

Conteneur logique d'une ou de plusieurs ressources de données créées dans un lac. Une zone de données peut être utilisée pour modéliser les unités commerciales d'une organisation (par exemple, les ventes par rapport aux opérations). Les zones de données modélisent également le parcours des données ou leur préparation à la consommation.

Zone brute

Zone de données contenant des données qui nécessitent un traitement supplémentaire avant d'être considérées comme généralement prêtes à être consommées et à être utilisées pour des charges de travail analytiques.

Zone de données organisées

Zone de données contenant des données considérées comme prêtes à être consommées plus largement et à être utilisées pour des charges de travail d'analyse. Les données structurées sélectionnées stockées dans Cloud Storage doivent être conformes à certains formats de fichiers (Parquet, Avro et ORC) et organisées dans une structure de répertoires compatible avec Hive.

Étape suivante