Glossaire Dataplex

Dataplex unifie le parcours de bout en bout pour l'analyse grâce à une gestion centralisée des données et des services. Ce glossaire a pour but de définir les termes utilisés dans le système de gestion.

Liste des glossaires

Action

Problèmes exploitables par l'utilisateur Exemple :

  • Échec de la propagation de la stratégie de sécurité en raison d'un groupe de sécurité inexistant fournies par l'utilisateur.
  • Dataplex ne peut pas accéder à une ressource gérée.
  • Le job de découverte a échoué pour diverses raisons (l'utilisateur peut y remédier). Cela peut être dû à des problèmes liés aux données utilisateur, comme des formats de données non valides, schéma entre les partitions, nommage de partition incohérent, etc.

Les actions sont générées automatiquement par Dataplex. Certaines actions sont automatiquement effacées par Dataplex lorsque le problème sous-jacent a été résolu par l'utilisateur. Les autres actions doivent être explicitement marqué comme résolu par l'utilisateur.

Par exemple, une fois les actions de découverte effectuées par l'utilisateur, ils doivent appeler l'API Dataplex pour marquer le telles que résolues afin que le système de détection puisse réactiver et programmer de découverte immédiate.

Élément

Un élément représente une seule ressource gérée (bucket/ensemble de données) dans Dataplex. Il sert également d'espace réservé pour diverses configurations de la ressource et des sous-systèmes gérés (découverte, administration des règles, etc.) qui y agissent.

BigQuery

BigQuery est la solution Google Cloud entièrement gérée à l'échelle du pétaoctet un entrepôt de données d'analyse économique permettant d'exécuter des analyses sur de vastes de données en temps quasi réel.

Avec BigQuery, vous n'avez aucune infrastructure à configurer ni à gérer. Vous pouvez donc vous concentrer sur la recherche d'insights pertinents grâce au langage SQL standard, et ainsi tirer parti de modèles de tarification flexibles pour les options à la demande et forfaitaires. En savoir plus

Données

Données utilisateur dans une ressource gérée Par exemple, des objets Cloud Storage dans un bucket ou des lignes de table BigQuery dans un ensemble de données. Dans le cas de Cloud Storage, sont des unités immuables de données utilisateur. Dans le cas d'BigQuery ensemble de données, les lignes à l'intérieur des tables enfants sont considérées comme des données utilisateur.

Data Catalog

Data Catalog est un service de gestion des métadonnées entièrement géré et adaptable qui permet aux organisations de découvrir, de gérer et d'interpréter rapidement l'ensemble de leurs données dans Google Cloud. En savoir plus

Compte de service Dataplex

Représente un agent de service, un type de compte de service qui effectue diverses actions au nom de Dataplex. Par exemple, le système de découverte et la stratégie s'appuient sur l'agent de service.

L'agent de service a besoin de diverses autorisations IAM sur les ressources et les projets gérés par l'utilisateur pour accomplir sa tâche. Certaines sont accordées automatiquement lors de l'activation de Dataplex sur un projet. D'autres (par exemple, l'association d'un bucket à partir d'un autre projet) doivent être accordées manuellement par l'utilisateur.

Dataproc Metastore

Dataproc Metastore est une solution entièrement gérée, disponibilité élevée, avec autoscaling, l'autoréparation, un service de métastore natif Open Source qui simplifie considérablement la gestion des métadonnées. Le service Dataproc Metastore est basé sur le métastore Apache Hive, qui est un composant essentiel des lacs de données. En savoir plus

Discovery

Sous-système chargé d'explorer les données utilisateur et d'extraire les métadonnées.

Groupe d'entrées

Un groupe d'entrées contient des entrées. Un groupe d'entrées est un ensemble d'entrées associées de manière logique à des stratégies Identity and Access Management qui spécifient les utilisateurs pouvant créer, modifier et afficher les entrées d'un groupe d'entrées.

Ensemble de fichiers

Un ensemble de fichiers est une entrée d'un groupe d'entrées créé par l'utilisateur. Un ensemble de fichiers est défini par un ou plusieurs modèles de fichiers qui spécifient un ensemble d'un ou plusieurs fichiers Cloud Storage. Les entrées de l'ensemble de fichiers peuvent être utilisées pour organiser et découvrir des fichiers Cloud Storage, et pour leur ajouter des métadonnées.

Lac

Un lac de données est un référentiel centralisé permettant de gérer les données d'entreprise dans l'ensemble de l'organisation, distribuées sur de nombreux projets cloud et stockées dans divers services de stockage tels que Cloud Storage et BigQuery. La associées à un lac sont appelées ressources gérées. Les données incluses dans ces et les ressources gérées peuvent être structurées ou non structurées.

Un lac fournit aux administrateurs de données des outils pour organiser, sécuriser et gérer leurs données à grande échelle, et fournit aux data scientists et aux ingénieurs de données une pour rechercher, découvrir, analyser et transformer facilement les données et et les métadonnées associées.

Journaux

Journaux Stackdriver fournis par Dataplex que les utilisateurs peuvent utiliser pour des informations sur le fonctionnement de leur lac, effectuer des débogages, définir des alertes, etc. Par exemple, les journaux qui:

  • Afficher les actions qui requièrent votre attention
  • Afficher les modifications des métadonnées
  • Afficher un résumé des exécutions de jobs
  • Surface les actions des tâches de découverte (fichiers lus, écrits, etc.)

Métadonnées

Informations extraites des données utilisateur par le système de découverte. Par exemple : le nom du bucket Cloud Storage, les propriétés de l'ensemble de données BigQuery, des tables BigQuery enfants, etc.

Il existe deux types de métadonnées :

  • Métadonnées techniques, telles qu'un schéma
  • Métadonnées opérationnelles telles que les statistiques sur les données (nombre total d'objets et taille dans Cloud Storage)

Métriques

Les métriques représentent des métriques Stackdriver exposées en tant qu'API publique par Dataplex, que les utilisateurs peuvent ensuite utiliser pour configurer des alertes Stackdriver ou les visualiser à l'aide de graphiques. Pour en savoir plus sur les métriques Dataplex spécifiques, consultez la page Cloud Monitoring de Dataplex.

Propagation

La modification de certaines configurations de ressources lance une opération en arrière-plan, asynchrone pour concilier l'état des ressources gérées avec celui spécifié. Par exemple, une configuration de sécurité spécifiée sur un lac doit être propagé dans la stratégie IAM de milliers de ressources gérées potentiellement (buckets/ensembles de données) sous ce lac. Cela ne se produit pas immédiatement lorsque l'API est appelée. Ce processus est appelé "propagation".

L'état de la propagation est indiqué par le code les champs d'état et les erreurs seront affichées via des actions.

Ressource

Ressource Dataplex

Les ressources Google Cloud définies par le service Dataplex, telles que les lacs, une zone de données et un élément.

Ressource enfant

Ressource enfant d'une ressource gérée. Par exemple, des objets Cloud Storage ou BigQuery table/routine/modèles. L'administration des stratégies de ressources enfants ne se fait pas directement via Dataplex. Toutefois, sa stratégie effective est influencée par ce qui est hérité de la ressource parente.

Ressource gérée

Ressources Google Cloud pouvant être administrées et découvertes via Dataplex. Actuellement, les buckets Cloud Storage et les ensembles de données BigQuery. A une ressource gérée peut appartenir à un projet différent de celui du lac, mais elle doivent appartenir à la même organisation.

Spécification

Spécification fournie par l'utilisateur. Exemple :

  • La spécification de sécurité spécifie la configuration de sécurité pour le lac/la zone/l'asset.
  • La spécification de ressource d'un élément spécifie un pointeur vers la ressource gérée (bucket/ensemble de données).
  • La spécification de découverte spécifie la configuration de découverte d'un composant.

État

Représente l'état de la spécification fournie par l'utilisateur. Par exemple :

  • L'état de sécurité représente l'état de propagation de la stratégie de sécurité (comme une spécification de sécurité) aux buckets/ensembles de données sous-jacents.
  • L'état de la ressource représente l'état de la ressource gérée (OK/introuvable/autorisation refusée, etc.) spécifié dans la spécification de la ressource.
  • L'état de découverte représente l'état du job de découverte, par des spécifications de découverte.

Tableau

Table logique (lignes et colonnes) avec un schéma bien défini (noms et types de colonnes) basé sur des données (ou un sous-ensemble de celles-ci) dans une ressource gérée. Par exemple, une table peut être prise en charge par un sous-ensemble d'objets Cloud Storage dans un bucket Cloud Storage ou une table BigQuery dans l'ensemble de données BigQuery.

  • Les tables sont présentées comme un concept de première classe dans Dataproc Metastore, Data Catalog et BigQuery (enregistrement de métadonnées). Les tables ne s'affichent pas en aval si la découverte ou la publication dans le système en aval n'est pas activée. Par exemple, les tables découvertes à partir des données utilisateur dans Cloud Storage ne s'affichent pas dans BigQuery si la publication dans BigQuery n'est pas activée.
  • Détecté par le système de découverte. ne peuvent pas être créés par l'utilisateur ;
  • Les noms de table sont générés pour être courts et significatifs afin qu'ils soient faciles à interroger. Les noms se composent de trois parties : [Prefix_]table root path[_Sequence number].

Zone

Conteneur logique d'une ou de plusieurs ressources de données créées dans un lac. Une zone de données peut être utilisée pour modéliser les unités commerciales d'une organisation (par exemple, les ventes par rapport aux opérations). Les zones de données modélisent également le parcours des données ou le niveau de préparation à la consommation.

Zone brute

Zone de données contenant des données qui nécessitent un traitement supplémentaire avant d'être considérées comme généralement prêtes à être consommées et utilisées pour les charges de travail d'analyse.

Zone de données organisées

Zone de données contenant des données considérées comme prêtes à être consommées plus largement et à être utilisées pour des charges de travail analytiques. Des données structurées sélectionnées et stockées Cloud Storage doit être conforme à certains formats de fichiers (Parquet, Avro et ORC) et organisés dans une mise en page de répertoires compatible avec Hive.

Étape suivante