Présentation de Dataplex

Dataplex est une data fabric qui unifie les données distribuées, et automatise la gestion et la gouvernance de ces données.

Dataplex vous permet d'effectuer les opérations suivantes:

  • Créez un maillage de données spécifique au domaine pour toutes les données stockées dans plusieurs projets Google Cloud, sans aucun transfert de données.
  • d'assurer l'homogénéité de la gouvernance et de la surveillance des données à l'aide d'un seul ensemble d'autorisations ;
  • Découvrez et organisez les métadonnées de différents silos à l'aide des fonctionnalités de catalogue. Pour en savoir plus, consultez la page Présentation de Data Catalog.
  • Interrogez les métadonnées de manière sécurisée à l'aide de BigQuery et d'outils Open Source tels que SparkSQL, Presto et HiveQL.
  • Exécuter des tâches de gestion de la qualité et du cycle de vie des données, y compris les tâches Spark sans serveur
  • Explorez les données à l'aide d'environnements Spark sans serveur entièrement gérés, avec un accès simple aux notebooks et aux requêtes SparkSQL.

Pourquoi utiliser Dataplex ?

Les entreprises disposent de données distribuées entre des lacs de données, des entrepôts de données et des magasins de données. Dataplex vous permet d'effectuer les opérations suivantes:

  • Découvrir des données
  • Organiser les données
  • Unifier les données sans les déplacer
  • Organisez les données en fonction des besoins de votre entreprise
  • Gérer, surveiller et gouverner les données de manière centralisée

Dataplex vous permet de standardiser et d'unifier les métadonnées, les règles de sécurité, la gouvernance, la classification et la gestion du cycle de vie des données sur ces données distribuées.

Image

Fonctionnement de Dataplex

Dataplex gère les données de manière à ne pas nécessiter de transfert ni de duplication. Lorsque vous identifiez de nouvelles sources de données, Dataplex collecte les métadonnées des données structurées et non structurées à l'aide de contrôles de qualité des données intégrés pour améliorer l'intégrité.

Dataplex enregistre automatiquement toutes les métadonnées dans un métastore unifié. Vous pouvez accéder aux données et aux métadonnées à l'aide de divers services et outils, y compris les suivants:

  • Les services Google Cloud tels que BigQuery, Dataproc Metastore et Data Catalog
  • Des outils Open Source tels qu'Apache Spark et Presto.

Terminologie

Dataplex élimine les systèmes de stockage de données sous-jacents à l'aide des constructions suivantes:

  • Lake: construction logique représentant un domaine de données ou une unité commerciale. Par exemple, pour organiser les données en fonction de l'utilisation des groupes, vous pouvez configurer un lac pour chaque service (par exemple, commerce, ventes ou finance).

  • Zone: sous-domaine au sein d'un lac, utile pour classer les données selon les critères suivants:

    • Étape: par exemple, destination, analyse de données brutes, sélectionnées et science des données sélectionnées.
    • Utilisation: contrat de données, par exemple.
    • Restrictions: par exemple, les contrôles de sécurité et les niveaux d'accès des utilisateurs.

    Il existe deux types de zones: brutes et organisées.

    • Zone brute: contient des données au format brut qui ne sont pas soumises à une vérification stricte du type.

    • Zone sélectionnée: contient des données nettoyées, formatées et prêtes pour l'analyse. Les données sont en colonnes, partitionnées par Hive et stockées dans des fichiers Parquet, Avro, Orc ou BigQuery. Les données sont soumises à une vérification du type, par exemple, pour interdire l'utilisation de fichiers CSV, car ils ne fonctionnent pas aussi bien pour l'accès SQL.

  • Élément: correspond aux données stockées dans Cloud Storage ou BigQuery. Vous pouvez mapper des données stockées dans des projets Google Cloud distincts en tant qu'éléments dans une seule zone.

  • Entité: représente les métadonnées des données structurées et semi-structurées (table) et des données non structurées (ensemble de fichiers).

Cas d'utilisation courants

Cette section décrit des cas d'utilisation courants de Dataplex.

Maillage de données centré sur le domaine

Avec ce type de maillage de données, les données sont organisées en plusieurs domaines au sein d'une entreprise (par exemple, ventes, clients et produits). La propriété des données peut être décentralisée. Vous pouvez vous abonner aux données de différents domaines. Par exemple, les data scientists et les analystes de données peuvent extraire des données de différents domaines pour atteindre des objectifs commerciaux tels que le machine learning et l'informatique décisionnelle.

Dans le schéma suivant, les domaines sont représentés par des lacs Dataplex et appartiennent à des producteurs de données distincts. Les producteurs de données gèrent la création, la sélection et le contrôle des accès dans leurs domaines. Les utilisateurs de données peuvent ensuite demander l'accès aux lacs (domaines) ou aux zones (sous-domaines) pour leur analyse.

Créer un maillage de données

Dans ce cas, les responsables des données doivent conserver une vue globale de l'ensemble du paysage des données.

Ce diagramme comprend les éléments suivants:

  • Dataplex: maillage de plusieurs domaines de données.
  • Domaine: lacs pour les ventes, les clients et les données produit.
  • Zone au sein d'un domaine: pour des équipes individuelles ou pour fournir des contrats de données gérés
  • Éléments: données stockées dans un bucket Cloud Storage ou dans un ensemble de données BigQuery, qui peuvent exister dans un projet Google Cloud distinct de votre maillage Dataplex.

Vous pouvez étendre ce scénario en décomposant les données situées dans des zones en couches brutes et préparées. Vous pouvez adopter cette approche en créant des zones pour chaque permutation d'un domaine et des données brutes ou organisées:

  • Ventes brutes
  • Promotions sélectionnées
  • Clients bruts
  • Clients sélectionnés
  • Produits bruts
  • Produits sélectionnés

Hiérarchisation des données en fonction de leur aptitude

Un autre cas d'utilisation courant est lorsque vos données ne sont accessibles qu'aux ingénieurs de données, puis qu'elles sont affinées et mises à la disposition des data scientists et des analystes. Dans ce cas, vous pouvez configurer un lac de façon à obtenir les éléments suivants:

  • Une zone brute pour les données auxquelles les ingénieurs peuvent accéder.
  • Une zone organisée pour les données mises à la disposition des data scientists et des analystes.

Lacs et zones

Étapes suivantes