Présentation de Dataplex

Dataplex est une data fabric qui unifie les données distribuées et automatise leur gestion et leur gouvernance.

Dataplex vous permet d'effectuer les opérations suivantes :

  • Créer un maillage de données spécifique à un domaine à partir de données stockées dans plusieurs projets Google Cloud, sans aucun transfert de données.
  • d'assurer l'homogénéité de la gouvernance et de la surveillance des données à l'aide d'un seul ensemble d'autorisations ;
  • Découvrez et organisez des métadonnées réparties dans différents silos à l'aide de fonctionnalités de catalogue. Pour en savoir plus, consultez la page Présentation de Dataplex Catalog.
  • Interrogez les métadonnées de façon sécurisée à l'aide de BigQuery et d'outils Open Source. comme SparkSQL, Presto et HiveQL.
  • d'exécuter des tâches liées à la qualité des données et à la gestion de leur cycle de vie, y compris des tâches Spark sans serveur ;
  • (Obsolète) Explorez les données à l'aide d'environnements Spark sans serveur entièrement gérés, avec un accès simple aux notebooks et aux requêtes SparkSQL.

Pourquoi utiliser Dataplex ?

Les données des entreprises sont distribuées entre des lacs de données, des entrepôts de données et des magasins de données. Dataplex vous permet d'effectuer les opérations suivantes :

  • Découvrir des données
  • Sélectionner des données
  • Unifier les données sans les déplacer
  • Organiser les données en fonction des besoins de votre entreprise
  • Gérer, surveiller et gouverner les données de manière centralisée

Dataplex vous permet de standardiser et d'unifier les métadonnées, règles de sécurité, gouvernance, classification et gestion du cycle de vie des données sur l'ensemble de ces données distribuées.

image

Fonctionnement de Dataplex

Dataplex gère les données d'une manière qui ne nécessite pas de les déplacer ou de duplication. Lorsque vous identifiez de nouvelles sources de données, Dataplex collecte les métadonnées des données structurées et non structurées à l'aide de la des contrôles qualité des données pour améliorer l'intégrité.

Dataplex enregistre automatiquement toutes les métadonnées dans un métastore unifié. Vous pouvez accéder aux données et aux métadonnées à l'aide de divers services et outils, y compris les suivants :

  • aux services Google Cloud tels que BigQuery, Dataproc Metastore, Data Catalog.
  • Des outils Open Source, tels qu'Apache Spark et Presto.

Terminologie

Dataplex élimine les systèmes de stockage de données sous-jacents, à l'aide des constructions suivantes:

  • Lac : construction logique représentant un domaine de données ou une unité d'entreprise. Par exemple, pour organiser les données en fonction de l'utilisation par groupe, vous pouvez configurer un lac pour chaque service (Vente au détail, Ventes, Finances, etc.).

  • Zone : sous-domaine d'un lakehouse, qui permet de classer les données selon les éléments suivants :

    • Étape : par exemple, page de destination, données brutes, données préparées pour l'analyse et données préparées pour la science des données.
    • Utilisation : par exemple, contrat de données.
    • Restrictions: par exemple, les contrôles de sécurité et les niveaux d'accès des utilisateurs.

    Les zones sont de deux types: brutes et organisées.

    • Zone brute : contient des données au format brut et qui ne sont pas soumises à une vérification stricte du type.

    • Zone sélectionnée : contient des données nettoyées, formatées et prêtes à être analysées. Les données sont en colonnes, partitionnées avec Hive et stockées dans Parquet. Avro, fichiers Orc ou tables BigQuery. Les données subissent la vérification du type, par exemple, pour interdire l'utilisation de fichiers CSV, sont moins performantes pour l'accès SQL.

  • Composant : correspond aux données stockées dans Cloud Storage ou BigQuery. Vous pouvez mapper les données stockées dans des projets Google Cloud distincts en tant qu'éléments dans un dans une seule zone.

  • Entité: représente les métadonnées des données structurées et semi-structurées. (table) et des données non structurées (ensemble de fichiers).

Cas d'utilisation courants

Cette section décrit les cas d'utilisation courants de Dataplex.

Un maillage de données axé sur le domaine

Avec ce type de maillage de données, les données sont organisées en plusieurs domaines au sein d'un entreprise, par exemple "Ventes", "Clients" et "Produits". Propriété des données peuvent être décentralisées. Vous pouvez vous abonner aux données de différents domaines. Par exemple, les data scientists et les analystes de données peuvent puiser dans différents domaines pour atteindre des objectifs commerciaux tels que le machine learning et l'informatique décisionnelle.

Dans le schéma suivant, les domaines sont représentés par Dataplex et appartenant à des producteurs de données distincts. Les producteurs de données sont propriétaires de la création, de la curation et du contrôle des accès dans leurs domaines. Les utilisateurs de données peuvent ensuite demander un accès aux lacs (domaines) ou aux zones (sous-domaines) pour leur analyse.

Créer un maillage de données

Dans ce cas, les responsables des données doivent conserver une vue globale de l’ensemble des données en mode paysage.

Ce schéma comprend les éléments suivants:

  • Dataplex: maillage de plusieurs domaines de données.
  • Domaine : lacs pour les données sur les ventes, les clients et les produits.
  • Zone d'un domaine : pour des équipes individuelles ou pour fournir des contrats de données gérés.
  • Composants : données stockées dans un bucket Cloud Storage ou un ensemble de données BigQuery, qui peuvent exister dans un projet Google Cloud distinct de votre maillage Dataplex.

Vous pouvez étendre ce scénario en décomposant les données situées dans des zones en couches brutes et sélectionnées. Pour suivre cette approche, créez des zones pour chaque permutation d'un domaine et des données brutes ou sélectionnées :

  • Ventes brutes
  • Ventes sélectionnées
  • Clients bruts
  • Sélection de clients
  • Produits bruts
  • Produits sélectionnés

Hiérarchisation des données en fonction de l'aptitude

Autre cas d'utilisation courant : lorsque vos données ne sont accessibles qu'aux ingénieurs de données, et sont ensuite affinées et mises à la disposition des data scientists et des analystes. Dans dans ce cas, vous pouvez configurer un lac avec les éléments suivants:

  • Zone brute pour les données auxquelles les ingénieurs peuvent accéder.
  • Zone sélectionnée pour les données disponibles pour les data scientists et les analystes.

Lacs et zones

Étape suivante