Dataplex est une data fabric qui unifie les données distribuées et automatise leur gestion et leur gouvernance.
Dataplex vous permet d'effectuer les opérations suivantes:
- Créez un maillage de données spécifique à un domaine à partir des données stockées dans plusieurs projetsGoogle Cloud , sans avoir à déplacer les données.
- d'assurer l'homogénéité de la gouvernance et de la surveillance des données à l'aide d'un seul ensemble d'autorisations ;
- Découvrez et sélectionnez les métadonnées réparties entre plusieurs silos à l'aide des fonctionnalités de catalogage. Pour en savoir plus, consultez la page Présentation de Dataplex Catalog.
- Interroger les métadonnées de manière sécurisée à l'aide de BigQuery et d'outils Open Source tels que Spark SQL, Presto et HiveQL
- d'exécuter des tâches liées à la qualité des données et à la gestion de leur cycle de vie, y compris des tâches Spark sans serveur ;
- (Obsolète) Explorez les données à l'aide d'environnements Spark sans serveur entièrement gérés, avec accès aux notebooks et aux requêtes Spark SQL.
Pourquoi utiliser Dataplex ?
Les données des entreprises sont distribuées entre des lacs de données, des entrepôts de données et des magasins de données. Dataplex vous permet d'effectuer les opérations suivantes:
- Découvrir des données
- Sélectionner des données
- Unifier les données sans les déplacer
- Organiser les données en fonction des besoins de votre entreprise
- Gérer, surveiller et gouverner les données de manière centralisée
Dataplex vous permet de standardiser et d'unifier les métadonnées, les règles de sécurité, la gouvernance, la classification et la gestion du cycle de vie de ces données distribuées.
Fonctionnement de Dataplex
Dataplex gère les données d'une manière qui ne nécessite pas de les déplacer ni de les dupliquer. À mesure que vous identifiez de nouvelles sources de données, Dataplex collecte les métadonnées des données structurées et non structurées grâce à des contrôles de qualité intégrés pour améliorer l'intégrité.
Dataplex enregistre automatiquement toutes les métadonnées dans un métastore unifié. Vous pouvez accéder aux données et aux métadonnées à l'aide de divers services et outils, y compris les suivants:
- Google Cloud services, tels que BigQuery, Dataproc Metastore et Data Catalog.
- Des outils Open Source, tels qu'Apache Spark et Presto
Terminologie
Dataplex élimine les systèmes de stockage de données sous-jacents à l'aide des constructions suivantes:
Lac: construction logique représentant un domaine de données ou une unité commerciale. Par exemple, pour organiser les données en fonction de l'utilisation des groupes, vous pouvez configurer un lac pour chaque service (vente au détail, ventes, finances, etc.).
Zone: sous-domaine d'un lake, qui permet de classer les données comme suit:
- Étape: par exemple, page de destination, données brutes, analyse et science des données préparées
- Utilisation: par exemple, contrat de données
- Restrictions: par exemple, contrôles de sécurité et niveaux d'accès des utilisateurs
Il existe deux types de zones:
Zone brute: contient des données au format brut et qui ne sont pas soumises à une vérification stricte du type.
Zone sélectionnée: contient des données nettoyées, formatées et prêtes à être analysées. Les données sont de type colonne, partitionnées avec Hive et stockées dans des fichiers Parquet, Avro, Orc ou des tables BigQuery. Les données sont soumises à une vérification de type, par exemple pour interdire l'utilisation de fichiers CSV, car ils ne sont pas aussi performants pour l'accès SQL.
Composant: correspond aux données stockées dans Cloud Storage ou BigQuery. Vous pouvez mapper des données stockées dans des projets Google Cloud distincts en tant qu'éléments dans une seule zone.
Entité: représente les métadonnées des données structurées et semi-structurées (par exemple, un tableau) et des données non structurées (par exemple, un ensemble de fichiers).
Cas d'utilisation courants
Cette section décrit les cas d'utilisation courants de Dataplex.
Un maillage de données axé sur le domaine
Avec ce type de maillage de données, les données sont organisées en plusieurs domaines au sein d'une entreprise, par exemple Sales
, Customers
et Products
. Vous pouvez décentraliser la propriété des données. Vous pouvez vous abonner aux données de différents domaines. Par exemple, les data scientists et les analystes de données peuvent puiser dans différents domaines pour atteindre des objectifs métier tels que le machine learning et l'informatique décisionnelle.
Dans le schéma suivant, les domaines sont représentés par des lacs de données Dataplex et appartiennent à des producteurs de données distincts. Les producteurs de données sont propriétaires de la création, de la curation et du contrôle des accès dans leurs domaines. Les consommateurs de données peuvent ensuite demander l'accès aux lacs (domaines) ou aux zones (sous-domaines) pour leur analyse.
Dans ce cas, les responsables des données doivent conserver une vue globale de l'ensemble du paysage des données.
Ce schéma comprend les éléments suivants:
- Dataplex: un maillage de plusieurs domaines de données
- Domaine: lacs pour les données
Sales
,Customers
etProduct
- Zone d'un domaine: pour des équipes individuelles ou pour fournir des contrats de données gérés
- Éléments: données stockées dans un bucket Cloud Storage ou un ensemble de données BigQuery, qui peuvent exister dans un projet Google Clouddistinct de votre maillage Dataplex
Vous pouvez étendre ce scénario en décomposant les données situées dans des zones en couches brutes et sélectionnées. Pour suivre cette approche, créez des zones pour chaque permutation d'un domaine et des données brutes ou sélectionnées:
- Ventes brutes
- Ventes sélectionnées
- Clients bruts
- Sélection de clients
- Produits bruts
- Produits sélectionnés
Hiérarchisation des données en fonction de leur préparation
Cette solution est également souvent utilisée quand l'accès aux données est limité aux ingénieurs de données, puis quand elles sont affinées et mises à la disposition des data scientists et des analystes. Dans ce cas, vous pouvez créer un lac de données comportant les éléments suivants:
- Zone de destination pour les données auxquelles les ingénieurs peuvent accéder.
- Une zone brute pour les données disponibles pour les data scientists et les analystes.
Étape suivante
- Premiers pas avec Dataplex
- Créer un maillage de données
- Créer un lac
- Découvrir les fonctionnalités de catalogue dans Dataplex