Les entreprises disposent de données souvent réparties entre des lacs, des entrepôts et des magasins de données. Dataplex Universal Catalog est une data fabric qui unifie les données distribuées et facilite la gouvernance des données en appliquant des constructions logiques à différents éléments de données.
Dataplex Universal Catalog fait abstraction des systèmes de stockage de données sous-jacents en utilisant les constructions suivantes : lacs, zones, éléments et entrées.
Lacs
Un lac est une construction logique représentant un domaine de données ou une unité commerciale. Par exemple, pour organiser les données en fonction de leur utilisation par les différents groupes, vous pouvez configurer un lac pour chaque service (par exemple, Vente au détail, Ventes et Finances).
Zones
Une zone est un sous-domaine d'un lac. Elle est utile pour classer les données par :
- Étape : par exemple, données brutes, de destination, préparées pour l'analyse ou pour les data scientists
- Utilisation : par exemple, contrat de données
- Restrictions : par exemple, contrôles de sécurité et niveaux d'accès des utilisateurs
Il existe deux types de zones :
Zone brute : contient des données dans leur format brut et n'est pas soumise à une vérification stricte du type.
Zone sélectionnée : contient des données nettoyées, formatées et prêtes à être analysées. Les données sont stockées dans des fichiers Parquet, Avro ou ORC, ou dans des tables BigQuery. Elles sont organisées en colonnes et partitionnées avec Hive. Les données sont soumises à une vérification du type, par exemple pour interdire l'utilisation de fichiers CSV, car ils ne sont pas aussi performants pour l'accès SQL.
Éléments
Un élément fait référence aux données stockées dans Cloud Storage ou BigQuery. Vous pouvez mapper les données stockées dans des projets Google Cloud distincts en tant qu'éléments dans une même zone.
Entrées
Une entité représente des métadonnées pour les données structurées et semi-structurées (par exemple, une table) et les données non structurées (par exemple, un ensemble de fichiers).
Étapes suivantes
- Organisez vos données en lacs et en zones.
- Sécurisez votre lac.
- Affichez les métadonnées détectées à l'aide de la console Google Cloud .
- Affichez les métadonnées découvertes à l'aide de l'API.