À propos des lacs et des zones

Les entreprises disposent de données souvent réparties entre des lacs, des entrepôts et des magasins de données. Dataplex Universal Catalog est une data fabric qui unifie les données distribuées et facilite la gouvernance des données en appliquant des constructions logiques à différents éléments de données.

Dataplex Universal Catalog fait abstraction des systèmes de stockage de données sous-jacents en utilisant les constructions suivantes : lacs, zones, éléments et entrées.

Lacs

Un lac est une construction logique représentant un domaine de données ou une unité commerciale. Par exemple, pour organiser les données en fonction de leur utilisation par les différents groupes, vous pouvez configurer un lac pour chaque service (par exemple, Vente au détail, Ventes et Finances).

Zones

Une zone est un sous-domaine d'un lac. Elle est utile pour classer les données par :

  • Étape : par exemple, données brutes, de destination, préparées pour l'analyse ou pour les data scientists
  • Utilisation : par exemple, contrat de données
  • Restrictions : par exemple, contrôles de sécurité et niveaux d'accès des utilisateurs

Il existe deux types de zones :

  • Zone brute : contient des données dans leur format brut et n'est pas soumise à une vérification stricte du type.

  • Zone sélectionnée : contient des données nettoyées, formatées et prêtes à être analysées. Les données sont stockées dans des fichiers Parquet, Avro ou ORC, ou dans des tables BigQuery. Elles sont organisées en colonnes et partitionnées avec Hive. Les données sont soumises à une vérification du type, par exemple pour interdire l'utilisation de fichiers CSV, car ils ne sont pas aussi performants pour l'accès SQL.

Éléments

Un élément fait référence aux données stockées dans Cloud Storage ou BigQuery. Vous pouvez mapper les données stockées dans des projets Google Cloud distincts en tant qu'éléments dans une même zone.

Entrées

Une entité représente des métadonnées pour les données structurées et semi-structurées (par exemple, une table) et les données non structurées (par exemple, un ensemble de fichiers).

Étapes suivantes