Data Catalog est un service de gestion des métadonnées entièrement géré et évolutif qui fait partie de la gamme de produits d'analyse de données de Google Cloud.
Pourquoi utiliser Data Catalog ?
Aujourd'hui, la plupart des entreprises gèrent un nombre important et croissant d'éléments de données.
Les personnes concernées par les données (consommateurs, producteurs et administrateurs) d'une organisation sont confrontées à plusieurs défis:
Rechercher des données pertinentes :
- Les consommateurs de données ne connaissent pas l'emplacement ni l'origine des données. Ils doivent parcourir des données et des marais.
- Les consommateurs de données ne savent pas quelles données utiliser pour obtenir des insights, car la plupart d'entre elles ne sont pas bien documentées et, même si elles le sont, ne sont pas bien gérées.
- Les données sont introuvables et sont souvent perdues lorsqu'elles ne résident que dans l'esprit des utilisateurs.
Comprendre les données :
- Les données sont-elles à jour, conformes, validées et approuvées pour une utilisation en production ?
- Quel ensemble de données est-il pertinent et à jour parmi plusieurs ensembles en double ?
- Quel est le lien entre un ensemble de données et un autre ?
- Qui utilise les données et qui en est le propriétaire ?
- Qui et quels processus transforment les données ?
Rendre les données utiles :
Les producteurs de données ne disposent pas d'un moyen efficace de transférer leurs données aux consommateurs. En l'absence de libre-service, les consommateurs risquent de submerger les producteurs. Plusieurs ingénieurs de données ne peuvent pas fournir de données manuellement à des milliers d'analystes de données.
Vous perdez un temps précieux si les consommateurs de données doivent déterminer comment demander l'accès aux données, le demander, attendre sans délai de réponse défini, faire remonter la demande et attendre encore.
Sans les bons outils, les défis deviennent un obstacle majeur à l'utilisation efficace des données. Data Catalog fournit un emplacement centralisé qui permet aux organisations d'atteindre les objectifs suivants:
- bénéficier d'une vue unifiée afin de réduire les difficultés liées à la recherche des données appropriées ;
- Prenez des décisions basées sur les données et accélérez le processus de génération de données en enrichissant les données avec des métadonnées techniques et métier.
- améliorer la gestion des données pour améliorer l'efficacité opérationnelle et la productivité ;
- revendiquer la propriété des données pour améliorer la confiance à l'égard de celles-ci.
Fonctions Data Catalog
Data Catalog propose deux fonctions principales:
- En recherchant des entrées de données auxquelles vous avez accès
- En ajoutant des tags de métadonnées aux entrées de données
En outre, Data Catalog peut exploiter les résultats d'une analyse Cloud Data Loss Prevention (DLP) pour identifier les données sensibles directement dans Data Catalog sous la forme de modèles de balises.
Fonctionnement de Data Catalog
Data Catalog peut cataloguer les métadonnées sur les entrées de données provenant de différentes sources système Google Cloud.
Vous pouvez également créer et gérer des entrées pour des types de ressources de données personnalisés à l'aide des API Data Catalog.
Une fois vos données cataloguées, vous pouvez ajouter vos propres métadonnées à ces éléments à l'aide de tags.
Figure 1 : Architecture de Data Catalog
Métadonnées Data Catalog
Data Catalog gère deux types de métadonnées : les métadonnées techniques et les métadonnées commerciales. Pour en savoir plus sur les métadonnées, consultez la page Métadonnées Data Catalog.
Recherche et découverte
Data Catalog propose une expérience de recherche simple et performante, basée sur des prédicats, pour les métadonnées techniques et métier associées à une entrée de données. Vous devez avoir les autorisations nécessaires pour lire les métadonnées d'une entrée de données afin d'appliquer la recherche et la détection aux métadonnées. Data Catalog n'indexe pas les données d'une entrée de données. Data Catalog n'indexe que les métadonnées qui décrivent un élément.
Data Catalog contrôle certaines métadonnées, telles que les tags générés par l'utilisateur. Pour toutes les métadonnées issues du système de stockage sous-jacent, Data Catalog est un service en lecture seule qui reflète les métadonnées et les autorisations fournies par le système de stockage sous-jacent. Vous pouvez modifier le système de stockage sous-jacent pour ajouter, mettre à jour ou supprimer les métadonnées d'une entrée de données.
Pour en savoir plus sur la recherche Data Catalog, consultez l'article Rechercher des éléments de données avec Data Catalog.
Catalogue automatique d'éléments
Pour un projet donné, Data Catalog répertorie automatiquement les éléments Google Cloud suivants :
- Ensembles de données, tables et vues BigQuery.
- Sujets Pub/Sub.
- Lacs, zones, tables et ensembles de fichiers Dataplex.
- (Aperçu public): services, bases de données et tables Dataproc Metastore.
- (Aperçu public): Ensembles de données associés à Analytics Hub.
En plus de cataloguer les éléments au sein des ID de projet pour lesquels vous disposez d'un accès aux métadonnées, Data Catalog peut cataloguer les données stockées dans les projets BigQuery contenant des ensembles de données publics.
Cataloguer les éléments non-GCP
Pour répertorier les métadonnées de systèmes autres que GCP dans votre organisation, vous pouvez utiliser les éléments suivants :
- des connecteurs de contribution de la communauté à plusieurs sources de données sur site populaires ;
- API Data Catalog pour les entrées personnalisées exploitées manuellement
Accéder à Data Catalog
Vous pouvez accéder à Data Catalog de l'une des manières suivantes:
Interface de ligne de commande (CLI)
gcloud
Étapes suivantes
Pour commencer à utiliser l'ajout de tags Data Catalog, consultez l'article Créer des modèles de tags, des tags, des vues d'ensemble et des responsables de données.
Pour commencer à utiliser la recherche Data Catalog, consultez la page Rechercher et afficher des éléments de données avec Data Catalog.
Pour intégrer vos sources de données, suivez la procédure décrite dans la section Intégrer des sources de données sur site et sur Google Cloud.