Data Catalog est un service de gestion des métadonnées entièrement géré et évolutif au sein de Dataplex.
Pourquoi avez-vous besoin de Data Catalog ?
Aujourd'hui, la plupart des entreprises gèrent un nombre important et croissant d'éléments de données.
Les personnes concernées par les données (utilisateurs, producteurs et administrateurs) au sein d'une organisation sont confrontées à plusieurs défis:
Rechercher des données pertinentes :
- Les utilisateurs de données ne connaissent pas l'emplacement et l'origine des données. Ils doivent naviguer dans les "marécages" de données.
- Les consommateurs de données ne savent pas quelles données utiliser pour obtenir des insights, car la plupart d'entre elles ne sont pas bien documentées et, même si elles le sont, ne sont pas bien gérées.
- Les données sont introuvables et sont souvent perdues lorsqu'elles ne résident que dans l'esprit des utilisateurs.
Comprendre les données :
- Les données sont-elles à jour, nettoyées, validées et approuvées pour une utilisation en production ?
- Quel jeu de données parmi plusieurs ensembles en double est pertinent et à jour ?
- Quel est le lien entre un jeu de données et un autre ?
- Qui utilise les données et qui en est le propriétaire ?
- Qui et quels processus transforment les données ?
Rendre les données utiles :
Les producteurs de données ne disposent pas d'un moyen efficace de transférer leurs données aux consommateurs. En l'absence de libre-service, les consommateurs risquent de submerger les producteurs. Plusieurs ingénieurs de données ne peuvent pas fournir de données manuellement à des milliers d'analystes de données.
Vous perdez un temps précieux si les utilisateurs des données doivent savoir comment demander l'accès aux données, attendre sans délai de réponse défini, escalader, puis attendre à nouveau.
Sans les bons outils, les défis deviennent un obstacle majeur à l'utilisation efficace des données. Data Catalog fournit un emplacement centralisé qui permet aux entreprises d'atteindre les objectifs suivants:
- bénéficier d'une vue unifiée afin de réduire les difficultés liées à la recherche des données appropriées ;
- Facilitez la prise de décision basée sur les données et accélérez la génération d'insights en enrichissant les données avec des métadonnées techniques et commerciales.
- améliorer la gestion des données pour améliorer l'efficacité opérationnelle et la productivité ;
- revendiquer la propriété des données pour améliorer la confiance à l'égard de celles-ci.
Fonctions Data Catalog
Data Catalog fournit trois fonctions principales:
- Rechercher les entrées de données auxquelles vous avez accès
- Taguer des entrées de données avec des métadonnées
- Assurer la sécurité au niveau des colonnes des tables BigQuery
En outre, Data Catalog peut s'appuyer sur les résultats d'une analyse de la protection des données sensibles pour identifier les données sensibles directement dans Data Catalog sous la forme de modèles de tag.
Fonctionnement de Data Catalog
Data Catalog peut cataloguer des métadonnées d'éléments provenant de différents systèmes Google Cloud.
Vous pouvez également utiliser les API Data Catalog pour intégrer des sources de données personnalisées.
Une fois vos données cataloguées, vous pouvez ajouter vos propres métadonnées à ces éléments à l'aide de tags.

Métadonnées Data Catalog
Data Catalog gère deux types de métadonnées : les métadonnées techniques et les métadonnées commerciales. Pour en savoir plus sur les métadonnées, consultez la page Métadonnées Data Catalog.
Recherche et découverte
Data Catalog offre une expérience de recherche performante basée sur un prédicat pour les métadonnées techniques et commerciales associées à une entrée de données. Vous devez disposer des autorisations nécessaires pour lire les métadonnées d'une entrée de données afin de pouvoir appliquer la recherche et la découverte aux métadonnées. Data Catalog n'indexe pas les données d'une entrée de données. Data Catalog n'indexe que les métadonnées qui décrivent un élément.
Data Catalog contrôle certaines métadonnées telles que les tags générés par l'utilisateur. Pour toutes les métadonnées provenant du système de stockage sous-jacent, Data Catalog est un service en lecture seule qui reflète les métadonnées et les autorisations fournies par le système de stockage sous-jacent. Vous pouvez apporter des modifications dans le système de stockage sous-jacent pour ajouter, mettre à jour ou supprimer les métadonnées d'une entrée de données.
Pour en savoir plus sur la recherche dans Data Catalog, consultez Rechercher des éléments de données avec Data Catalog.
Catalogue automatique d'éléments
Pour un projet donné, Data Catalog répertorie automatiquement les éléments Google Cloud suivants :
- Ensembles de données associés à Analytics Hub
- Ensembles de données, tables, modèles, routines et connexions BigQuery
- Lacs, zones, tables et ensembles de fichiers Dataplex
- Services, bases de données et tables Dataproc Metastore
- Sujets Pub/Sub
- Instances, clusters et tables Bigtable (y compris les détails des familles de colonnes)
- Modèles Vertex AI et ensembles de données
- (Aperçu): Instances, bases de données, tables et vues Spanner
En plus de cataloguer les éléments dans les ID de projet pour lesquels vous avez accès aux métadonnées, Data Catalog peut cataloguer les données stockées dans les projets BigQuery qui contiennent des ensembles de données publics.
Cataloguer les éléments autres que Google Cloud
Pour cataloguer les métadonnées des systèmes autres que Google Cloud de votre organisation, vous pouvez utiliser les méthodes suivantes:
- Connecteurs fournis par la communauté vers plusieurs sources de données sur site populaires
- Compiler manuellement sur les API Data Catalog pour les entrées personnalisées
Accéder à Data Catalog
Vous pouvez accéder aux fonctionnalités de Data Catalog de plusieurs façons:
Dataplex dans la console Google Cloud
Interface de ligne de commande (CLI)
gcloud
Étapes suivantes
Pour commencer à utiliser l'ajout de tags dans Data Catalog, consultez la page Créer des modèles de tag, des balises, des présentations et des responsables des données.
Pour commencer à utiliser la recherche dans Data Catalog, consultez Rechercher et afficher des éléments de données avec Data Catalog.
Pour intégrer vos sources de données, suivez la procédure décrite dans la section Intégrer des sources de données Google Cloud et sur site.