Data Catalog peut importer des métadonnées et les mettre à jour plusieurs sources de données Google Cloud, ainsi que ou sur site.
Une fois les métadonnées ingérées, Data Catalog effectue les opérations suivantes :
- Rend les métadonnées existantes visibles via la recherche. Pour en savoir plus, consultez la page Effectuer une recherche.
- Permet aux membres de votre organisation d'enrichir vos données avec des métadonnées métier supplémentaires via des tags. Pour en savoir plus, consultez la page Tags et modèles de tags.
Bien que l'intégration aux sources Google Cloud soit automatique, à des sources sur site personnalisées utilisées par votre organisation, vous pouvez effectuez l'une des opérations suivantes:
- Configurez et exécutez des connecteurs issus de la communauté.
- Utilisez l'API Data Catalog pour les entrées personnalisées.
Avant de commencer
Si vous utilisez déjà Data Catalog, vous devez déjà disposer d'un projet dans lequel l'API Data Catalog est activée. Pour en savoir plus sur la manière recommandée d'utiliser plusieurs projets avec Data Catalog, consultez la page Utiliser des modèles de tags dans plusieurs projets.
Si vous interagissez avec Data Catalog pour la première fois, procédez comme suit :
- Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activez l'API Data Catalog
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activez l'API Data Catalog
Intégrer des sources de données Google Cloud
Analytics Hub
Lorsque vous vous abonnez à une fiche dans Analytics Hub, un ensemble de données associé est créé dans votre projet. Data Catalog génère automatiquement des entrées de métadonnées pour l'ensemble de données associé et toutes les tables ; qu'il contient. Pour en savoir plus sur les ensembles de données associés et d'autres fonctionnalités Analytics Hub, consultez Présentation d'Analytics Hub
Dans la recherche Data Catalog, les ensembles de données associés sont affichés
les ensembles de données BigQuery standards, mais vous pouvez les filtrer
le prédicat type=dataset.linked
. Pour en savoir plus,
consultez Rechercher des éléments de données.
BigQuery et Pub/Sub
Si votre organisation utilise déjà BigQuery et Pub/Sub, vous pouvez immédiatement rechercher les métadonnées à partir de ces sources, en fonction de vos autorisations. Si vous ne voyez pas les entrées correspondantes dans les résultats de recherche, recherchez les rôles IAM dont vous et les utilisateurs de votre projet pourriez avoir besoin sur la page Gestion de l'authentification et des accès.
Bigtable
Lorsque vous stockez des données dans Bigtable, les métadonnées sont automatiquement synchronisées Data Catalog pour la table Bigtable suivante ressources:
- Instances
- Tables, y compris les détails de la famille de colonnes
Pour obtenir des conseils sur l'utilisation de Data Catalog pour la découverte de données d'ajout de tags, consultez l'article Gérer les éléments de données Data Catalog Documentation Bigtable.
Cloud SQL
Cloud SQL ne s'intègre pas à Data Catalog, à intégrer au catalogue Dataplex. Pour en savoir plus, consultez Intégrez vos sources de données à Dataplex Catalog.
Dataproc Metastore
Pour effectuer l'intégration à Dataproc Metastore, activez la synchronisation avec Data Catalog pour les services nouveaux ou existants, comme décrit dans la section Activer la synchronisation de Data Catalog.
Protection des données sensibles
De plus, Data Catalog s'intègre à la protection des données sensibles vous permet de rechercher des données sensibles dans des ressources Google Cloud spécifiques et les renvoyer à Data Catalog sous forme de tags.
Pour en savoir plus, consultez Envoyer les résultats des analyses pour la protection des données sensibles à Data Catalog
Spanner
Lorsque vous stockez des données dans Spanner, les métadonnées des éléments Spanner suivants ressources sont synchronisées avec Data Catalog:
- Instances
- Bases de données
- Tables et vues avec schéma de colonne
Pour obtenir des conseils sur l'utilisation de Data Catalog pour la découverte de données d'ajout de tags, consultez l'article Gérer les éléments de données Data Catalog
Vertex AI
Vertex AI synchronise les métadonnées des ressources suivantes avec Data Catalog:
- Modèles de registre de modèles
- Ensembles de données
- Instances de boutiques en ligne
- Vues des caractéristiques
- Groupes de caractéristiques
Intégrer des sources de données sur site
Pour intégrer des sources de données sur site, vous pouvez utiliser les connecteurs Python correspondants fournis par la communauté :
- Recherchez votre source de données dans le tableau suivant.
- Ouvrez le dépôt GitHub correspondant.
- Suivez les instructions de configuration du fichier README.
Catégorie | Composant | Description | Dépôt |
---|---|---|---|
SGBDR | mysql-connector | Exemple de code pour une source de données MySQL | google-datacatalog-mysql-connector |
postgresql-connector | Exemple de code pour une source de données PostgreSQL | google-datacatalog-postgresql-connector | |
sqlserver-connector | Exemple de code pour une source de données SQL Server | google-datacatalog-sqlserver-connector | |
redshift-connector | Exemple de code pour une source de données Redshift | google-datacatalog-redshift-connector | |
oracle-connector | Exemple de code pour une source de données Oracle | google-datacatalog-oracle-connector | |
teradata-connector | Exemple de code pour une source de données Teradata | google-datacatalog-teradata-connector | |
vertica-connector | Exemple de code pour une source de données Vertica | google-datacatalog-vertica-connector | |
greenplum-connector | Exemple de code pour une source de données Greenplum | google-datacatalog-greenplum-connector | |
rdbmscsv-connector | Exemple de code pour l'ingestion CSV standard de SGBDR | google-datacatalog-rdbmscsv-connector | |
saphana-connector | Exemple de code pour une source de données SAP HANA | google-datacatalog-saphana-connector | |
BI | looker-connector | Exemple de code pour une source de données Looker | google-datacatalog-looker-connector |
qlik-connector | Exemple de code pour une source de données Qlik Sense | google-datacatalog-qlik-connector | |
tableau-connector | Exemple de code pour une source de données Tableau | google-datacatalog-tableau-connector | |
Hive | hive-connector | Exemple de code pour une source de données Hive | google-datacatalog-hive-connector |
apache-atlas-connector | Exemple de code pour une source de données Apache Atlas | google-datacatalog-apache-atlas-connector |
Intégrer des sources de données non compatibles
Si vous ne trouvez pas de connecteur pour votre source de données, vous pouvez toujours l'intégrer manuellement en créant des groupes d'entrées et des entrées personnalisées. Pour ce faire, vous pouvez procéder comme suit :
- Utilisez l'une des bibliothèques clientes Data Catalog dans l'un des langages suivants : C#, Go, Java, Node.js, PHP, Python ou Ruby.
- Vous pouvez aussi créer manuellement API Data Catalog :
Pour intégrer vos sources, commencez par lire l'article suivant : Entrées et groupes d'entrées, puis suivez les instructions de la page Créer des entrées Data Catalog personnalisées pour vos sources de données.
Étape suivante
- Obtenez plus d'informations sur Identity and Access Management.
- Découvrez comment effectuer une recherche.
- Suivez le guide de démarrage rapide pour ajouter des tags à des tables.