Intégrer vos sources de données à Data Catalog

Data Catalog peut importer et mettre à jour des métadonnées à partir de plusieurs sources de données Google Cloud, ainsi que de nombreuses sources sur site courantes.

Une fois les métadonnées ingérées, Data Catalog effectue les opérations suivantes :

  • Rend les métadonnées existantes visibles via la recherche. Pour en savoir plus, consultez la page Effectuer une recherche.
  • Permet aux membres de votre organisation d'enrichir vos données avec des métadonnées métier supplémentaires via des tags. Pour en savoir plus, consultez la page Tags et modèles de tags.

Bien que l'intégration aux sources Google Cloud soit automatique, si vous souhaitez intégrer des sources personnalisées sur site que votre organisation utilise, vous pouvez effectuer les opérations suivantes :

Avant de commencer

Si vous utilisez déjà Data Catalog, vous devez déjà disposer d'un projet dans lequel l'API Data Catalog est activée. Pour en savoir plus sur la manière recommandée d'utiliser plusieurs projets avec Data Catalog, consultez la page Utiliser des modèles de tags dans plusieurs projets.

Si vous interagissez avec Data Catalog pour la première fois, procédez comme suit :

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  4. Activez l'API Data Catalog

    Activer l'API

  5. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  6. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  7. Activez l'API Data Catalog

    Activer l'API

Intégrer des sources de données Google Cloud

Analytics Hub

Lorsque vous vous abonnez à une fiche dans Analytics Hub, un ensemble de données associé est créé dans votre projet. Data Catalog génère automatiquement des entrées de métadonnées pour cet ensemble de données associé et toutes les tables qu'il contient. Pour en savoir plus sur les ensembles de données associés et les autres fonctionnalités d'Analytics Hub, consultez Présentation d'Analytics Hub.

Dans la recherche Data Catalog, les ensembles de données associés sont affichés en tant qu'ensembles de données BigQuery standards, mais vous pouvez les filtrer à l'aide du prédicat type=dataset.linked. Pour en savoir plus, consultez Rechercher des éléments de données.

BigQuery et Pub/Sub

Si votre organisation utilise déjà BigQuery et Pub/Sub, vous pouvez immédiatement rechercher les métadonnées à partir de ces sources, en fonction de vos autorisations. Si vous ne voyez pas les entrées correspondantes dans les résultats de recherche, recherchez les rôles IAM dont vous et les utilisateurs de votre projet pourriez avoir besoin sur la page Gestion de l'authentification et des accès.

Protection des données sensibles

De plus, Data Catalog s'intègre à la protection des données sensibles, qui vous permet d'analyser des ressources Google Cloud spécifiques à la recherche de données sensibles et de renvoyer les résultats à Data Catalog sous forme de tags.

Pour en savoir plus, consultez la page Envoyer les résultats des analyses liées à la protection des données sensibles à Data Catalog.

Bigtable

Lorsque vous stockez des données dans Bigtable, les métadonnées sont automatiquement synchronisées avec Data Catalog pour les ressources Bigtable suivantes:

  • Instances
  • Tables, y compris les détails des familles de colonnes

Pour obtenir des conseils sur l'utilisation de Data Catalog pour la découverte de données et l'ajout de tags, consultez la page Gérer des éléments de données à l'aide de Data Catalog dans la documentation Bigtable.

Spanner (preview)

Lorsque vous stockez des données dans Spanner, les métadonnées des ressources Spanner suivantes sont synchronisées avec Data Catalog:

  • Instances
  • Bases de données
  • Tables et vues avec schéma de colonne

Pour obtenir des conseils sur l'utilisation de Data Catalog pour la découverte de données et l'ajout de tags, consultez la page Gérer des éléments de données à l'aide de Data Catalog.

Dataproc Metastore

Pour effectuer l'intégration à Dataproc Metastore, activez la synchronisation avec Data Catalog pour les services nouveaux ou existants, comme décrit dans la section Activer la synchronisation de Data Catalog.

Vertex AI

Vertex AI synchronise les métadonnées des ressources suivantes avec Data Catalog:

Intégrer des sources de données sur site

Pour intégrer des sources de données sur site, vous pouvez utiliser les connecteurs Python correspondants fournis par la communauté :

  1. Recherchez votre source de données dans le tableau ci-dessous.
  2. Ouvrez le dépôt GitHub correspondant.
  3. Suivez les instructions de configuration du fichier README.
Catégorie Composant Description Dépôt
SGBDR mysql-connector Exemple de code pour une source de données MySQL google-datacatalog-mysql-connector
postgresql-connector Exemple de code pour une source de données PostgreSQL google-datacatalog-postgresql-connector
sqlserver-connector Exemple de code pour une source de données SQL Server google-datacatalog-sqlserver-connector
redshift-connector Exemple de code pour une source de données Redshift google-datacatalog-redshift-connector
oracle-connector Exemple de code pour une source de données Oracle google-datacatalog-oracle-connector
teradata-connector Exemple de code pour une source de données Teradata google-datacatalog-teradata-connector
vertica-connector Exemple de code pour une source de données Vertica google-datacatalog-vertica-connector
greenplum-connector Exemple de code pour une source de données Greenplum google-datacatalog-greenplum-connector
rdbmscsv-connector Exemple de code pour l'ingestion CSV standard de SGBDR google-datacatalog-rdbmscsv-connector
saphana-connector Exemple de code pour une source de données SAP HANA google-datacatalog-saphana-connector
BI looker-connector Exemple de code pour une source de données Looker google-datacatalog-looker-connector
qlik-connector Exemple de code pour une source de données Qlik Sense google-datacatalog-qlik-connector
tableau-connector Exemple de code pour une source de données Tableau google-datacatalog-tableau-connector
Hive hive-connector Exemple de code pour une source de données Hive google-datacatalog-hive-connector
apache-atlas-connector Exemple de code pour une source de données Apache Atlas google-datacatalog-apache-atlas-connector

Intégrer des sources de données non compatibles

Si vous ne trouvez pas de connecteur pour votre source de données, vous pouvez toujours l'intégrer manuellement en créant des groupes d'entrées et des entrées personnalisées. Pour ce faire, vous pouvez procéder comme suit :

Pour intégrer vos sources, commencez par lire l'article suivant : Entrées et groupes d'entrées, puis suivez les instructions de la page Créer des entrées Data Catalog personnalisées pour vos sources de données.

Étapes suivantes