Synchroniser Dataproc Metastore avec Data Catalog

Ce document explique comment synchroniser les métadonnées Dataproc Metastore avec Data Catalog.

Une fois ces deux services synchronisés, vous pouvez utiliser Data Catalog pour gérer vos métadonnées Dataproc Metastore. Par exemple, en utilisant Data Catalog, vous pouvez ajouter des tags et rechercher des Dataproc Metastore spécifiques aux ressources, comme les bases de données et les tables.

Qu'est-ce que Data Catalog ?

Data Catalog est une solution de gestion des métadonnées Google Cloud. Il fournit des mécanismes unifiés de visualisation et d'ajout de tags pour les métadonnées techniques et métier.

Pour plus d'informations, consultez les guides de fonctionnalités de Data Catalog suivantes:

Avant de commencer

Rôles requis

Pour obtenir les autorisations dont vous avez besoin pour synchroniser les métadonnées Dataproc Metastore avec Data Catalog, demandez à votre administrateur de vous accorder le rôle IAM Afficher les entrées Dataproc Metastore synchronisées dans Data Catalog (roles/metastore.metadataViewer) sur votre projet, conformément au principe du moindre privilège. Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Ce rôle prédéfini contient les autorisations requises pour synchroniser les métadonnées Dataproc Metastore avec Data Catalog. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour synchroniser les métadonnées Dataproc Metastore avec Data Catalog :

  • Pour obtenir des bases de données Dataproc Metastore, procédez comme suit: metastore.databases.get
  • Pour lister les bases de données Dataproc Metastore : metastore.databases.list
  • Pour obtenir des tables Dataproc Metastore : metastore.tables.get
  • Pour répertorier les tables Dataproc Metastore, procédez comme suit: metastore.tables.list

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus sur les rôles et les autorisations spécifiques du métastore Dataproc, consultez Gérer les accès avec IAM.

Fonctionnement des autorisations entre les services

Data Catalog respecte les autorisations au niveau de Dataproc Metastore. Pour les métadonnées synchronisées depuis Dataproc Metastore vers Data Catalog, les autorisations IAM spécifiées dans Dataproc Metastore s'appliquent également aux métadonnées de Data Catalog.

Data Catalog vérifie les autorisations pour chaque base de données et table de métastore au moment de l'accès afin que seuls les utilisateurs ayant accès au service Dataproc Metastore puissent voir les ressources du service synchronisé en tant qu'entrées dans Data Catalog.

Fonctionnement de la synchronisation de Data Catalog avec Dataproc Metastore

Vous pouvez activer la synchronisation Data Catalog pour Dataproc Metastore lorsque vous créez ou mettez à jour un service Dataproc Metastore à l'aide de Google Cloud Console. Vous pouvez désactiver la synchronisation de la même manière.

Une fois la synchronisation de Data Catalog activée, les métadonnées de base de données et de table automatiquement synchronisées de Dataproc Metastore vers Data Catalog.

Data Catalog synchronise les métadonnées suivantes:

  • Instances.
  • Bases de données, y compris le nom et la description
  • Tables, y compris le nom, la description et le schéma (colonnes avec descriptions).

Le tableau suivant présente le mappage des ressources entre Dataproc Metastore et Data Catalog:

Ressource Dataproc Metastore Ressource Data Catalog
Instance Groupe d'entrées
Entrée
Base de données Entrée
Table Entrée
Colonne Schéma

Remarques

  • La synchronisation complète des métadonnées Dataproc Metastore avec Data Catalog peut prendre jusqu'à six heures. Une fois la synchronisation initiale terminée, les modifications incrémentielles sont synchronisées à la demande (par exemple, les mises à jour de table ou de base de données). Si une synchronisation à la demande échoue, la synchronisation est incluse dans un lot qui a lieu toutes les 6 heures.

  • Si vous pensez qu'il y a un problème de synchronisation, vérifiez les métadonnées Publier des journaux dans Dataproc Metastore dans Cloud Logging avec le filtre textPayload=~".*Publish.*". Pour en savoir plus sur l'accès aux journaux, consultez la page Accéder aux journaux de tâches dans Logging.

  • Si vous désactivez la synchronisation de Data Catalog, vos métadonnées ne se synchronisent plus depuis Dataproc Metastore vers Data Catalog. Toutefois, les métadonnées déjà synchronisées restent dans Data Catalog.

  • Si vous supprimez une instance Dataproc Metastore, les entrées de table, instances et base de données correspondantes sont également supprimées de Data Catalog.

  • Métadonnées Dataproc Metastore stockées dans Data Catalog respecte les durées de conservation standards de Google Cloud.

  • L'activation de la synchronisation Data Catalog pour Dataproc Metastore n'entraîne aucun coût supplémentaire.

Créer un service avec la synchronisation Data Catalog activée

La synchronisation avec Data Catalog est désactivée par défaut.

Pour activer la synchronisation Data Catalog pour un nouveau service, suivez les instructions ci-dessous.

Console

  1. Dans la console Google Cloud, ouvrez la page "Dataproc Metastore" :

    Accéder à Dataproc Metastore

  2. En haut de la page Dataproc Metastore, cliquez sur Créer.

    La page Créer un service s'ouvre.

  3. Sélectionnez la version de Dataproc Metastore que vous souhaitez utiliser.

  4. Sous Intégration de métadonnées, cliquez sur Synchronisation Data Catalog.

  5. Pour les autres options de configuration du service, utilisez les valeurs par défaut fournies. Vous pouvez également configurer votre service selon vos besoins.

  6. Cliquez sur Envoyer.

Activer ou désactiver la synchronisation Data Catalog pour un service existant

Pour activer ou désactiver la synchronisation Data Catalog pour un service existant, suivez les instructions ci-dessous.

Console

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore:

    Accéder à Dataproc Metastore

  2. Sur la page Dataproc Metastore, cliquez sur le service que vous souhaitez mettre à jour.

    La page Détails du service correspondant à ce service s'ouvre.

  3. Dans l'onglet Configuration, cliquez sur Modifier.

    La page Modifier le service s'ouvre.

  4. Sous Intégration des métadonnées, activez l'option Synchronisation de Data Catalog. s'active ou se désactive.

  5. Cliquez sur Envoyer.

Effectuer des recherches avec Data Catalog

Vous pouvez rechercher des métadonnées Dataproc Metastore synchronisées à l'aide de Data Catalog.

Même s'il n'existe pas d'options de recherche personnalisée pour Dataproc Metastore, il existe plusieurs façons de rechercher différents ressources, y compris les suivantes:

  • Instance Dataproc Metastore
    • Par nom à afficher
    • Fonctions Data Catalog standards (par exemple, à l'aide de tags).
  • Base de données
    • Par nom à afficher
    • Par description
    • Par instance Dataproc Metastore
    • Fonctions Data Catalog standards (par exemple, à l'aide de tags).
  • Tableau
    • Par nom à afficher
    • Par description
    • Par nom de colonne
    • Par description de colonne
    • Par base de données
    • Par instance Dataproc Metastore
    • Fonctions Data Catalog standards, par exemple à l'aide de tags.

Étape suivante