Synchroniser Dataproc Metastore avec Data Catalog

Ce document explique comment synchroniser les métadonnées Dataproc Metastore avec Data Catalog.

Après avoir synchronisé ces deux services, vous pouvez gérer vos métadonnées Dataproc Metastore à l'aide de Data Catalog. Par exemple, à l'aide de Data Catalog, vous pouvez ajouter des tags et rechercher des ressources Dataproc Metastore spécifiques, telles que des bases de données et des tables.

Qu'est-ce que Data Catalog ?

Data Catalog est un service de gestion des métadonnées entièrement géré et évolutif. Elle fournit des mécanismes de vue et d'ajout de tags unifiés pour les métadonnées techniques et commerciales.

Pour plus d'informations, consultez les guides de fonctionnalités de Data Catalog suivantes:

Avant de commencer

Rôles requis

Pour obtenir les autorisations dont vous avez besoin pour synchroniser les métadonnées Dataproc Metastore avec Data Catalog, demandez à votre administrateur de vous attribuer le rôle IAM Afficher les entrées Dataproc Metastore synchronisées dans Data Catalog (roles/metastore.metadataViewer) pour votre projet, sur la base du principe du moindre privilège. Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Ce rôle prédéfini contient les autorisations requises pour synchroniser les métadonnées Dataproc Metastore avec Data Catalog. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour synchroniser les métadonnées Dataproc Metastore avec Data Catalog:

  • Pour obtenir les bases de données Dataproc Metastore, procédez comme suit : metastore.databases.get
  • Pour répertorier les bases de données Dataproc Metastore, procédez comme suit : metastore.databases.list
  • Pour obtenir les tables Dataproc Metastore, procédez comme suit : metastore.tables.get
  • Pour répertorier les tables Dataproc Metastore, procédez comme suit : metastore.tables.list

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus sur les rôles et autorisations spécifiques à Dataproc Metastore, consultez la page Gérer les accès avec IAM.

Fonctionnement des autorisations entre les services

Data Catalog respecte les autorisations au niveau de Dataproc Metastore. Pour les métadonnées synchronisées depuis Dataproc Metastore vers Data Catalog, les autorisations IAM spécifiées dans Dataproc Metastore s'appliquent également aux métadonnées de Data Catalog.

Data Catalog vérifie les autorisations de chaque base de données et table de métastore au moment de l'accès, de sorte que seuls les utilisateurs ayant accès au service Dataproc Metastore puissent voir les ressources de service synchronisées sous forme d'entrées dans Data Catalog.

Fonctionnement de la synchronisation de Data Catalog avec Dataproc Metastore

Vous pouvez activer la synchronisation Dataproc Metastore avec Data Catalog lorsque vous créez ou mettez à jour un service Dataproc Metastore à l'aide de la console Google Cloud. Vous pouvez désactiver la synchronisation de la même manière.

Une fois la synchronisation Data Catalog activée, les métadonnées des bases de données et des tables sont automatiquement synchronisées de Dataproc Metastore vers Data Catalog.

Data Catalog synchronise les métadonnées suivantes:

  • Instances.
  • Bases de données, y compris leur nom et leur description.
  • Tables, y compris le nom, la description et le schéma (colonnes avec descriptions).

Le tableau suivant présente le mappage des ressources entre Dataproc Metastore et Data Catalog:

Ressource Dataproc Metastore Ressource Data Catalog
Instance Groupe d'entrées
Entrée
Base de données Entrée
Table Entrée
Colonne Schéma

Remarques

  • Il peut s'écouler jusqu'à six heures avant que les métadonnées Dataproc Metastore ne soient entièrement synchronisées avec Data Catalog. Une fois la synchronisation initiale terminée, les modifications incrémentielles sont synchronisées à la demande (telles que les mises à jour de tables ou de bases de données). Si une synchronisation à la demande échoue, elle est incluse dans une réexécution groupée qui a lieu toutes les six heures.

  • Si vous suspectez un problème de synchronisation, vérifiez les journaux de publication de métadonnées dans Dataproc Metastore Cloud Logging avec le filtre textPayload=~".*Publish.*". Pour en savoir plus sur l'accès aux journaux, consultez la page Accéder aux journaux de tâches dans Logging.

  • Si vous désactivez la synchronisation Data Catalog, vos métadonnées ne seront plus synchronisées entre Dataproc Metastore et Data Catalog. Toutefois, les métadonnées déjà synchronisées restent dans Data Catalog.

  • Si vous supprimez une instance Dataproc Metastore, les entrées de table, instances et base de données correspondantes sont également supprimées de Data Catalog.

  • Les métadonnées Dataproc Metastore stockées dans Data Catalog respectent les durées de conservation standards de Google Cloud.

  • L'activation de la synchronisation Data Catalog pour Dataproc Metastore n'entraîne aucun coût supplémentaire.

Créer un service avec la synchronisation Data Catalog activée

La synchronisation avec Data Catalog est désactivée par défaut.

Pour activer la synchronisation Data Catalog pour un nouveau service, suivez les instructions ci-dessous.

Console

  1. Dans la console Google Cloud, ouvrez la page "Dataproc Metastore" :

    Accéder à Dataproc Metastore

  2. En haut de la page Dataproc Metastore, cliquez sur Créer.

    La page Créer un service s'ouvre.

  3. Sélectionnez la version de Dataproc Metastore que vous souhaitez utiliser.

  4. Sous Intégration des métadonnées, cliquez sur Synchronisation Data Catalog.

  5. Pour les autres options de configuration de service, utilisez les valeurs par défaut fournies. Vous pouvez également configurer votre service selon vos besoins.

  6. Cliquez sur Envoyer.

Activer ou désactiver la synchronisation Data Catalog pour un service existant

Pour activer ou désactiver la synchronisation Data Catalog pour un service existant, suivez les instructions ci-dessous.

Console

  1. Dans la console Google Cloud, ouvrez la page "Dataproc Metastore" :

    Accéder à Dataproc Metastore

  2. Sur la page Dataproc Metastore, cliquez sur le service que vous souhaitez mettre à jour.

    La page Détails du service correspondant s'ouvre.

  3. Dans l'onglet Configuration, cliquez sur Modifier.

    La page Modifier le service s'ouvre.

  4. Sous Intégration des métadonnées, activez ou désactivez l'option Synchronisation Data Catalog.

  5. Cliquez sur Envoyer.

Effectuer des recherches avec Data Catalog

Vous pouvez rechercher des métadonnées Dataproc Metastore synchronisées à l'aide de Data Catalog.

Bien qu'il n'existe pas d'options de recherche personnalisées pour Dataproc Metastore, il existe plusieurs façons de rechercher différentes ressources Dataproc Metastore, y compris les suivantes:

  • Instance Dataproc Metastore
    • Par nom à afficher
    • les fonctions Data Catalog standards, par exemple à l'aide de tags ;
  • Base de données
    • Par nom à afficher
    • Par description
    • Par instance Dataproc Metastore
    • les fonctions Data Catalog standards, par exemple à l'aide de tags ;
  • Tableau
    • Par nom à afficher
    • Par description
    • Par nom de colonne
    • Par description de colonne
    • Par base de données
    • Par instance Dataproc Metastore
    • les fonctions Data Catalog standards, par exemple à l'aide de tags ;

Étapes suivantes