Bonnes pratiques concernant Dataplex

Ce document fournit des conseils et des bonnes pratiques concernant l'utilisation de Dataplex.

Choisissez un projet pour votre lac

Lorsque vous sélectionnez le projet dans lequel héberger votre lac, tenez compte des facteurs suivants:

  • Le projet doit appartenir au même périmètre VPC Service Controls que les données destinées à se trouver dans le lac.

  • Le compte de service du lac nécessite des autorisations d'administrateur sur les buckets Cloud Storage ou les ensembles de données BigQuery. Dataplex crée des tables externes dans BigQuery pour les tables découvertes dans Cloud Storage. Dataplex rend également disponibles les métadonnées de table BigQuery et les tables découvertes dans le bucket Cloud Storage, dans un Dataproc Metastore. Dataproc Metastore se trouve dans le projet de lac de données.

Paramètres et limites de Cloud Storage

  • Région: Dataplex est compatible avec les buckets régionaux et multirégionaux dans certaines régions Google Cloud.

  • Classe de stockage: les buckets Cloud Storage sont compatibles avec toutes les classes de stockage (Standard, Nearline, Coldline et Archive). Des coûts de récupération de données supplémentaires peuvent s'appliquer pour accéder aux données Nearline, Coldline ou Archive, ou les analyser.

  • LCA de bucket: Dataplex n'est compatible qu'avec les buckets Cloud Storage grâce à des contrôles d'accès uniformes. Les contrôles ultraprécis des accès ne sont pas acceptés.

  • Paiements du demandeur: les buckets Cloud Storage pour lesquels la fonctionnalité de paiements du demandeur est activée ne sont pas acceptées.

Conseils sur la sécurité et les autorisations

Dataplex nécessite l'ajout des comptes de service Dataplex en tant que compte de service d'administration sur les buckets et les ensembles de données gérés.

Dataplex permet aux analystes d'accéder aux buckets Cloud Storage et aux ensembles de données BigQuery Pour activer cet accès, Dataplex nécessite d'ajouter à ces projets les comptes de service Dataplex dotés de commandes d'administration.

Pour la découverte, Dataplex ajoute le compte de service Dataproc Metastore aux buckets Cloud Storage. Si vous disposez de votre propre cluster Dataproc Metastore, vous pouvez faire en sorte que le lac Dataplex utilise votre service Dataproc Metastore, qui est une option disponible lors de la création de votre lac.

Si vous choisissez d'ajouter un bucket Cloud Storage avec un accès précis à un lac, Dataplex fournira un accès complet à ce bucket via le lac, car les autorisations Dataplex sont propagées à tous les objets du bucket. Si vous avez besoin d'un accès précis, nous vous recommandons de scinder les données de votre bucket en plusieurs buckets.

Étapes suivantes