Bonnes pratiques concernant Dataplex

Ce document fournit des conseils et des bonnes pratiques Dataplex

Choisissez un projet pour votre lac

Lorsque vous sélectionnez le projet dans lequel héberger votre lac, tenez compte des éléments suivants facteurs suivants:

  • Le projet doit appartenir au même Périmètre VPC Service Controls que les données destinées à se trouver dans le lac.

  • Le compte de service du lac nécessite des autorisations d'administrateur sur des buckets Cloud Storage ou des ensembles de données BigQuery. Dataplex crée des tables externes dans BigQuery pour découvertes dans Cloud Storage. Dataplex facilite également les métadonnées de table BigQuery disponibles et les tables découvertes Bucket Cloud Storage, dans un Dataproc Metastore. La Dataproc Metastore se trouve dans le projet de lac de données.

Paramètres et limites de Cloud Storage

  • Région: Dataplex est compatible avec les requêtes des buckets multirégionaux dans certaines régions Google Cloud.

  • Classe de stockage: les buckets Cloud Storage classes de stockage sont compatibles (Standard, Nearline, Coldline, Archive). Des coûts de récupération de données supplémentaires peuvent s'appliquer pour l'accès ou l'analyse Données Nearline, Coldline ou Archive

  • LCA de bucket: Dataplex est compatible avec les buckets Cloud Storage avec contrôles d'accès uniformes uniquement. Les contrôles ultraprécis des accès ne sont pas acceptés.

  • Paiements par le demandeur: les buckets Cloud Storage ayant la fonctionnalité de paiements du demandeur activée sont non pris en charge.

Conseils sur la sécurité et les autorisations

Dataplex nécessite l'ajout comptes de service en tant que compte de service d'administration sur les buckets et les ensembles de données gérés.

Dataplex permet aux analystes d'accéder aux buckets Cloud Storage et BigQuery dans de nombreux projets. Pour activer cet accès, Dataplex nécessite l'ajout du service Dataplex disposant de commandes d'administration.

Pour la découverte, Dataplex ajoute Compte de service Dataproc Metastore sur Cloud Storage Cloud Storage. Si vous disposez de votre propre cluster Dataproc Metastore, vous pouvez faire en sorte que le lac Dataplex utilise Le service Dataproc Metastore, qui est une option votre lac.

Si vous choisissez d'ajouter un bucket Cloud Storage avec un accès précis à un lac, Dataplex fournira un accès complet à ce bucket via le lac car les autorisations Dataplex sont propagées à tous les objets bucket. Si vous avez besoin d'un accès précis, nous vous recommandons de diviser les données de votre bucket en plusieurs buckets.

Étape suivante