Ce document fournit des conseils et des bonnes pratiques pour utiliser Dataplex.
Choisir un projet pour votre lac
Lorsque vous sélectionnez le projet dans lequel héberger votre lac, tenez compte des facteurs suivants:
Le projet doit appartenir au même périmètre VPC Service Controls que les données destinées à se trouver dans le lac.
Le compte de service de lac nécessite des autorisations d'administrateur sur les buckets Cloud Storage ou les ensembles de données BigQuery. Dataplex crée des tables externes dans BigQuery pour les tables détectées dans Cloud Storage. Dataplex rend également disponibles les métadonnées des table BigQuery et les tables détectées dans le bucket Cloud Storage, dans un Dataproc Metastore. Dataproc Metastore est situé dans le projet de lac de données.
Paramètres et limites de Cloud Storage
Région: Dataplex accepte actuellement les buckets situés dans une seule région et plusieurs régions dans certaines régions Google Cloud.
Classe de stockage: les buckets Cloud Storage de toutes les classes de stockage sont acceptés (Standard, Nearline, Coldline et Archive). Des coûts supplémentaires de récupération des données peuvent s'appliquer à l'accès aux données Nearline, Coldline ou Archive ou à leur analyse.
LCA de bucket: Dataplex n'accepte les buckets Cloud Storage qu'avec des contrôles d'accès uniformes. Il n'est actuellement pas possible de contrôler précisément les accès.
Paiements du demandeur: les buckets Cloud Storage pour lesquels la fonctionnalité de paiements du demandeur est activée ne sont actuellement pas compatibles.
Conseils sur la sécurité et les autorisations
Dataplex nécessite d'ajouter les comptes de service Dataplex en tant que compte de service d'administration sur des buckets et des ensembles de données gérés.
Dataplex permet aux analystes d'accéder aux buckets Cloud Storage et aux ensembles de données BigQuery sur de nombreux projets. Pour activer cet accès, Dataplex nécessite d'ajouter à ces projets les comptes de service Dataplex disposant de contrôles d'administration.
Pour Discovery, Dataplex ajoute le compte de service Dataproc Metastore aux buckets Cloud Storage. Si vous disposez de votre propre cluster Dataproc Metastore, vous pouvez faire en sorte que le lac Dataplex utilise votre service Dataproc Metastore, qui est une option lorsque vous créez votre lac.
Si vous choisissez d'ajouter un bucket Cloud Storage avec un accès précis à un lac, Dataplex fournit un accès complet à ce bucket via le lac, car les autorisations Dataplex sont propagées à tous les objets du bucket. Si vous avez besoin d'un accès précis, nous vous recommandons de diviser les données de votre bucket en plusieurs buckets.