Ce document explique ce que sont les zones Dataplex et comment les ajouter à votre lac Dataplex.
Présentation
Les zones Dataplex sont des entités nommées dans un lac Dataplex. Il s'agit de regroupements logiques de données non structurées, semi-structurées et structurées, composés de plusieurs composants, tels que des buckets Cloud Storage, des ensembles de données BigQuery et des tables BigQuery.
Un lac peut inclure une ou plusieurs zones. Bien qu'une zone ne puisse faire partie que d'un seul lac, elle peut contenir des éléments qui pointent vers des ressources appartenant à des projets en dehors de son projet parent.
Vous pouvez sélectionner des configurations pour une zone dans Dataplex. Vous avez le choix entre deux types de zones: brutes et organisées.
Zones brutes
Les zones brutes stockent des données structurées, des données semi-structurées telles que des fichiers CSV et des fichiers JSON, ainsi que des données non structurées dans n'importe quel format provenant de sources externes. Les zones brutes sont utiles pour mettre en scène des données brutes avant d'effectuer des transformations. Les données peuvent être stockées dans des buckets Cloud Storage ou des ensembles de données BigQuery.
Les zones brutes acceptent une précision au niveau du bucket ou de l'ensemble de données pour les autorisations de lecture et d'écriture. Aucune restriction ne s'applique au type de données pouvant être stockées dans les zones brutes.
Zones organisées
Les zones sélectionnées stockent des données structurées. Les données peuvent être stockées dans des buckets Cloud Storage ou des ensembles de données BigQuery.
Les formats compatibles avec les buckets Cloud Storage incluent Parquet, Avro et ORC. Les zones sélectionnées sont utiles pour mettre en scène des données qui nécessitent un traitement avant d'être utilisées pour l'analyse ou pour diffuser des données prêtes à être analysées.
Pour les tables BigQuery, vous devez disposer d'un schéma bien défini et de partitions de style Hive. Lorsque vous fournissez un schéma pour une table donnée dans une zone sélectionnée, les données doivent se conformer au schéma défini pour la table sans dérive de schéma. Cela signifie que les données doivent être compatibles avec le schéma défini pour la table, et que les nouvelles partitions ne doivent pas avoir de schéma en conflit avec celui de la table.
Les zones sélectionnées acceptent la granularité au niveau du bucket Cloud Storage ou de l'ensemble de données BigQuery pour les autorisations de lecture et d'écriture.
Avant de commencer
Avant de pouvoir ajouter des zones à un lac, vous devez en avoir un. Si vous ne l'avez pas déjà fait, créez un lac.
La plupart des commandes gcloud lake
nécessitent un emplacement. Vous pouvez spécifier l'emplacement en définissant le paramètre --location
.
Rôles requis
Pour obtenir l'autorisation dont vous avez besoin pour ajouter une zone, demandez à votre administrateur de vous accorder le rôle IAM Administrateur Dataplex (roles/dataplex.admin
) sur le projet.
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Ce rôle prédéfini contient l'autorisation dataplex.lakes.create
, qui est requise pour ajouter une zone.
Vous pouvez également obtenir cette autorisation avec des rôles personnalisés ou d'autres rôles prédéfinis.
Ajouter une zone
Vous pouvez ajouter plusieurs zones à votre lac. Vous pouvez ajouter une zone à la fois, mais continuer à utiliser votre lac pendant la création de la zone.
Pour ajouter une zone à un lac existant, procédez comme suit:
Console
Dans la console Google Cloud , accédez à Dataplex.
Accédez à la vue Gérer.
Dans la vue Gérer, cliquez sur le nom du lac auquel vous souhaitez ajouter une zone.
Dans l'onglet Zones, cliquez sur
Ajouter une zone.Saisissez un nom à afficher pour votre zone.
Cliquez sur le menu Type. Sélectionnez Zone brute ou Zone de données organisées. En savoir plus sur les types de zones acceptés
Facultatif: saisissez une description.
Sous Emplacements des données, sélectionnez Régional ou Multirégional. Vous ne pourrez plus modifier votre choix par la suite. Il n'est pas possible de mélanger des données régionales et multirégionales dans la même zone.
Facultatif: Activez la découverte des métadonnées, qui permet à Dataplex d'analyser et d'extraire automatiquement les métadonnées des données de votre zone:
Cliquez sur Paramètres de découverte.
Assurez-vous que l'option Activer la découverte de métadonnées est sélectionnée.
Facultatif: Sous Inclure des modèles, listez les fichiers à inclure dans les analyses de découverte.
Facultatif: Sous Exclure les modèles, listez les fichiers à exclure des analyses de découverte. Si vous saisissez à la fois des modèles d'inclusion et d'exclusion, les modèles d'exclusion sont appliqués en premier.
Cliquez sur le menu Répétions, puis sélectionnez une fréquence. Si vous sélectionnez Personnalisé, saisissez une planification de tâche dans le champ Planification. Sinon, la valeur Schedule (Planifier) est renseignée automatiquement.
Cliquez sur le menu Fuseau horaire, puis sélectionnez un fuseau horaire.
Cliquez sur Créer.
REST
Pour ajouter une zone, utilisez la méthode lakes.zones.create.
La création de la zone peut prendre quelques minutes.
Une fois la création de la zone réussie, elle passe automatiquement à l'état Actif. En cas d'échec, le lac est rétabli à son état précédent.
Une fois que vous avez créé votre zone, vous pouvez mapper les données stockées dans des buckets Cloud Storage et des ensembles de données BigQuery en tant qu'éléments à votre zone. Pour en savoir plus, consultez la section Ajouter un composant.
Étape suivante
- Découvrez comment gérer des buckets.
- Découvrez comment créer un lac.
- En savoir plus sur Cloud Audit Logging