Ajouter une zone

Cette page présente les zones et explique comment en ajouter à votre lac Dataplex.

Concepts des zones Dataplex

Les zones de données sont des entités nommées dans un lac Dataplex. Il s'agit de regroupements logiques de données non structurées, semi-structurées et structurées constitués de plusieurs éléments, tels que des buckets Cloud Storage, des ensembles de données BigQuery et des tables BigQuery.

Un lac peut inclure une ou plusieurs zones. Bien qu'une zone ne puisse faire partie que d'un seul lac, elle peut contenir des éléments qui pointent vers des ressources faisant partie de projets situés en dehors de son projet parent.

Vous pouvez sélectionner des configurations pour une zone dans Dataplex. Vous pouvez choisir parmi deux types de zones: les zones brutes et les zones sélectionnées.

Zones brutes

Les zones brutes stockent des données structurées, des données semi-structurées telles que des fichiers CSV et JSON, ainsi que des données non structurées dans n'importe quel format provenant de sources externes. Cela est utile pour la préproduction des données brutes avant d'effectuer des transformations. Les données peuvent être stockées dans des buckets Cloud Storage ou des ensembles de données BigQuery.

Les zones brutes sont compatibles avec la précision au niveau du bucket ou de l'ensemble de données pour les autorisations de lecture et d'écriture. Pour en savoir plus, consultez la page IAM et contrôle des accès.

Il n'existe aucune restriction sur le type de données pouvant être stockées dans des zones brutes.

Zones sélectionnées

Les zones sélectionnées stockent des données structurées. Les données peuvent être stockées dans des buckets Cloud Storage ou des ensembles de données BigQuery.

Les formats acceptés pour les buckets Cloud Storage incluent Parquet, Avro et ORC. Cela est utile pour la préproduction de données nécessitant un traitement avant d'être utilisées à des fins d'analyse, ou pour la diffusion de données prêtes à être analysées.

Pour les tables BigQuery, vous devez disposer d'un schéma bien défini et de partitions de style Hive. Lorsque vous fournissez un schéma pour une table donnée dans une zone sélectionnée, les données doivent être conformes au schéma défini pour la table sans dérive de schéma.

Cela signifie que les données doivent être compatibles avec le schéma défini pour la table, et que les nouvelles partitions ne doivent pas avoir de schéma en conflit avec le schéma de la table.

Les zones sélectionnées sont compatibles avec la précision au niveau du bucket Cloud Storage ou de l'ensemble de données BigQuery pour les autorisations de lecture et d'écriture. Pour en savoir plus, consultez la page Contrôle des accès avec IAM.

Avant de commencer

Pour pouvoir ajouter des zones à un lac, vous devez disposer d'un lac. Si vous ne l'avez pas déjà fait, créez un lac.

La plupart des commandes gcloud lake nécessitent un emplacement. Vous pouvez spécifier l'emplacement en définissant le paramètre --location.

Contrôle des accès

  • Pour ajouter une zone, vous devez disposer de rôles IAM contenant l'autorisation IAM dataplex.lakes.create. Le rôle spécifique à Dataplex roles/dataplex.admin peut être utilisé pour accorder des autorisations d'ajout.

Pour en savoir plus, consultez la page Contrôle des accès Dataplex avec IAM.

Ajouter une zone

Vous pouvez créer et ajouter une zone à un lac existant en exécutant la méthode d'API Dataplex lakes.zones.create ou en ajoutant une zone dans la console Google Cloud.

Vous pouvez ajouter plusieurs zones à votre lac. Vous pouvez ajouter une zone à la fois, mais continuer à utiliser votre lac pendant la création de la zone.

Console

  1. Dans la console Google Cloud, accédez à Dataplex:

    Accéder à Dataplex

  2. Accédez à la vue Gérer.

  3. Dans la vue Manage (Gérer), cliquez sur le nom du lac auquel vous souhaitez ajouter une zone.

  4. Dans l'onglet Zones, cliquez sur Ajouter une zone.

  5. Saisissez un Nom à afficher pour votre zone.

  6. Cliquez sur la liste déroulante Type. Sélectionnez Zone brute ou Zone sélectionnée. Apprenez-en plus sur les types de zones compatibles.

  7. Facultatif: saisissez une description.

  8. Sous Emplacements des données, sélectionnez Régional ou Multirégional. Ce que vous choisissez ne peut pas être modifié par la suite. Les données régionales et multirégionales ne peuvent pas être mélangées dans la même zone.

  9. (Facultatif) Activez la découverte de métadonnées, ce qui permet à Dataplex d'analyser et d'extraire automatiquement les métadonnées des données de votre zone :

    1. Cliquez sur Paramètres de découverte.

    2. Assurez-vous que l'option Activer la découverte de métadonnées est sélectionnée.

    3. Facultatif: Sous Inclure des modèles, répertoriez les fichiers à inclure dans les analyses de découverte.

    4. Facultatif: Sous Exclure des modèles, répertoriez les fichiers à exclure des analyses de découverte. Si vous saisissez à la fois des modèles d'inclusion et d'exclusion, les modèles d'exclusion sont appliqués en premier.

    5. Cliquez sur le menu déroulant Répétition, puis sélectionnez une fréquence.

    6. Cliquez sur la liste déroulante Fuseau horaire et sélectionnez un fuseau horaire.

    7. Si vous avez sélectionné Personnalisé sous Répétition, sous Programmation, saisissez un planning de tâche. Sinon, la valeur du champ Planning est automatiquement renseignée.

  10. Cliquez sur Créer.

La création de la zone peut prendre quelques minutes.

REST

Suivez les instructions de l'API pour ajouter une zone à l'aide d'APIs Explorer.

Une fois la zone créée, elle passe automatiquement à l'état actif. En cas d'échec, le lac est restauré à son état précédent.

Une fois la zone créée, vous pouvez mapper les données stockées dans des buckets Cloud Storage et des ensembles de données BigQuery en tant qu'éléments dans votre zone.

Étape suivante