Créer un dépôt Dataform

Ce document explique comment créer un dépôt, définir et modifier le compte de service du dépôt, et supprimer un dépôt dans Dataform.

Lorsque vous créez un dépôt Dataform, vous devez définir les paramètres de dépôt suivants:

ID du dépôt
ID unique du dépôt. Les ID ne peuvent contenir que des chiffres, des lettres, des traits d'union et des traits de soulignement.
Région

Région Dataform pour stocker le dépôt et son contenu.

Cette région de stockage peut être différente de celle où Dataform traite votre code et stocke le résultat des exécutions. Par défaut, la région de traitement est définie sur votre région d'ensemble de données BigQuery par défaut. Vous pouvez modifier la région de traitement dans le fichier dataform.json après avoir créé le dépôt. Pour en savoir plus, consultez Configurer les paramètres Dataform.

Compte de service

Compte de service associé au dépôt. Vous pouvez sélectionner le compte de service Dataform par défaut ou un compte de service associé à votre projet Google Cloud, ou saisir manuellement un autre compte de service. Par défaut, Dataform utilise un compte de service dérivé de votre numéro de projet au format suivant:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Dataform utilise le compte de service par défaut pour toutes les opérations de dépôt. Vous pouvez utiliser un autre compte de service pour exécuter des workflows dans votre dépôt, mais le compte de service par défaut reste utilisé pour toutes les autres opérations du dépôt.

Chiffrement

Méthode de chiffrement du dépôt. Vous pouvez utiliser le chiffrement par défaut ou appliquer une clé de chiffrement Cloud KMS gérée par le client. Pour en savoir plus sur l'utilisation de clés de chiffrement gérées par le client (CMEK) dans Dataform, consultez Utiliser des clés de chiffrement gérées par le client.

Après avoir créé un dépôt, vous pouvez le connecter à GitHub ou GitLab.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  4. Activer les API BigQuery and Dataform.

    Activer les API

  5. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  6. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  7. Activer les API BigQuery and Dataform.

    Activer les API

  8. Pour utiliser le chiffrement CMEK pour le dépôt, activez le chiffrement CMEK des dépôts Dataform.

Rôles requis

Afin d'obtenir les autorisations nécessaires pour créer et supprimer un dépôt, demandez à votre administrateur de vous attribuer le rôle IAM Administrateur Dataform (roles/dataform.admin) pour les dépôts. Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Pour utiliser un compte de service autre que le compte de service Dataform par défaut, accordez l'accès au compte de service personnalisé.

Créer un dépôt

Pour créer un dépôt Dataform, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Dataform.

    Accéder à Dataform

  2. Cliquez sur Créer un dépôt.

  3. Sur la page Créer un dépôt, saisissez un ID unique dans le champ ID du dépôt.

    Les ID ne peuvent contenir que des chiffres, des lettres, des traits d'union et des traits de soulignement.

  4. Dans la liste déroulante Région, sélectionnez une région Dataform pour stocker le dépôt et son contenu. Sélectionnez la région Dataform la plus proche de votre emplacement.

    Pour obtenir la liste des régions Dataform disponibles, consultez la section Emplacements. La région du dépôt ne doit pas nécessairement correspondre à l'emplacement de vos ensembles de données BigQuery.

    Dans le fichier dataform.json, vous pouvez définir la région de traitement dans laquelle Dataform traite votre code et stocke le résultat des exécutions. La région de traitement doit correspondre à l'emplacement de vos ensembles de données BigQuery, mais pas nécessairement à la région du dépôt. Pour en savoir plus, consultez Configurer les paramètres Dataform.

  5. Dans la liste déroulante Compte de service, sélectionnez un compte de service pour le dépôt.

    Dans la liste déroulante, vous pouvez sélectionner le compte de service Dataform par défaut ou tout compte de service associé à votre projet Google Cloud auquel vous avez accès. N'oubliez pas que les comptes de service personnalisés ne sont utilisés que pour l'exécution des workflows. Toutes les autres opérations de dépôt sont toujours effectuées par le compte de service Dataform par défaut.

    1. Facultatif: Pour sélectionner un compte de service qui ne figure pas dans la liste déroulante, cliquez sur Saisir manuellement, puis saisissez un ID de compte de service.
  6. Dans la section Chiffrement, sélectionnez la méthode de chiffrement du dépôt.

    1. Pour utiliser le chiffrement par défaut, sélectionnez l'option Clé de chiffrement gérée par Google.
    2. Pour utiliser des CMEK, sélectionnez l'option Clés de chiffrement gérées par le client (CMEK).

      1. Dans la liste déroulante Sélectionner une clé gérée par le client, sélectionnez une clé CMEK pour le dépôt.

    Pour en savoir plus, consultez Restrictions concernant les CMEK Dataform.

  7. Cliquez sur Créer, puis sur OK.

Modifier le compte de service

Vous pouvez associer un compte de service personnalisé à un dépôt Dataform pour exécuter le workflow. Toutes les autres opérations de dépôt sont toujours effectuées par le compte de service Dataform par défaut.

Pour modifier le compte de service d'un dépôt Dataform, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Dataform.

    Accéder à Dataform

  2. Sélectionnez un dépôt, puis cliquez sur Settings (Paramètres).

  3. Dans le champ Compte de service, cliquez sur Modifier le compte de service.

  4. Dans la liste déroulante Compte de service, sélectionnez un compte de service pour le dépôt.

    Dans la liste déroulante, vous pouvez sélectionner le compte de service Dataform par défaut ou tout compte de service associé à votre projet Google Cloud auquel vous avez accès.

    1. Facultatif: Pour sélectionner un compte de service qui ne figure pas dans la liste déroulante, cliquez sur Saisir manuellement, puis saisissez un ID de compte de service.
  5. Cliquez sur Enregistrer.

Supprimer un dépôt

Pour supprimer un dépôt et tout son contenu, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Dataform.

    Accéder à Dataform

  2. À côté du dépôt que vous souhaitez supprimer, cliquez sur le menu Plus, puis sélectionnez Supprimer.

  3. Dans la fenêtre Supprimer le dépôt, saisissez le nom du dépôt pour confirmer la suppression.

  4. Cliquez sur Supprimer.

Étapes suivantes