Créer un dépôt Dataform

Ce document explique comment créer un dépôt, définir et modifier le compte de service du dépôt, et supprimer un dépôt dans Dataform.

Lorsque vous créez un dépôt Dataform, vous devez définir les paramètres de dépôt suivants:

ID du dépôt
Identifiant unique du dépôt. Les ID ne peuvent contenir que des chiffres, des lettres, des traits d'union et des traits de soulignement.
Région

Région Dataform pour le stockage du dépôt et de son contenu.

Cette région de stockage peut être différente de la région de traitement dans laquelle Dataform traite votre code et stocke le résultat des exécutions. Par défaut, la région de traitement est définie sur la région par défaut de votre ensemble de données BigQuery. Vous pouvez modifier la région de traitement dans le fichier de paramètres du workflow après avoir créé le dépôt. Pour en savoir plus, consultez Configurer les paramètres Dataform.

Compte de service

Compte de service associé au dépôt. Vous pouvez sélectionner le compte de service Dataform par défaut, un compte de service associé à votre projet Google Cloud ou saisir manuellement un autre compte de service. Par défaut, Dataform utilise un compte de service dérivé de votre numéro de projet au format suivant:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Dataform utilise le compte de service par défaut pour toutes les opérations de dépôt. Vous pouvez utiliser un autre compte de service pour exécuter des workflows dans votre dépôt, mais le compte de service par défaut reste utilisé pour toutes les autres opérations de dépôt.

Chiffrement

Méthode de chiffrement du dépôt. Vous pouvez utiliser le chiffrement par défaut ou appliquer une clé de chiffrement Cloud KMS gérée par le client. Pour en savoir plus sur l'utilisation de clés de chiffrement gérées par le client (CMEK) dans Dataform, consultez la page Utiliser des clés de chiffrement gérées par le client.

Une fois le dépôt créé, vous pouvez le connecter à GitHub ou GitLab.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  4. Activer les API BigQuery and Dataform.

    Activer les API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  7. Activer les API BigQuery and Dataform.

    Activer les API

  8. Pour utiliser le chiffrement CMEK pour le dépôt, activez le chiffrement CMEK des dépôts Dataform.

Rôles requis

Pour obtenir les autorisations nécessaires pour créer et supprimer un dépôt, demandez à votre administrateur de vous attribuer le rôle IAM Administrateur Dataform (roles/dataform.admin) pour les dépôts. Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Pour utiliser un compte de service autre que le compte de service Dataform par défaut, accordez l'accès au compte de service personnalisé.

Créer un dépôt

Pour créer un dépôt Dataform, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Dataform page.

    Accéder à Dataform

  2. Cliquez sur Créer un dépôt.

  3. Sur la page Créer un dépôt, dans le champ ID du dépôt, saisissez un ID unique.

    Les ID ne peuvent contenir que des chiffres, des lettres, des traits d'union et des traits de soulignement.

  4. Dans la liste déroulante Région, sélectionnez une région Dataform pour stocker le dépôt et son contenu. Sélectionnez la région Dataform la plus proche de votre emplacement.

    Pour obtenir la liste des régions Dataform disponibles, consultez la page Emplacements. La région du dépôt ne doit pas nécessairement correspondre à l'emplacement de vos ensembles de données BigQuery.

    Dans le fichier workflow_settings.yaml, vous pouvez définir la région de traitement dans laquelle Dataform traite votre code et stocke le résultat des exécutions. La région de traitement doit correspondre à l'emplacement de vos ensembles de données BigQuery, mais pas nécessairement à la région du dépôt. Pour en savoir plus, consultez Configurer les paramètres Dataform.

  5. Dans la liste déroulante Compte de service, sélectionnez un compte de service pour le dépôt.

    Dans la liste déroulante, vous pouvez sélectionner le compte de service Dataform par défaut ou n'importe quel compte de service associé à votre projet Google Cloud auquel vous avez accès. N'oubliez pas que les comptes de service personnalisés ne sont utilisés que pour l'exécution du workflow. Toutes les autres opérations de dépôt sont toujours effectuées par le compte de service Dataform par défaut.

    1. Facultatif: Pour sélectionner un compte de service qui n'apparaît pas dans la liste déroulante, cliquez sur Saisir manuellement et saisissez un ID de compte de service.
  6. Dans la section Chiffrement, sélectionnez la méthode de chiffrement du dépôt.

    1. Pour utiliser le chiffrement par défaut, sélectionnez l'option Clé de chiffrement gérée par Google.
    2. Pour utiliser une CMEK, sélectionnez l'option Clés de chiffrement gérées par le client (CMEK).

      1. Dans la liste déroulante Sélectionner une clé gérée par le client, choisissez une clé CMEK pour le dépôt.

    Pour en savoir plus, consultez la page Restrictions CMEK Dataform.

  7. Cliquez sur Créer, puis sur OK.

Modifier le compte de service

Vous pouvez associer un compte de service personnalisé à un dépôt Dataform pour l'exécution du workflow. Toutes les autres opérations de dépôt sont toujours effectuées par le compte de service Dataform par défaut.

Pour modifier le compte de service d'un dépôt Dataform, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Dataform page.

    Accéder à Dataform

  2. Sélectionnez un dépôt, puis cliquez sur Paramètres.

  3. Dans le champ Compte de service, cliquez sur Modifier le compte de service.

  4. Dans la liste déroulante Compte de service, sélectionnez un compte de service pour le dépôt.

    Dans la liste déroulante, vous pouvez sélectionner le compte de service Dataform par défaut ou n'importe quel compte de service associé à votre projet Google Cloud auquel vous avez accès.

    1. Facultatif: Pour sélectionner un compte de service qui n'apparaît pas dans la liste déroulante, cliquez sur Saisir manuellement et saisissez un ID de compte de service.
  5. Cliquez sur Enregistrer.

Supprimer un dépôt

Pour supprimer un dépôt et tout son contenu, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Dataform page.

    Accéder à Dataform

  2. À côté du dépôt que vous souhaitez supprimer, cliquez sur le menu Plus, puis sélectionnez Supprimer.

  3. Dans la fenêtre Supprimer le dépôt, saisissez le nom du dépôt pour confirmer la suppression.

  4. Cliquez sur Supprimer.

Étapes suivantes