Ce document explique comment créer un dépôt, définir et modifier le compte de service du dépôt, et supprimer un dépôt dans Dataform.
Lorsque vous créez un dépôt Dataform, vous devez définir les paramètres de dépôt suivants:
- ID du dépôt
- Identifiant unique du dépôt. Les ID ne peuvent contenir que des chiffres, des lettres, des traits d'union et des traits de soulignement.
- Région
Région Dataform pour le stockage du dépôt et de son contenu.
Cette région de stockage peut être différente de la région de traitement dans laquelle Dataform traite votre code et stocke le résultat des exécutions. Par défaut, la région de traitement est définie sur la région par défaut de votre ensemble de données BigQuery. Vous pouvez modifier la région de traitement dans le fichier de paramètres du workflow après avoir créé le dépôt. Pour en savoir plus, consultez Configurer les paramètres Dataform.
- Compte de service
Compte de service associé au dépôt. Vous pouvez sélectionner le compte de service Dataform par défaut, un compte de service associé à votre projet Google Cloud ou saisir manuellement un autre compte de service. Par défaut, Dataform utilise un compte de service dérivé de votre numéro de projet au format suivant:
service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform utilise le compte de service par défaut pour toutes les opérations de dépôt. Vous pouvez utiliser un autre compte de service pour exécuter des workflows dans votre dépôt, mais le compte de service par défaut reste utilisé pour toutes les autres opérations de dépôt.
- Chiffrement
Méthode de chiffrement du dépôt. Vous pouvez utiliser le chiffrement par défaut ou appliquer une clé de chiffrement Cloud KMS gérée par le client. Pour en savoir plus sur l'utilisation de clés de chiffrement gérées par le client (CMEK) dans Dataform, consultez la page Utiliser des clés de chiffrement gérées par le client.
Une fois le dépôt créé, vous pouvez le connecter à GitHub ou GitLab.
Avant de commencer
- Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activer les API BigQuery and Dataform.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activer les API BigQuery and Dataform.
- Pour utiliser le chiffrement CMEK pour le dépôt, activez le chiffrement CMEK des dépôts Dataform.
Rôles requis
Pour obtenir les autorisations nécessaires pour créer et supprimer un dépôt, demandez à votre administrateur de vous attribuer le rôle IAM Administrateur Dataform (roles/dataform.admin
) pour les dépôts.
Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Pour utiliser un compte de service autre que le compte de service Dataform par défaut, accordez l'accès au compte de service personnalisé.
Créer un dépôt
Pour créer un dépôt Dataform, procédez comme suit:
Dans la console Google Cloud, accédez à la page Dataform page.
Cliquez sur Créer un dépôt.
Sur la page Créer un dépôt, dans le champ ID du dépôt, saisissez un ID unique.
Les ID ne peuvent contenir que des chiffres, des lettres, des traits d'union et des traits de soulignement.
Dans la liste déroulante Région, sélectionnez une région Dataform pour stocker le dépôt et son contenu. Sélectionnez la région Dataform la plus proche de votre emplacement.
Pour obtenir la liste des régions Dataform disponibles, consultez la page Emplacements. La région du dépôt ne doit pas nécessairement correspondre à l'emplacement de vos ensembles de données BigQuery.
Dans le fichier
workflow_settings.yaml
, vous pouvez définir la région de traitement dans laquelle Dataform traite votre code et stocke le résultat des exécutions. La région de traitement doit correspondre à l'emplacement de vos ensembles de données BigQuery, mais pas nécessairement à la région du dépôt. Pour en savoir plus, consultez Configurer les paramètres Dataform.Dans la liste déroulante Compte de service, sélectionnez un compte de service pour le dépôt.
Dans la liste déroulante, vous pouvez sélectionner le compte de service Dataform par défaut ou n'importe quel compte de service associé à votre projet Google Cloud auquel vous avez accès. N'oubliez pas que les comptes de service personnalisés ne sont utilisés que pour l'exécution du workflow. Toutes les autres opérations de dépôt sont toujours effectuées par le compte de service Dataform par défaut.
- Facultatif: Pour sélectionner un compte de service qui n'apparaît pas dans la liste déroulante, cliquez sur Saisir manuellement et saisissez un ID de compte de service.
Dans la section Chiffrement, sélectionnez la méthode de chiffrement du dépôt.
- Pour utiliser le chiffrement par défaut, sélectionnez l'option Clé de chiffrement gérée par Google.
Pour utiliser une CMEK, sélectionnez l'option Clés de chiffrement gérées par le client (CMEK).
- Dans la liste déroulante Sélectionner une clé gérée par le client, choisissez une clé CMEK pour le dépôt.
Pour en savoir plus, consultez la page Restrictions CMEK Dataform.
Cliquez sur Créer, puis sur OK.
Modifier le compte de service
Vous pouvez associer un compte de service personnalisé à un dépôt Dataform pour l'exécution du workflow. Toutes les autres opérations de dépôt sont toujours effectuées par le compte de service Dataform par défaut.
Pour modifier le compte de service d'un dépôt Dataform, procédez comme suit:
Dans la console Google Cloud, accédez à la page Dataform page.
Sélectionnez un dépôt, puis cliquez sur Paramètres.
Dans le champ Compte de service, cliquez sur
Modifier le compte de service.Dans la liste déroulante Compte de service, sélectionnez un compte de service pour le dépôt.
Dans la liste déroulante, vous pouvez sélectionner le compte de service Dataform par défaut ou n'importe quel compte de service associé à votre projet Google Cloud auquel vous avez accès.
- Facultatif: Pour sélectionner un compte de service qui n'apparaît pas dans la liste déroulante, cliquez sur Saisir manuellement et saisissez un ID de compte de service.
Cliquez sur Enregistrer.
Supprimer un dépôt
Pour supprimer un dépôt et tout son contenu, procédez comme suit:
Dans la console Google Cloud, accédez à la page Dataform page.
À côté du dépôt que vous souhaitez supprimer, cliquez sur le menu
Plus, puis sélectionnez Supprimer.Dans la fenêtre Supprimer le dépôt, saisissez le nom du dépôt pour confirmer la suppression.
Cliquez sur Supprimer.
Étapes suivantes
Pour savoir comment configurer les paramètres de traitement Dataform, consultez Configurer les paramètres Dataform.
Pour savoir comment associer un dépôt Dataform à un fournisseur Git tiers, consultez Se connecter à un dépôt Git tiers.
Pour en savoir plus sur l'utilisation de CMEK dans Dataform, consultez Utiliser des clés de chiffrement gérées par le client.
Pour savoir comment créer un espace de travail de développement, consultez la section Créer un espace de travail.