Créer un dépôt

Ce document vous aide à comprendre le concept de dépôts dans Dataform et à en créer un.

À propos des dépôts Dataform

Chaque dépôt Dataform contient une collection de fichiers SQLX et JavaScript qui constituent votre workflow, ainsi que des fichiers de configuration et des packages Dataform. Vous interagissez avec le contenu de votre dépôt dans un espace de travail de développement.

Dataform affiche vos dépôts sur la page Dataform par ordre alphabétique des ID de dépôt. Vous pouvez les trier et les filtrer.

  • Pour afficher vos dépôts, accédez à la page Dataform dans la console Google Cloud.

    Accéder à Dataform

Chaque dépôt Dataform est associé à un compte de service. Vous pouvez sélectionner un compte de service lorsque vous créez un dépôt ou modifier le compte de service ultérieurement.

Par défaut, Dataform utilise un compte de service dérivé de votre numéro de projet au format suivant:

service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Dataform utilise Git pour enregistrer les modifications et gérer les versions de fichiers. Chaque dépôt Dataform correspond à un dépôt Git. Après avoir créé un dépôt Dataform, vous pouvez le connecter à un dépôt GitHub, GitLab ou Bitbucket distant.

Dans un dépôt Dataform, Dataform stocke le code du dépôt. Dans un dépôt connecté, le dépôt tiers stocke le code du dépôt. Dataform interagit avec le dépôt tiers pour vous permettre de modifier et d'exécuter son contenu dans un espace de travail de développement Dataform.

Une page de dépôt Dataform se compose des composants suivants:

Onglet "Espaces de travail de développement"
Affiche les espaces de travail de développement créés dans le dépôt.
Onglet "Configurations de version"
Permet d'inspecter, de créer, de modifier et de supprimer des versions.
Onglet "Journaux d'exécution du workflow"
Affiche les journaux d'exécution des workflows Dataform.
Onglet "Configurations de workflow"
Permet d'inspecter, de créer, de modifier et de supprimer des configurations de workflow.
Onglet "Paramètres"
Affiche le nom et l'emplacement du dépôt. Pour un dépôt connecté à un dépôt Git tiers, affiche la source du dépôt tiers, le nom de la branche par défaut et le jeton secret. Affiche les boutons permettant de connecter le dépôt à un dépôt Git tiers et de modifier la connexion Git.
Bouton "Créer un espace de travail de développement"
Permet de créer un espace de travail de développement.

Après avoir créé et initialisé un espace de travail de développement, vous pouvez modifier votre fichier de paramètres de workflow pour configurer les paramètres Dataform suivants de votre dépôt:

  • Base de données par défaut (ID de projetGoogle Cloud ).
  • Schéma par défaut (ID de l'ensemble de données BigQuery).
  • Emplacement BigQuery par défaut.
  • Schéma par défaut (ID d'ensemble de données BigQuery) pour les assertions.
  • L'entrepôt, qui doit être défini sur bigquery.
  • Variables définies par l'utilisateur qui sont mises à la disposition du code du projet lors de la compilation.

Pour en savoir plus sur les paramètres du dépôt Dataform, consultez IProjectConfig dans la documentation de référence de Dataform Core.

Paramètres du dépôt

Lorsque vous créez un dépôt Dataform, vous devez définir les paramètres suivants:

ID du dépôt
Identifiant unique du dépôt. Les ID ne peuvent contenir que des chiffres, des lettres, des tirets et des traits de soulignement.
Région

Région Dataform pour stocker le dépôt et son contenu.

Cette région de stockage peut être différente de la région de traitement où Dataform traite votre code et stocke la sortie des exécutions. Par défaut, la région de traitement est définie sur la région de votre ensemble de données BigQuery par défaut. Vous pouvez modifier la région de traitement dans le fichier de paramètres du workflow après avoir créé le dépôt. Pour en savoir plus, consultez la section Configurer les paramètres Dataform.

Compte de service

Compte de service associé au dépôt. Vous pouvez sélectionner le compte de service Dataform par défaut, un compte de service associé à votre projet Google Cloud ou saisir manuellement un autre compte de service. Par défaut, Dataform utilise un compte de service dérivé de votre numéro de projet au format suivant:

service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Dataform utilise le compte de service par défaut pour toutes les opérations de dépôt. Vous pouvez utiliser un autre compte de service pour exécuter des workflows dans votre dépôt, mais le compte de service par défaut est toujours utilisé pour toutes les autres opérations de dépôt.

Chiffrement

Méthode de chiffrement du dépôt. Vous pouvez utiliser le chiffrement par défaut, une clé de chiffrement Cloud KMS gérée par le client unique ou une clé CMEK Dataform par défaut. Pour en savoir plus sur l'utilisation des clés de chiffrement gérées par le client (CMEK) dans Dataform, consultez Utiliser des clés de chiffrement gérées par le client.

Après avoir créé un dépôt, vous pouvez l'associer à GitHub ou GitLab.

Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  8. Pour utiliser le chiffrement CMEK pour le dépôt, activez le chiffrement CMEK des dépôts Dataform.

.

Rôles requis

Pour obtenir les autorisations nécessaires pour créer et supprimer un dépôt, demandez à votre administrateur de vous accorder le rôle IAM Administrateur Dataform (roles/dataform.admin) sur les dépôts. Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Pour utiliser un compte de service autre que le compte de service Dataform par défaut, accordez l'accès au compte de service personnalisé.

Une fois que vous avez créé un dépôt Dataform, Dataform vous accorde automatiquement le rôle d'administrateur Dataform sur ce dépôt.

Créer un dépôt

Pour créer un dépôt Dataform, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Dataform page.

    Accéder à Dataform

  2. Cliquez sur Créer un dépôt.

  3. Sur la page Créer un dépôt, dans le champ ID du dépôt, saisissez un ID unique.

    Les ID ne peuvent contenir que des chiffres, des lettres, des traits d'union et des traits de soulignement.

  4. Dans la liste déroulante Région, sélectionnez une région Dataform pour stocker le dépôt et son contenu. Sélectionnez la région Dataform la plus proche de votre position.

    Pour obtenir la liste des régions Dataform disponibles, consultez la section Emplacements. La région du dépôt ne doit pas nécessairement correspondre à l'emplacement de vos ensembles de données BigQuery.

    Dans le fichier workflow_settings.yaml, vous pouvez définir la région de traitement dans laquelle Dataform traite votre code et stocke la sortie des exécutions. La région de traitement doit correspondre à l'emplacement de vos ensembles de données BigQuery, mais pas nécessairement à la région du dépôt. Pour en savoir plus, consultez la section Configurer les paramètres Dataform.

  5. Dans le menu déroulant Service account (Compte de service), sélectionnez un compte de service pour le dépôt.

    Dans le menu déroulant, vous pouvez sélectionner le compte de service Dataform par défaut ou tout compte de service associé à votre projet Google Cloud auquel vous avez accès. N'oubliez pas que les comptes de service personnalisés ne sont utilisés que pour l'exécution des workflows. Toutes les autres opérations de dépôt sont toujours effectuées par le compte de service Dataform par défaut.

    1. Facultatif: Pour sélectionner un compte de service qui ne s'affiche pas dans le menu déroulant, cliquez sur Saisir manuellement, puis saisissez un ID de compte de service.
  6. Configurez le mécanisme de chiffrement que vous avez sélectionné pour le dépôt:

    .

    Clé CMEK par défaut

    Dataform affiche la case Utiliser la clé KMS par défaut et la sélectionne par défaut.

    • Pour chiffrer le dépôt avec la clé CMEK Dataform par défaut, laissez la case Utiliser la clé KMS par défaut cochée.

    Clé CMEK unique

    Pour chiffrer le dépôt avec une clé CMEK unique, procédez comme suit:

    1. Si la case Utiliser la clé KMS par défaut est cochée par défaut, décochez-la.
    2. Dans la section Chiffrement, sélectionnez l'option Clé de chiffrement gérée par le client (CMEK).
    3. Dans le menu déroulant Sélectionner une clé gérée par le client, sélectionnez une clé CMEK unique.

    Chiffrement au repos

    • Pour utiliser le chiffrement par défaut, dans la section Chiffrement, sélectionnez l'option Google-managed encryption key.
  7. Cliquez sur Créer, puis sur OK.

Modifier le compte de service

Vous pouvez associer un compte de service personnalisé à un dépôt Dataform pour l'exécution du workflow. Toutes les autres opérations de dépôt sont toujours effectuées par le compte de service Dataform par défaut.

Pour modifier le compte de service d'un dépôt Dataform, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Dataform page.

    Accéder à Dataform

  2. Sélectionnez un dépôt, puis cliquez sur Paramètres.

  3. À côté du champ Compte de service, cliquez sur  Modifier le compte de service.

  4. Dans le menu déroulant Service account (Compte de service), sélectionnez un compte de service pour le dépôt.

    Dans le menu déroulant, vous pouvez sélectionner le compte de service Dataform par défaut ou tout compte de service associé à votre projet Google Cloud auquel vous avez accès.

    1. Facultatif: Pour sélectionner un compte de service qui ne s'affiche pas dans le menu déroulant, cliquez sur Saisir manuellement, puis saisissez un ID de compte de service.
  5. Cliquez sur Enregistrer.

Supprimer un dépôt

Pour supprimer un dépôt et tout son contenu, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Dataform page.

    Accéder à Dataform

  2. À côté du dépôt que vous souhaitez supprimer, cliquez sur le menu Plus, puis sélectionnez Supprimer.

  3. Dans la fenêtre Supprimer le dépôt, saisissez le nom du dépôt pour confirmer la suppression.

  4. Cliquez sur Supprimer.

Étape suivante