Orchestrer les préparations de données

Ce document explique comment orchestrer des pipelines de préparation des données, y compris comment effectuer des exécutions manuelles et planifiées.

La préparation des données est assurée par Dataform.

Les préparations de données sont exécutées à l'aide de comptes de service Dataform personnalisés, que vous sélectionnez lorsque vous configurez des planifications ou des exécutions de test. Pour en savoir plus, consultez la section À propos des comptes de service dans Dataform.

Les modifications que vous apportez aux étapes de préparation des données ne sont pas enregistrées automatiquement. Vous devez enregistrer et déployer les modifications avant qu'elles ne puissent être exécutées selon un calendrier. Les planifications exécutent toujours la dernière version déployée de votre préparation de données et excluent toute modification non déployée que vous pourriez développer.

Avant de commencer

Avant de commencer, créez une préparation des données.

Rôles requis

Pour exécuter des préparations de données, vous devez attribuer les rôles au compte de service que vous prévoyez d'utiliser pour exécuter les exécutions de préparation des données. Pour en savoir plus, consultez les rôles requis.

Élaborer une préparation des données

Lorsque vous développez une préparation de données, vous pouvez exécuter manuellement les étapes et inspecter la sortie avant de déployer les modifications en production. Vous pouvez tester la version actuelle que vous développez sur vos données, tandis que BigQuery continue d'exécuter la dernière version déployée, selon un planning. Avant de pouvoir effectuer l'exécution, vous devez configurer la destination et corriger les erreurs de validation.

Exécuter manuellement une préparation des données en développement

Pour tester les étapes de préparation des données et valider les résultats dans votre table de destination, exécutez la préparation des données manuellement depuis l'éditeur de préparation des données:

  1. Dans la console Google Cloud , accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorer, développez votre projet et le dossier Préparation des données. Cliquez sur le nom de la préparation des données que vous souhaitez exécuter.

  3. Configurez les autorisations du compte de service pour l'exécution:

    1. Dans la barre d'outils de l'éditeur de préparation des données, maintenez le pointeur sur l'option Exécuter désactivée.
    2. Dans la boîte de dialogue qui s'affiche avec des informations sur la configuration du compte de service, cliquez sur Configurer.
    3. Dans la boîte de dialogue Paramètres du compte de service, sélectionnez un compte de service.
    4. Si le compte de service a besoin d'autorisations supplémentaires, attribuez-lui les rôles requis en cliquant sur Tout autoriser.
    5. Cliquez sur Enregistrer.
  4. Facultatif: pour mettre à jour le compte de service pour les futures exécutions, accédez à la barre d'outils de l'éditeur de préparation des données, puis cliquez sur Plus > Configurer l'expérience d'exécution, puis mettez à jour et enregistrez les paramètres du compte de service.

  5. Corrigez les erreurs de validation qui s'affichent.

  6. Dans la barre d'outils de l'éditeur de préparation des données, cliquez sur Exécuter.

  7. Dans la boîte de dialogue Exécuter maintenant, cliquez sur Confirmer pour confirmer que cette exécution manuelle écrit des données dans une table de destination que vous pouvez également utiliser pour les exécutions planifiées.

    L'exécution exécute ensuite vos étapes et charge la sortie à la destination.

  8. Facultatif: Une fois l'exécution terminée, vous pouvez afficher les détails de l'exécution dans le volet Exécutions.

Déployer une préparation de données

Pour planifier des exécutions pour une version de votre préparation de données, vous devez d'abord la déployer. Les programmations exécutent la dernière version déployée.

Pour déployer une préparation de données, procédez comme suit:

  1. Dans la console Google Cloud , accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorer, développez votre projet et le dossier Préparation des données. Cliquez sur le nom de la préparation des données choisie.

    L'éditeur de préparation des données s'ouvre.

  3. Dans la barre d'outils de l'éditeur de préparation des données, cliquez sur Déployer.

Créer une programmation

Pour créer une planification qui exécute les étapes de préparation des données déployées et charge les données préparées dans la table de destination, planifiez une exécution de préparation des données. Pour planifier l'exécution, vous devez configurer la destination et corriger les erreurs de validation.

Pour créer un calendrier, procédez comme suit:

  1. Dans la console Google Cloud , accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorer, développez votre projet et le dossier Préparation des données. Cliquez sur le nom de la préparation des données que vous souhaitez planifier.

  3. Dans la barre d'outils de l'éditeur de préparation des données, cliquez sur Planifier.

  4. Saisissez un nom de calendrier.

  5. Saisissez le nom du compte de service associé à l'exécution.

  6. Définissez une fréquence.

  7. Cliquez sur Créer la programmation.

Exécuter manuellement une préparation de données planifiée

Lorsque vous exécutez manuellement une préparation de données dans un calendrier sélectionné, BigQuery exécute la préparation de données une seule fois, indépendamment du calendrier.

Pour exécuter manuellement une préparation de données planifiée, procédez comme suit:

  1. Dans la console Google Cloud , accédez à la page Planification.

    Accéder à "Planification"

  2. Cliquez sur le nom de la planification de préparation des données sélectionnée.

  3. Sur la page Détails de la planification, cliquez sur Exécuter.

Afficher les plannings

Vous pouvez consulter les planifications de préparation des données dans l'éditeur de préparation des données ou sur la page Planification.

Éditeur de préparation des données

Pour afficher le calendrier d'une préparation de données, procédez comme suit:

  1. Dans la barre d'outils de l'éditeur de préparation des données, cliquez sur Calendrier Afficher le calendrier.
  2. Facultatif: Pour afficher l'historique de la programmation, cliquez sur Afficher les exécutions précédentes.

Page de planification

Pour afficher toutes les planifications de préparation des données de votre projet, procédez comme suit:

  1. Dans la console Google Cloud , accédez à la page Planification.

    Accéder à "Planification"

  2. Facultatif: Pour afficher l'historique des exécutions et les détails d'une programmation sélectionnée, cliquez sur son nom. L'historique des exécutions manuelles n'est pas affiché.

Modifier une programmation

Vous pouvez modifier une planification depuis l'éditeur de préparation des données ou la page Planification.

Éditeur de préparation des données

Pour modifier une programmation, procédez comme suit :

  1. Dans la barre d'outils de l'éditeur de préparation des données, cliquez sur Calendrier Afficher le calendrier.
  2. Dans la boîte de dialogue Planifier la préparation des données, cliquez sur Modifier, puis mettez à jour la planification.
  3. Cliquez sur Mettre à jour la planification.

Page de planification

Pour modifier une programmation, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page Planification.

    Accéder à "Planification"

  2. Cliquez sur le nom de la planification de préparation des données sélectionnée.

  3. Sur la page Détails de la planification, cliquez sur Modifier.

  4. Cliquez sur Afficher la programmation.

  5. Dans la boîte de dialogue Planifier la préparation des données, cliquez sur Modifier, puis mettez à jour la planification.

  6. Cliquez sur Mettre à jour la planification.

Supprimer une programmation

Pour supprimer définitivement une programmation pour une préparation de données sélectionnée, procédez comme suit:

  1. Dans la console Google Cloud , accédez à la page Planification.

    Accéder à "Planification"

  2. Sur la ligne contenant la planification, cliquez sur more_vert Actions > Supprimer.

Étape suivante