Présentation de Cloud Data Fusion: Studio

Cette page présente Cloud Data Fusion: Studio, une interface visuelle de type "cliquer et glisser" permettant de créer des pipelines de données à partir d'une bibliothèque de plug-ins prédéfinis et d'une interface vous permettant de configurer, d'exécuter et de gérer vos pipelines. Le processus de création d'un pipeline dans Studio est généralement le suivant:

  1. Connectez-vous à une source de données sur site ou dans le cloud.
  2. Préparez et transformez vos données.
  3. Connectez-vous à la destination.
  4. Tester votre pipeline
  5. Exécuter le pipeline
  6. Planifier et déclencher vos pipelines

Après avoir conçu et exécuté le pipeline, vous pouvez le gérer sur la page Pipeline Studio de Cloud Data Fusion:

  • Réutilisez des pipelines en les paramétrant avec des préférences et des arguments d'exécution.
  • Gérez l'exécution du pipeline en personnalisant des profils de calcul, en gérant les ressources et en ajustant les performances du pipeline.
  • Gérer le cycle de vie des pipelines en les modifiant
  • Gérer le contrôle des sources de pipeline à l'aide de l'intégration Git

Parcours utilisateur dans Cloud Data Fusion Studio

Avant de commencer

Cloud Data Fusion: Présentation de Studio

Studio inclut les composants suivants.

Administration

Cloud Data Fusion vous permet de disposer de plusieurs espaces de noms dans chaque instance. Dans Studio, les administrateurs peuvent gérer tous les espaces de noms de manière centralisée ou chaque espace de noms individuellement.

Studio propose les commandes d'administration suivantes:

Administrateur(trice) système
Le module Administrateur système de Studio vous permet de créer des espaces de noms et de définir les configurations centrales de profil de calcul au niveau du système, qui s'appliquent à chaque espace de noms de cette instance. Pour en savoir plus, consultez Gérer l'administration de Studio.
Administration des espaces de noms
Le module Administrateur d'espaces de noms dans Studio vous permet de gérer les configurations de l'espace de noms spécifique. Pour chaque espace de noms, vous pouvez définir des profils de calcul, des préférences d'exécution, des pilotes, des comptes de service et des configurations Git. Pour en savoir plus, consultez l'article Gérer l'administration de Studio.

Studio de conception de pipelines

Vous allez concevoir et exécuter des pipelines dans l'outil Pipeline Design Studio de l'interface Web de Cloud Data Fusion. La conception et l'exécution de pipelines de données comprennent les étapes suivantes:

  • Se connecter à une source: Cloud Data Fusion permet de se connecter aux sources de données sur site et dans le cloud. L'interface de Studio comporte des plug-ins système par défaut, qui sont préinstallés dans Studio. Vous pouvez télécharger des plug-ins supplémentaires à partir d'un dépôt de plug-ins, appelé Hub. Pour en savoir plus, consultez Présentation des plug-ins.
  • Préparation des données: Cloud Data Fusion vous permet de préparer vos données à l'aide de son puissant plug-in de préparation: Wrangler. Wrangler vous permet d'afficher, d'explorer et de transformer un petit échantillon de vos données au même endroit avant d'exécuter la logique sur l'ensemble de données complet dans Studio. Cela vous permet d'appliquer rapidement des transformations pour comprendre leur impact sur l'intégralité de l'ensemble de données. Vous pouvez créer plusieurs transformations et les ajouter à une recette. Pour en savoir plus, consultez la présentation de Wrangler.
  • Transform: les plug-ins de transformation modifient les données après leur chargement à partir d'une source. Par exemple, vous pouvez cloner un enregistrement, définir le format de fichier sur JSON ou utiliser le plug-in JavaScript pour créer une transformation personnalisée. Pour en savoir plus, consultez Présentation des plug-ins.
  • Se connecter à une destination: après avoir préparé les données et appliqué les transformations, vous pouvez vous connecter à la destination dans laquelle vous prévoyez de les charger. Cloud Data Fusion accepte les connexions à plusieurs destinations. Pour en savoir plus, consultez Présentation des plug-ins.
  • Prévisualiser: après avoir conçu le pipeline, vous pouvez exécuter une tâche de prévisualisation pour déboguer les problèmes avant de déployer et d'exécuter un pipeline. Si vous rencontrez des erreurs, vous pouvez les corriger en mode Brouillon. Studio génère l'aperçu à partir des 100 premières lignes de votre ensemble de données source. Studio affiche l'état et la durée du job de prévisualisation. Vous pouvez arrêter la tâche à tout moment. Vous pouvez également surveiller les événements de journaux pendant l'exécution du job de prévisualisation. Pour en savoir plus, consultez la section Prévisualiser les données.
  • Gérer les configurations de pipeline: après avoir prévisualisé les données, vous pouvez déployer le pipeline et gérer les configurations de pipeline suivantes:

    • Configuration de calcul: vous pouvez modifier le profil de calcul qui exécute le pipeline. Par exemple, vous souhaitez exécuter le pipeline sur un cluster Dataproc personnalisé plutôt que sur le cluster Dataproc par défaut.
    • Configuration du pipeline: pour chaque pipeline, vous pouvez activer ou désactiver une instrumentation telle que les métriques de durée. Par défaut, l'instrumentation est activée.
    • Configuration du moteur: Spark est le moteur d'exécution par défaut. Vous pouvez transmettre des paramètres personnalisés pour Spark.
    • Ressources: vous pouvez spécifier la mémoire et le nombre de processeurs pour le pilote et l'exécuteur Spark. Le pilote orchestre la tâche Spark. L'exécuteur gère le traitement des données dans Spark.
    • Alerte de pipeline: vous pouvez configurer le pipeline pour qu'il envoie des alertes et démarre les tâches de post-traitement une fois l'exécution du pipeline terminée. Vous créez des alertes lorsque vous concevez le pipeline. Après avoir déployé le pipeline, vous pouvez afficher les alertes. Pour modifier les paramètres d'alerte, vous pouvez modifier le pipeline.
    • Pushdown de transformation: vous pouvez activer le pushdown de transformation si vous souhaitez qu'un pipeline exécute certaines transformations dans BigQuery.

    Pour en savoir plus, consultez la page Gérer les configurations de pipeline.

  • Réutiliser des pipelines à l'aide de macros, de préférences et d'arguments d'exécution : Cloud Data Fusion vous permet de réutiliser des pipelines de données. Avec les pipelines de données réutilisables, vous pouvez disposer d'un pipeline unique capable d'appliquer un modèle d'intégration de données à divers cas d'utilisation et ensembles de données. Les pipelines réutilisables améliorent la gestion. Ils vous permettent de définir la majeure partie de la configuration d'un pipeline au moment de l'exécution, plutôt que de la coder en dur au moment de la conception. Dans Pipeline Design Studio, vous pouvez utiliser des macros pour ajouter des variables aux configurations de plug-in afin de spécifier les substitutions de variables au moment de l'exécution. Pour en savoir plus, consultez Gérer les macros, les préférences et les arguments d'exécution.

  • Exécuter: une fois que vous avez examiné les configurations du pipeline, vous pouvez lancer son exécution. Vous pouvez voir le changement d'état au cours des phases d'exécution du pipeline (par exemple, provisionnement, démarrage, exécution et réussite).

  • Planification et orchestration: les pipelines de données par lot peuvent être configurés pour s'exécuter selon un calendrier et une fréquence spécifiés. Après avoir créé et déployé un pipeline, vous pouvez créer une programmation. Dans Pipeline Design Studio, vous pouvez orchestrer les pipelines en créant un déclencheur sur un pipeline de données par lot pour qu'il s'exécute lorsqu'une ou plusieurs exécutions de pipeline sont terminées. Ces pipelines sont appelés pipelines en aval et en amont. Vous créez un déclencheur sur le pipeline en aval afin qu'il s'exécute en fonction de l'achèvement d'un ou de plusieurs pipelines en amont.

    Recommandation: Vous pouvez également utiliser Composer pour orchestrer des pipelines dans Cloud Data Fusion. Pour en savoir plus, consultez les pages Planifier des pipelines et Orchestrer des pipelines.

  • Modifier des pipelines: Cloud Data Fusion vous permet de modifier un pipeline déployé. Lorsque vous modifiez un pipeline déployé, il crée une nouvelle version du pipeline portant le même nom et le marque comme dernière version. Cela vous permet de développer des pipelines de manière itérative plutôt que de les dupliquer, ce qui crée un pipeline portant un nom différent. Pour en savoir plus, consultez Modifier les pipelines.

  • Gestion du contrôle des sources: Cloud Data Fusion vous permet de mieux gérer les pipelines entre le développement et la production grâce à la gestion du contrôle des sources des pipelines à l'aide de GitHub.

  • Journalisation et surveillance: pour surveiller les métriques et les journaux du pipeline, il est recommandé d'activer le service Stackdriver Logging de sorte qu'il utilise Cloud Logging avec votre pipeline Cloud Data Fusion.

Étapes suivantes