Présentation de Cloud Data Fusion: Studio

Cette page présente Cloud Data Fusion: Studio, un outil visuel interface par glisser-déposer pour créer des pipelines de données à partir d'une bibliothèque plug-ins et une interface vous permettant de configurer, d'exécuter et de gérer vos pipelines. Le processus de création d'un pipeline dans Studio est généralement le suivant:

  1. Connectez-vous à une source de données sur site ou dans le cloud.
  2. Préparez et transformez vos données.
  3. Connectez-vous à la destination.
  4. Testez votre pipeline.
  5. Exécuter le pipeline
  6. Planifier et déclencher vos pipelines

Après avoir conçu et exécuté le pipeline, vous pouvez le gérer sur la page Pipeline Studio de Cloud Data Fusion :

  • Réutilisez les pipelines en les paramétrant avec des préférences et des arguments d'exécution.
  • Gérez l'exécution du pipeline en personnalisant les profils de calcul, en gérant les ressources et en ajustant les performances du pipeline.
  • Gérez le cycle de vie des pipelines en les modifiant.
  • Gérez le contrôle des sources du pipeline à l'aide de l'intégration Git.

Parcours utilisateur dans Cloud Data Fusion Studio

Avant de commencer

Cloud Data Fusion: Présentation de Studio

Studio inclut les composants suivants.

Administration

Cloud Data Fusion vous permet d'avoir plusieurs espaces de noms dans chaque instance. Dans Studio, les administrateurs peuvent gérer tous les espaces de noms de manière centralisée ou individuellement.

Studio propose les commandes d'administration suivantes:

Administrateur(trice) système
Le module System Admin (Administration système) de Studio vous permet de créer des espaces de noms et de définir les configurations centrales du profil de calcul au niveau du système, qui s'appliquent à chaque espace de noms de cette instance. Pour plus d'informations, consultez la page Gérer l'administration de Studio.
Administration de l'espace de noms
Le module Administrateur d'espaces de noms dans Studio vous permet de gérer le pour l'espace de noms en question. Pour chaque espace de noms, vous pouvez définir profils de calcul, préférences d'exécution, pilotes, comptes de service et Git de configuration. Pour en savoir plus, consultez l'article Gérer l'administration de Studio.

Pipeline Design Studio

Vous allez concevoir et exécuter des pipelines dans Pipeline Design Studio, dans le Interface Web Cloud Data Fusion Concevoir et exécuter des pipelines de données comprend les étapes suivantes:

  • Se connecter à une source: Cloud Data Fusion permet de se connecter à aux sources de données cloud et sur site. L'interface Studio comporte des plug-ins système par défaut, qui sont préinstallés dans Studio. Vous pouvez télécharger des plug-ins supplémentaires à partir d'un dépôt de plug-ins, appelé Hub. Pour plus en savoir plus, consultez Présentation des plug-ins.
  • Préparation des données: Cloud Data Fusion vous permet de préparer vos grâce à son puissant plug-in de préparation des données: Wrangler. Wrangler vous aide vous pouvez afficher, explorer et transformer un petit échantillon de vos données en un seul endroit avant d'exécuter la logique sur l'ensemble de données complet dans Studio. Cela vous permet appliquer rapidement des transformations pour comprendre comment elles affecter l'ensemble de données complet. Vous pouvez créer plusieurs transformations et ajouter à une recette. Pour en savoir plus, consultez la présentation de Wrangler.
  • Transform: les plug-ins de transformation modifient les données après leur chargement à partir d'un source. Par exemple, vous pouvez cloner un enregistrement, modifier le format du fichier JSON, ou utilisez le plug-in JavaScript pour créer une transformation personnalisée. Pour Pour en savoir plus, consultez Présentation des plug-ins.
  • Se connecter à une destination: après avoir préparé les données et appliqué vous pouvez vous connecter à la destination où vous prévoyez les données. Cloud Data Fusion prend en charge les connexions à plusieurs de destination. Pour en savoir plus, consultez Présentation des plug-ins.
  • Aperçu : après avoir conçu le pipeline, vous exécutez un job d'aperçu pour déboguer les problèmes avant de déployer et d'exécuter un pipeline. Si vous rencontrez des erreurs, vous pouvez les corriger en mode Brouillon. Studio utilise la première 100 lignes de votre ensemble de données source pour générer l'aperçu. Studio affiche l'état et la durée du job de prévisualisation Vous pouvez arrêter la tâche à tout moment. Vous pouvez également surveiller les événements de journaux pendant l'exécution du job de prévisualisation. Pour plus pour plus d'informations, consultez la section Prévisualiser les données.
  • Gérer les configurations de pipeline: après avoir prévisualisé les données, vous pouvez déployer le pipeline et gérer les configurations de pipeline suivantes:

    • Configuration de calcul : vous pouvez modifier le profil de calcul qui exécute le pipeline. Par exemple, vous souhaitez exécuter le pipeline sur un cluster Dataproc personnalisé plutôt que sur le cluster Dataproc par défaut.
    • Configuration du pipeline: pour chaque pipeline, vous pouvez activer ou désactiver et une instrumentation, comme les métriques temporelles. Par défaut, l'instrumentation est est activé.
    • Configuration du moteur: Spark est le moteur d'exécution par défaut. Vous pouvez transmettre des paramètres personnalisés pour Spark.
    • Ressources: vous pouvez spécifier la mémoire et le nombre de processeurs pilote et exécuteur Spark. Le pilote orchestre la tâche Spark. L'exécuteur gère le traitement des données dans Spark.
    • Alerte de pipeline : vous pouvez configurer le pipeline pour qu'il envoie des alertes et démarre des tâches de post-traitement une fois l'exécution du pipeline terminée. Toi créer des alertes lorsque vous concevez le pipeline. Une fois le pipeline déployé, vous pouvez afficher les alertes. Pour modifier les paramètres d'alerte, vous pouvez modifier le pipeline.
    • Pushdown de transformation : vous pouvez activer le pushdown de transformation si : qu'un pipeline exécute certaines transformations dans BigQuery.

    Pour en savoir plus, consultez Gérer les configurations de pipeline.

  • Réutiliser des pipelines à l'aide de macros, de préférences et d'arguments d'exécution : Cloud Data Fusion vous permet de réutiliser des pipelines de données. Avec les pipelines de données réutilisables, vous pouvez disposer d'un seul pipeline pouvant appliquer un modèle d'intégration de données à différents cas d'utilisation et ensembles de données. Les pipelines réutilisables vous offrent une meilleure gestion. Elles vous permettent de définir la plupart des configuration d'un pipeline au moment de l'exécution, au lieu de le coder en dur lors de la conception. Dans Pipeline Design Studio, vous pouvez utiliser des macros pour ajouter aux configurations de plug-in afin de pouvoir spécifier la variable lors de l'exécution. Pour en savoir plus, consultez la section Gérer les macros, les préférences et les arguments d'exécution.

  • Exécuter: une fois que vous avez examiné les configurations du pipeline, vous peut lancer l'exécution du pipeline. Vous pouvez voir le changement d'état les phases d'exécution du pipeline (par exemple, provisionnement, démarrage, l'exécution et le succès.

  • Planification et orchestration : les pipelines de données par lot peuvent être configurés pour s'exécuter à une fréquence et à une heure spécifiées. Après avoir créé et déployé un pipeline, vous pouvez créer un calendrier. Dans Pipeline Design Studio, vous pouvez orchestrer des pipelines en créant un déclencheur sur un pipeline de données par lot pour qu'il s'exécute une fois qu'un ou plusieurs pipelines ont été exécutés. Il s'agit des pipelines en aval et en amont. Vous créez un déclencheur sur le pipeline en aval afin qu'il s'exécute en fonction de la fin d'un ou de plusieurs pipelines en amont.

    Recommandation : Vous pouvez également utiliser Composer pour orchestrer des pipelines dans Cloud Data Fusion. Pour en savoir plus, consultez Pipelines de planification et Orchestration des pipelines.

  • Modifier des pipelines : Cloud Data Fusion vous permet de modifier un pipeline déployé. Lorsque vous modifiez un pipeline déployé, cela crée une nouvelle version de le pipeline avec le même nom et le marque comme la dernière version. Ce vous permet de développer des pipelines de manière itérative plutôt que de les dupliquer, qui crée un pipeline avec un nom différent. Pour plus d'informations, consultez Modifier les pipelines.

  • Gestion du contrôle des sources: Cloud Data Fusion vous permet de mieux gérer les pipelines entre le développement et la production avec Gestion du contrôle des sources des pipelines à l'aide de GitHub.

  • Journalisation et surveillance: pour surveiller les métriques et les journaux du pipeline, est recommandé d'activer le service Stackdriver Logging Cloud Logging avec votre pipeline Cloud Data Fusion.

Étape suivante