Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Cette page présente Cloud Data Fusion: Studio, une interface visuelle basée sur le glisser-déposer permettant de créer des pipelines de données à partir d'une bibliothèque de plug-ins prédéfinis et d'une interface dans laquelle vous configurez, exécutez et gérez vos pipelines.
La création d'un pipeline dans Studio suit généralement ce processus:
Connectez-vous à une source de données sur site ou dans le cloud.
Préparer et transformer vos données
Connectez-vous à la destination.
Testez votre pipeline.
Exécutez votre pipeline.
Planifiez et déclenchez vos pipelines.
Après avoir conçu et exécuté le pipeline, vous pouvez le gérer sur la page Pipeline Studio de Cloud Data Fusion:
Réutilisez les pipelines en les paramétrant avec des préférences et des arguments d'exécution.
Gérez l'exécution du pipeline en personnalisant les profils de calcul, en gérant les ressources et en ajustant les performances du pipeline.
Gérez le cycle de vie des pipelines en les modifiant.
Gérez le contrôle des sources du pipeline à l'aide de l'intégration Git.
Cloud Data Fusion vous permet d'avoir plusieurs espaces de noms dans chaque instance. Dans Studio, les administrateurs peuvent gérer tous les espaces de noms de manière centralisée ou individuellement.
Studio propose les commandes d'administration suivantes:
Administrateur(trice) système
Le module System Admin (Administration système) de Studio vous permet de créer des espaces de noms et de définir les configurations centrales du profil de calcul au niveau du système, qui s'appliquent à chaque espace de noms de cette instance. Pour en savoir plus, consultez Gérer l'administration de Studio.
Administration de l'espace de noms
Le module Administration de l'espace de noms de Studio vous permet de gérer les configurations de l'espace de noms spécifique. Pour chaque espace de noms, vous pouvez définir des profils de calcul, des préférences d'exécution, des pilotes, des comptes de service et des configurations git. Pour en savoir plus, consultez Gérer l'administration de Studio.
Pipeline Design Studio
Vous concevez et exécutez des pipelines dans Pipeline Design Studio dans l'interface Web de Cloud Data Fusion. La conception et l'exécution de pipelines de données incluent les étapes suivantes:
Se connecter à une source: Cloud Data Fusion permet de se connecter à des sources de données sur site et dans le cloud. L'interface Studio comporte des plug-ins système par défaut, qui sont préinstallés dans Studio. Vous pouvez télécharger des plug-ins supplémentaires à partir d'un dépôt de plug-ins, appelé Hub. Pour en savoir plus, consultez la présentation des plug-ins.
Préparation des données: Cloud Data Fusion vous permet de préparer vos données à l'aide de son puissant plug-in de préparation des données: Wrangler. Wrangler vous aide à afficher, explorer et transformer un petit échantillon de vos données en un seul endroit avant d'exécuter la logique sur l'ensemble de données complet dans Studio. Vous pouvez ainsi appliquer rapidement des transformations pour comprendre leur impact sur l'ensemble des données. Vous pouvez créer plusieurs transformations et les ajouter à une recette. Pour en savoir plus, consultez la présentation de Wrangler.
Transformer: les plug-ins de transformation modifient les données après leur chargement à partir d'une source. Par exemple, vous pouvez cloner un enregistrement, définir le format de fichier sur JSON ou utiliser le plug-in JavaScript pour créer une transformation personnalisée. Pour en savoir plus, consultez la présentation des plug-ins.
Se connecter à une destination: après avoir préparé les données et appliqué des transformations, vous pouvez vous connecter à la destination où vous prévoyez de charger les données. Cloud Data Fusion prend en charge les connexions à plusieurs destinations. Pour en savoir plus, consultez la section Présentation des plug-ins.
Aperçu: après avoir conçu le pipeline, vous exécutez un job d'aperçu pour déboguer les problèmes avant de déployer et d'exécuter un pipeline. Si vous rencontrez des erreurs, vous pouvez les corriger en mode Brouillon. Studio utilise les 100 premières lignes de votre ensemble de données source pour générer l'aperçu. Studio affiche l'état et la durée de la tâche d'aperçu. Vous pouvez arrêter la tâche à tout moment.
Vous pouvez également surveiller les événements de journal pendant l'exécution de la tâche d'aperçu. Pour en savoir plus, consultez la section Aperçu des données.
Gérer les configurations de pipeline: après avoir prévisualisé les données, vous pouvez déployer le pipeline et gérer les configurations de pipeline suivantes:
Configuration de calcul: vous pouvez modifier le profil de calcul qui exécute le pipeline. Par exemple, vous souhaitez exécuter le pipeline sur un cluster Dataproc personnalisé plutôt que sur le cluster Dataproc par défaut.
Configuration du pipeline: pour chaque pipeline, vous pouvez activer ou désactiver l'instrumentation, comme les métriques de chronométrage. Par défaut, l'instrumentation est activée.
Configuration du moteur: Spark est le moteur d'exécution par défaut. Vous pouvez transmettre des paramètres personnalisés pour Spark.
Ressources: vous pouvez spécifier la mémoire et le nombre de processeurs pour le pilote et l'exécutant Spark. Le pilote orchestre la tâche Spark. L'exécuteur gère le traitement des données dans Spark.
Alerte de pipeline: vous pouvez configurer le pipeline pour qu'il envoie des alertes et démarre des tâches de post-traitement une fois l'exécution du pipeline terminée. Vous créez des alertes de pipeline lorsque vous concevez le pipeline. Une fois le pipeline déployé, vous pouvez afficher les alertes. Pour modifier les paramètres d'alerte, vous pouvez modifier le pipeline.
Pushdown de transformation: vous pouvez activer le pushdown de transformation si vous souhaitez qu'un pipeline exécute certaines transformations dans BigQuery.
Réutiliser des pipelines à l'aide de macros, de préférences et d'arguments d'exécution : Cloud Data Fusion vous permet de réutiliser des pipelines de données. Avec les pipelines de données réutilisables, vous pouvez disposer d'un seul pipeline pouvant appliquer un modèle d'intégration de données à différents cas d'utilisation et ensembles de données. Les pipelines réutilisables offrent une meilleure gestion. Ils vous permettent de définir la majeure partie de la configuration d'un pipeline au moment de l'exécution, au lieu de la coder en dur au moment de la conception. Dans Pipeline Design Studio, vous pouvez utiliser des macros pour ajouter des variables aux configurations de plug-in afin de spécifier les substitutions de variables au moment de l'exécution. Pour en savoir plus, consultez la section Gérer les macros, les préférences et les arguments d'exécution.
Exécuter: une fois que vous avez examiné les configurations du pipeline, vous pouvez lancer son exécution. Vous pouvez voir l'état changer au cours des phases de l'exécution du pipeline, par exemple le provisionnement, le démarrage, l'exécution et la réussite.
Planification et orchestration: les pipelines de données par lot peuvent être configurés pour s'exécuter selon une planification et une fréquence spécifiées. Une fois que vous avez créé et déployé un pipeline, vous pouvez créer une planification. Dans Pipeline Design Studio, vous pouvez orchestrer des pipelines en créant un déclencheur sur un pipeline de données par lot pour qu'il s'exécute une fois qu'un ou plusieurs pipelines ont été exécutés. Il s'agit des pipelines en aval et en amont. Vous créez un déclencheur sur le pipeline en aval afin qu'il s'exécute en fonction de la fin d'un ou de plusieurs pipelines en amont.
Recommandation: Vous pouvez également utiliser Composer pour orchestrer des pipelines dans Cloud Data Fusion. Pour en savoir plus, consultez les pages Planifier des pipelines et Orchestrer des pipelines.
Modifier des pipelines: Cloud Data Fusion vous permet de modifier un pipeline déployé. Lorsque vous modifiez un pipeline déployé, une nouvelle version du pipeline est créée avec le même nom et est marquée comme dernière version. Cela vous permet de développer des pipelines de manière itérative plutôt que de dupliquer des pipelines, ce qui crée un nouveau pipeline avec un nom différent. Pour en savoir plus, consultez la section Modifier des pipelines.
Journalisation et surveillance: pour surveiller les métriques et les journaux du pipeline, nous vous recommandons d'activer le service de journalisation Stackdriver pour utiliser Cloud Logging avec votre pipeline Cloud Data Fusion.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[[["\u003cp\u003eCloud Data Fusion: Studio is a visual interface for designing, executing, and managing data pipelines using pre-built plugins, connecting to various on-premises and cloud data sources and destinations.\u003c/p\u003e\n"],["\u003cp\u003eThe Studio includes System and Namespace Administration modules to centrally manage configurations, compute profiles, runtime preferences, and other settings for multiple namespaces within each Cloud Data Fusion instance.\u003c/p\u003e\n"],["\u003cp\u003ePipeline Design Studio enables users to connect to data sources, prepare and transform data with Wrangler, apply transformations, preview data, and manage pipeline configurations like compute, engine, and resource settings.\u003c/p\u003e\n"],["\u003cp\u003eUsers can reuse data pipelines by parameterizing them with macros, preferences, and runtime arguments, which allows for a single pipeline to be applied across various use cases and datasets, while also scheduling and orchestrating data pipelines.\u003c/p\u003e\n"],["\u003cp\u003eThe Studio offers features for editing deployed pipelines, managing source control with Git integration, and monitoring pipeline metrics and logs via Stackdriver logging, allowing for better control and manageability.\u003c/p\u003e\n"]]],[],null,["# Introduction to Cloud Data Fusion: Studio\n\nThis page introduces Cloud Data Fusion: Studio, which is a visual,\nclick-and-drag interface for building data pipelines from a library of prebuilt\nplugins and an interface where you configure, execute, and manage your pipelines.\nBuilding a pipeline in the Studio typically follows this process:\n\n1. Connect to an on-premises or cloud data source.\n2. Prepare and transform your data.\n3. Connect to the destination.\n4. Test your pipeline.\n5. Execute your pipeline.\n6. Schedule and trigger your pipelines.\n\nAfter you design and execute the pipeline, you can manage pipelines on the\nCloud Data Fusion **Pipeline Studio** page:\n\n- Reuse pipelines by parameterizing them with preferences and runtime arguments.\n- Manage pipeline execution by customizing compute profiles, managing resources, and fine-tuning pipeline performance.\n- Manage pipeline lifecycle by editing pipelines.\n- Manage pipeline source control using Git integration.\n\n| **Note:** The Studio also provides administrative controls to centrally manage your configurations.\n\nBefore you begin\n----------------\n\n- [Enable the Cloud Data Fusion API](/data-fusion/docs/how-to/enable-service).\n- [Create a Cloud Data Fusion instance](/data-fusion/docs/how-to/create-instance).\n- Understand [access control in Cloud Data Fusion](/data-fusion/docs/access-control).\n- Understand key [concepts and terms](/data-fusion/docs/concepts/overview#concepts) in Cloud Data Fusion.\n\nCloud Data Fusion: Studio overview\n----------------------------------\n\nThe Studio includes the following components.\n\n### Administration\n\nCloud Data Fusion lets you have multiple\n[namespaces](/data-fusion/docs/concepts/overview#namespace) in each instance. Within the Studio, administrators can manage\nall of the namespaces centrally, or each namespace individually.\n\nThe Studio provides the following administrator controls:\n\nSystem Administration\n: The **System Admin** module in the Studio lets you create new namespaces and\n define the central [compute profile](/data-fusion/docs/concepts/overview#compute-profile) configurations at the system level,\n which are applicable to each namespace in that instance. For more information,\n see [Manage Studio administration](/data-fusion/docs/concepts/manage-studio-administration).\n\nNamespace Administration\n: The **Namespace Admin** module in the Studio lets you manage the\n configurations for the specific namespace. For each namespace, you can define\n compute profiles, runtime preferences, drivers, service accounts and git\n configurations. For more information, see [Manage Studio administration](/data-fusion/docs/concepts/manage-studio-administration).\n\n### Pipeline Design Studio\n\nYou design and execute pipelines in the *Pipeline Design Studio* in the\nCloud Data Fusion web interface. Designing and executing data pipelines\nincludes the following steps:\n\n- **Connect to a source** : Cloud Data Fusion allows connections to on-premises and cloud data sources. The Studio interface has default system plugins, which come pre-installed in the Studio. You can download additional plugins from a plugin repository, known as the *Hub* . For more information, see the [Plugins overview](/data-fusion/docs/concepts/plugins).\n- **Data preparation** : Cloud Data Fusion lets you prepare your data using its powerful data preparation plugin: *Wrangler* . Wrangler helps you view, explore, and transform a small sample of your data in one place before running the logic on the entire dataset in the Studio. This lets you quickly apply transformations to gain an understanding of how they affect the entire dataset. You can create multiple transformations and add them to a recipe. For more information, see the [Wrangler overview](/data-fusion/docs/concepts/wrangler-overview).\n- **Transform** : Transform plugins change data after it's loaded from a source---for example, you can clone a record, change the file format to JSON, or use the Javascript plugin to create a custom transformation. For more information, see the [Plugins overview](/data-fusion/docs/concepts/plugins).\n- **Connect to a destination** : After you prepare the data and apply transformations, you can connect to the destination where you plan to load the data. Cloud Data Fusion supports connections to multiple destinations. For more information, see [Plugins overview](/data-fusion/docs/concepts/plugins).\n- **Preview** : After you design the pipeline, to debug issues before you deploy and run a pipeline, you run a *Preview job* . If you encounter any errors, you can fix them while in *Draft* mode. The Studio uses the first 100 rows of your source dataset to generate the preview. The Studio displays the status and duration of the Preview job. You can stop the job anytime. You can also monitor the log events as the Preview job runs. For more information, see [Preview data](/data-fusion/docs/how-to/preview-data).\n- **Manage pipeline configurations**: After you preview the data, you can\n deploy the pipeline and manage the following pipeline configurations:\n\n - **Compute configuration**: You can change the compute profile that runs the pipeline---for example, you want to run the pipeline against a customized Dataproc cluster rather than the default Dataproc cluster.\n - **Pipeline configuration**: For each pipeline, you can enable or disable instrumentation, such as timing metrics. By default, instrumentation is enabled.\n - **Engine configuration**: Spark is the default execution engine. You can pass custom parameters for Spark.\n - **Resources**: You can specify the memory and number of CPUs for the Spark driver and executor. The driver orchestrates the Spark job. The executor handles the data processing in Spark.\n - **Pipeline alert**: You can configure the pipeline to send alerts and start post-processing tasks after the pipeline run finishes. You create pipeline alerts when you design the pipeline. After you deploy the pipeline, you can view the alerts. To change alert settings, you can edit the pipeline.\n - **Transformation pushdown**: You can enable Transformation pushdown if you want a pipeline to execute certain transformations in BigQuery.\n\n For more information, see [Manage pipeline configurations](/data-fusion/docs/concepts/manage-pipeline-configurations).\n- **Reuse pipelines using macros, preferences, and runtime arguments** :\n Cloud Data Fusion lets you reuse data pipelines. With reusable\n data pipelines, you can have a single pipeline that can apply a data\n integration pattern to a variety of use cases and datasets. Reusable\n pipelines give you better manageability. They let you set most of the\n configuration of a pipeline at execution time, instead of hard-coding it at\n design time. In the Pipeline Design Studio, you can use macros to add\n variables to plugin configurations so that you can specify the variable\n substitutions at runtime. For more information,\n see [Manage macros, preferences, and runtime arguments](/data-fusion/docs/how-to/manage-macros-prefs-and-runtime-args).\n\n- **Execute**: Once you have reviewed the pipeline configurations, you\n can initiate the pipeline execution. You can see the status change during\n the phases of the pipeline run---for example provisioning, starting,\n running, and success.\n\n- **Schedule and orchestrate**: Batch data pipelines can be set to run on\n a specified schedule and frequency. After you create and deploy a pipeline,\n you can create a schedule. In the Pipeline Design Studio, you can\n orchestrate pipelines by creating a trigger on a batch data pipeline to\n have it run when one or more pipeline runs complete. These are called\n downstream and upstream pipelines. You create a trigger on the downstream\n pipeline so that it runs based on the completion of one or more upstream\n pipelines.\n\n Recommended: You can also use Composer to orchestrate pipelines\n in Cloud Data Fusion. For more information, see\n [Schedule pipelines](/data-fusion/docs/how-to/schedule-pipelines) and [Orchestrate pipelines](/data-fusion/docs/concepts/orchestrate-pipelines).\n- **Edit pipelines** : Cloud Data Fusion lets you edit a deployed\n pipeline. When you edit a deployed pipeline, it creates a new version of\n the pipeline with the same name and marks it as the latest version. This\n lets you develop pipelines iteratively rather than duplicating pipelines,\n which creates a new pipeline with a different name. For more information,\n see [Edit pipelines](/data-fusion/docs/how-to/edit-a-pipeline).\n\n- **Source Control Management** : Cloud Data Fusion lets you better\n manage pipelines between development and production with\n [Source Control Management of the pipelines using GitHub](/data-fusion/docs/how-to/source-control-management).\n\n- **Logging and monitoring**: To monitor pipeline metrics and logs, it's\n recommended that you enable the Stackdriver logging service to use\n Cloud Logging with your Cloud Data Fusion pipeline.\n\nWhat's next\n-----------\n\n- Learn more about [managing Studio administration](/data-fusion/docs/concepts/manage-studio-administration)."]]