Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
En esta página, se presenta Cloud Data Fusion: Studio, que es una interfaz visual de arrastrar y soltar para crear canalizaciones de datos a partir de una biblioteca de complementos precompilados y una interfaz en la que configuras, ejecutas y administras tus canalizaciones.
Por lo general, la compilación de una canalización en Studio sigue este proceso:
Conéctate a una fuente de datos local o en la nube.
Prepara y transforma tus datos.
Conéctate al destino.
Prueba tu canalización.
Ejecuta tu canalización.
Programa y activa tus canalizaciones.
Después de diseñar y ejecutar la canalización, puedes administrar las canalizaciones en la página Pipeline Studio de Cloud Data Fusion:
Para volver a usar canalizaciones, paramétralas con preferencias y argumentos de entorno de ejecución.
Administra la ejecución de canalizaciones personalizando perfiles de procesamiento, administrando recursos y ajustando el rendimiento de la canalización.
Edita las canalizaciones para administrar su ciclo de vida.
Administra el control de código fuente de la canalización con la integración de Git.
Cloud Data Fusion te permite tener varios
espacios de nombres en cada instancia. En Studio, los administradores pueden administrar todos los espacios de nombres de forma centralizada o cada uno de forma individual.
Studio proporciona los siguientes controles de administrador:
Administración de sistemas
El módulo Administrador del sistema de Studio te permite crear espacios de nombres nuevos y
definir las configuraciones centrales del perfil de procesamiento a nivel del sistema,
que se pueden aplicar a cada espacio de nombres en esa instancia. Para obtener más información, consulta Cómo administrar la administración de Studio.
Administración de espacios de nombres
El módulo Administrador de espacios de nombres de Studio te permite administrar las configuraciones del espacio de nombres específico. Para cada espacio de nombres, puedes definir perfiles de procesamiento, preferencias de entorno de ejecución, controladores, cuentas de servicio y configuraciones de git. Para obtener más información, consulta Administra la administración de Studio.
Pipeline Design Studio
Diseñas y ejecutas canalizaciones en Pipeline Design Studio en la interfaz web de Cloud Data Fusion. El diseño y la ejecución de canalizaciones de datos incluyen los siguientes pasos:
Conectarse a una fuente: Cloud Data Fusion permite conexiones a fuentes de datos locales y en la nube. La interfaz de Studio tiene complementos del sistema predeterminados, que vienen preinstalados en Studio. Puedes descargar complementos adicionales desde un repositorio de complementos, conocido como Hub. Para obtener más información, consulta la descripción general de los complementos.
Preparación de datos: Cloud Data Fusion te permite preparar tus datos con su potente complemento de preparación de datos: Wrangler. Wrangler te ayuda a ver, explorar y transformar una pequeña muestra de tus datos en un solo lugar antes de ejecutar la lógica en todo el conjunto de datos en Studio. Esto te permite aplicar transformaciones rápidamente para comprender cómo afectan a todo el conjunto de datos. Puedes crear varias transformaciones y agregarlas a una receta. Para obtener más información, consulta la descripción general de Wrangler.
Transform: Los complementos de transformación cambian los datos después de que se cargan desde una fuente. Por ejemplo, puedes clonar un registro, cambiar el formato del archivo a JSON o usar el complemento de JavaScript para crear una transformación personalizada. Para obtener más información, consulta la descripción general de los complementos.
Conectarse a un destino: Después de preparar los datos y aplicar las transformaciones, puedes conectarte al destino al que planeas cargar los datos. Cloud Data Fusion admite conexiones a varios destinos. Para obtener más información, consulta Descripción general de los complementos.
Versión preliminar: Después de diseñar la canalización, para depurar problemas antes de implementar y ejecutar una canalización, ejecutas una tarea de vista previa. Si encuentras algún error, puedes corregirlo en el modo Borrador. Studio usa las primeras
100 filas de tu conjunto de datos de origen para generar la vista previa. Studio muestra el estado y la duración de la tarea de vista previa. Puedes detener la tarea en cualquier momento.
También puedes supervisar los eventos de registro mientras se ejecuta la tarea de vista previa. Para obtener más información, consulta Cómo obtener una vista previa de los datos.
Administrar configuraciones de canalización: Después de obtener una vista previa de los datos, puedes implementar la canalización y administrar las siguientes configuraciones:
Configuración de procesamiento: Puedes cambiar el perfil de procesamiento que ejecuta la canalización. Por ejemplo, deseas ejecutar la canalización en un clúster de Dataproc personalizado en lugar del clúster de Dataproc predeterminado.
Configuración de la canalización: Para cada canalización, puedes habilitar o inhabilitar la instrumentación, como las métricas de tiempo. De forma predeterminada, la instrumentación está
habilitada.
Configuración del motor: Spark es el motor de ejecución predeterminado. Puedes pasar parámetros personalizados para Spark.
Recursos: Puedes especificar la memoria y la cantidad de CPUs para el controlador y el ejecutor de Spark. El controlador organiza el trabajo de Spark. El ejecutor controla el procesamiento de datos en Spark.
Alerta de canalización: Puedes configurar la canalización para que envíe alertas y comience tareas de procesamiento posterior después de que finalice la ejecución de la canalización. Cuando diseñas la canalización,
creas alertas de canalización. Después de implementar
la canalización, podrás ver las alertas. Para cambiar la configuración de alertas, puedes editar la canalización.
Envío de transformaciones: Puedes habilitar el envío de transformaciones si
deseas que una canalización ejecute ciertas transformaciones en
BigQuery.
Reutiliza canalizaciones con macros, preferencias y argumentos de tiempo de ejecución:
Cloud Data Fusion te permite reutilizar canalizaciones de datos. Con canalizaciones de datos reutilizables, puedes tener una sola canalización que pueda aplicar un patrón de integración de datos a una variedad de casos de uso y conjuntos de datos. Las canalización
reutilizables te brindan una mejor capacidad de administración. Te permiten configurar la mayor parte de la
configuración de una canalización en el momento de la ejecución, en lugar de codificarla de forma fija en el
momento del diseño. En Pipeline Design Studio, puedes usar macros para agregar variables a las configuraciones de complementos, de modo que puedas especificar las sustituciones de variables en el tiempo de ejecución. Para obtener más información, consulta Administra macros, preferencias y argumentos del entorno de ejecución.
Ejecutar: Una vez que hayas revisado las configuraciones de la canalización, puedes iniciar su ejecución. Puedes ver el cambio de estado durante las fases de la ejecución de la canalización, por ejemplo, aprovisionamiento, inicio, ejecución y éxito.
Programar y organizar: Las canalizaciones de datos por lotes se pueden configurar para que se ejecuten en una programación y frecuencia específicas. Después de crear e implementar una canalización,
puedes crear un programa. En Pipeline Design Studio, puedes orquestar canalizaciones creando un activador en una canalización de datos por lotes para que se ejecute cuando se completen una o más ejecuciones de canalización. Estos se denominan canalizaciones descendentes y ascendentes. Creas un activador en la canalización descendente para que se ejecute según la finalización de una o más canalizaciones ascendentes.
Opción recomendada: También puedes usar Composer para organizar canalizaciones
en Cloud Data Fusion. Para obtener más información, consulta Programa canalizaciones y Orquesta canalizaciones.
Editar canalizaciones: Cloud Data Fusion te permite editar una canalización
implementada. Cuando editas una canalización implementada, se crea una versión nueva de la canalización con el mismo nombre y se marca como la versión más reciente. Esto
te permite desarrollar canalizaciones de forma iterativa en lugar de duplicarlas,
lo que crea una canalización nueva con un nombre diferente. Para obtener más información, consulta Edita canalizaciones.
Registro y supervisión: Para supervisar los registros y las métricas de la canalización, se recomienda que habilites el servicio de registro de Stackdriver para usar Cloud Logging con tu canalización de Cloud Data Fusion.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[[["\u003cp\u003eCloud Data Fusion: Studio is a visual interface for designing, executing, and managing data pipelines using pre-built plugins, connecting to various on-premises and cloud data sources and destinations.\u003c/p\u003e\n"],["\u003cp\u003eThe Studio includes System and Namespace Administration modules to centrally manage configurations, compute profiles, runtime preferences, and other settings for multiple namespaces within each Cloud Data Fusion instance.\u003c/p\u003e\n"],["\u003cp\u003ePipeline Design Studio enables users to connect to data sources, prepare and transform data with Wrangler, apply transformations, preview data, and manage pipeline configurations like compute, engine, and resource settings.\u003c/p\u003e\n"],["\u003cp\u003eUsers can reuse data pipelines by parameterizing them with macros, preferences, and runtime arguments, which allows for a single pipeline to be applied across various use cases and datasets, while also scheduling and orchestrating data pipelines.\u003c/p\u003e\n"],["\u003cp\u003eThe Studio offers features for editing deployed pipelines, managing source control with Git integration, and monitoring pipeline metrics and logs via Stackdriver logging, allowing for better control and manageability.\u003c/p\u003e\n"]]],[],null,["# Introduction to Cloud Data Fusion: Studio\n\nThis page introduces Cloud Data Fusion: Studio, which is a visual,\nclick-and-drag interface for building data pipelines from a library of prebuilt\nplugins and an interface where you configure, execute, and manage your pipelines.\nBuilding a pipeline in the Studio typically follows this process:\n\n1. Connect to an on-premises or cloud data source.\n2. Prepare and transform your data.\n3. Connect to the destination.\n4. Test your pipeline.\n5. Execute your pipeline.\n6. Schedule and trigger your pipelines.\n\nAfter you design and execute the pipeline, you can manage pipelines on the\nCloud Data Fusion **Pipeline Studio** page:\n\n- Reuse pipelines by parameterizing them with preferences and runtime arguments.\n- Manage pipeline execution by customizing compute profiles, managing resources, and fine-tuning pipeline performance.\n- Manage pipeline lifecycle by editing pipelines.\n- Manage pipeline source control using Git integration.\n\n| **Note:** The Studio also provides administrative controls to centrally manage your configurations.\n\nBefore you begin\n----------------\n\n- [Enable the Cloud Data Fusion API](/data-fusion/docs/how-to/enable-service).\n- [Create a Cloud Data Fusion instance](/data-fusion/docs/how-to/create-instance).\n- Understand [access control in Cloud Data Fusion](/data-fusion/docs/access-control).\n- Understand key [concepts and terms](/data-fusion/docs/concepts/overview#concepts) in Cloud Data Fusion.\n\nCloud Data Fusion: Studio overview\n----------------------------------\n\nThe Studio includes the following components.\n\n### Administration\n\nCloud Data Fusion lets you have multiple\n[namespaces](/data-fusion/docs/concepts/overview#namespace) in each instance. Within the Studio, administrators can manage\nall of the namespaces centrally, or each namespace individually.\n\nThe Studio provides the following administrator controls:\n\nSystem Administration\n: The **System Admin** module in the Studio lets you create new namespaces and\n define the central [compute profile](/data-fusion/docs/concepts/overview#compute-profile) configurations at the system level,\n which are applicable to each namespace in that instance. For more information,\n see [Manage Studio administration](/data-fusion/docs/concepts/manage-studio-administration).\n\nNamespace Administration\n: The **Namespace Admin** module in the Studio lets you manage the\n configurations for the specific namespace. For each namespace, you can define\n compute profiles, runtime preferences, drivers, service accounts and git\n configurations. For more information, see [Manage Studio administration](/data-fusion/docs/concepts/manage-studio-administration).\n\n### Pipeline Design Studio\n\nYou design and execute pipelines in the *Pipeline Design Studio* in the\nCloud Data Fusion web interface. Designing and executing data pipelines\nincludes the following steps:\n\n- **Connect to a source** : Cloud Data Fusion allows connections to on-premises and cloud data sources. The Studio interface has default system plugins, which come pre-installed in the Studio. You can download additional plugins from a plugin repository, known as the *Hub* . For more information, see the [Plugins overview](/data-fusion/docs/concepts/plugins).\n- **Data preparation** : Cloud Data Fusion lets you prepare your data using its powerful data preparation plugin: *Wrangler* . Wrangler helps you view, explore, and transform a small sample of your data in one place before running the logic on the entire dataset in the Studio. This lets you quickly apply transformations to gain an understanding of how they affect the entire dataset. You can create multiple transformations and add them to a recipe. For more information, see the [Wrangler overview](/data-fusion/docs/concepts/wrangler-overview).\n- **Transform** : Transform plugins change data after it's loaded from a source---for example, you can clone a record, change the file format to JSON, or use the Javascript plugin to create a custom transformation. For more information, see the [Plugins overview](/data-fusion/docs/concepts/plugins).\n- **Connect to a destination** : After you prepare the data and apply transformations, you can connect to the destination where you plan to load the data. Cloud Data Fusion supports connections to multiple destinations. For more information, see [Plugins overview](/data-fusion/docs/concepts/plugins).\n- **Preview** : After you design the pipeline, to debug issues before you deploy and run a pipeline, you run a *Preview job* . If you encounter any errors, you can fix them while in *Draft* mode. The Studio uses the first 100 rows of your source dataset to generate the preview. The Studio displays the status and duration of the Preview job. You can stop the job anytime. You can also monitor the log events as the Preview job runs. For more information, see [Preview data](/data-fusion/docs/how-to/preview-data).\n- **Manage pipeline configurations**: After you preview the data, you can\n deploy the pipeline and manage the following pipeline configurations:\n\n - **Compute configuration**: You can change the compute profile that runs the pipeline---for example, you want to run the pipeline against a customized Dataproc cluster rather than the default Dataproc cluster.\n - **Pipeline configuration**: For each pipeline, you can enable or disable instrumentation, such as timing metrics. By default, instrumentation is enabled.\n - **Engine configuration**: Spark is the default execution engine. You can pass custom parameters for Spark.\n - **Resources**: You can specify the memory and number of CPUs for the Spark driver and executor. The driver orchestrates the Spark job. The executor handles the data processing in Spark.\n - **Pipeline alert**: You can configure the pipeline to send alerts and start post-processing tasks after the pipeline run finishes. You create pipeline alerts when you design the pipeline. After you deploy the pipeline, you can view the alerts. To change alert settings, you can edit the pipeline.\n - **Transformation pushdown**: You can enable Transformation pushdown if you want a pipeline to execute certain transformations in BigQuery.\n\n For more information, see [Manage pipeline configurations](/data-fusion/docs/concepts/manage-pipeline-configurations).\n- **Reuse pipelines using macros, preferences, and runtime arguments** :\n Cloud Data Fusion lets you reuse data pipelines. With reusable\n data pipelines, you can have a single pipeline that can apply a data\n integration pattern to a variety of use cases and datasets. Reusable\n pipelines give you better manageability. They let you set most of the\n configuration of a pipeline at execution time, instead of hard-coding it at\n design time. In the Pipeline Design Studio, you can use macros to add\n variables to plugin configurations so that you can specify the variable\n substitutions at runtime. For more information,\n see [Manage macros, preferences, and runtime arguments](/data-fusion/docs/how-to/manage-macros-prefs-and-runtime-args).\n\n- **Execute**: Once you have reviewed the pipeline configurations, you\n can initiate the pipeline execution. You can see the status change during\n the phases of the pipeline run---for example provisioning, starting,\n running, and success.\n\n- **Schedule and orchestrate**: Batch data pipelines can be set to run on\n a specified schedule and frequency. After you create and deploy a pipeline,\n you can create a schedule. In the Pipeline Design Studio, you can\n orchestrate pipelines by creating a trigger on a batch data pipeline to\n have it run when one or more pipeline runs complete. These are called\n downstream and upstream pipelines. You create a trigger on the downstream\n pipeline so that it runs based on the completion of one or more upstream\n pipelines.\n\n Recommended: You can also use Composer to orchestrate pipelines\n in Cloud Data Fusion. For more information, see\n [Schedule pipelines](/data-fusion/docs/how-to/schedule-pipelines) and [Orchestrate pipelines](/data-fusion/docs/concepts/orchestrate-pipelines).\n- **Edit pipelines** : Cloud Data Fusion lets you edit a deployed\n pipeline. When you edit a deployed pipeline, it creates a new version of\n the pipeline with the same name and marks it as the latest version. This\n lets you develop pipelines iteratively rather than duplicating pipelines,\n which creates a new pipeline with a different name. For more information,\n see [Edit pipelines](/data-fusion/docs/how-to/edit-a-pipeline).\n\n- **Source Control Management** : Cloud Data Fusion lets you better\n manage pipelines between development and production with\n [Source Control Management of the pipelines using GitHub](/data-fusion/docs/how-to/source-control-management).\n\n- **Logging and monitoring**: To monitor pipeline metrics and logs, it's\n recommended that you enable the Stackdriver logging service to use\n Cloud Logging with your Cloud Data Fusion pipeline.\n\nWhat's next\n-----------\n\n- Learn more about [managing Studio administration](/data-fusion/docs/concepts/manage-studio-administration)."]]