Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Esta página apresenta o Cloud Data Fusion: Studio, que é uma interface visual
de clique e arrasto para criar pipelines de dados de uma biblioteca de plug-ins pré-criados
e uma interface em que você configura, executa e gerencia seus pipelines.
A criação de um pipeline no Studio geralmente segue este processo:
Conecte-se a uma fonte de dados local ou na nuvem.
Prepare e transforme seus dados.
Conecte-se ao destino.
Teste o pipeline.
Execute o pipeline.
Programe e acione seus pipelines.
Depois de projetar e executar o pipeline, é possível gerenciá-lo na página Pipeline Studio do Cloud Data Fusion:
Reutilize pipelines parametrizando-os com preferências e
argumentos de execução.
Gerencie a execução do pipeline personalizando perfis de computação, gerenciando
recursos e ajustando a performance do pipeline.
Gerenciar o ciclo de vida do pipeline editando pipelines.
Gerenciar o controle de origem do pipeline usando a integração do Git.
O Cloud Data Fusion permite ter vários namespaces em cada instância. No Studio, os administradores podem gerenciar
todos os namespaces de forma centralizada ou cada um deles individualmente.
O Studio oferece os seguintes controles de administrador:
Administração do sistema
O módulo Administrador do sistema no Studio permite criar novos namespaces e
definir as configurações centrais do perfil de computação no nível do sistema,
que são aplicáveis a cada namespace nessa instância. Para mais informações,
consulte Gerenciar a administração do Studio.
Administração de namespace
O módulo Administrador de namespace no Studio permite gerenciar as
configurações de um namespace específico. Para cada namespace, é possível definir
perfis de computação, preferências de execução, drivers, contas de serviço e configurações
do git. Para mais informações, consulte Gerenciar a administração do Studio.
Pipeline Design Studio
Você projeta e executa pipelines no Pipeline Design Studio na interface da Web do Cloud Data Fusion. O design e a execução de pipelines de dados
incluem as seguintes etapas:
Conectar a uma fonte: o Cloud Data Fusion permite conexões com fontes de dados locais e na nuvem. A interface do Studio tem plug-ins
padrão do sistema, que vêm pré-instalados no Studio. É possível fazer o download de
plug-ins adicionais em um repositório de plug-ins, conhecido como Hub. Para mais
informações, consulte a Visão geral dos plug-ins.
Preparação de dados: o Cloud Data Fusion permite preparar seus dados usando o plug-in de preparação de dados Wrangler. O Wrangler ajuda a visualizar, explorar e transformar uma pequena amostra dos seus dados em um só lugar antes de executar a lógica em todo o conjunto de dados no Studio. Assim, você pode aplicar transformações rapidamente para entender como elas afetam todo o conjunto de dados. Você pode criar várias transformações e adicioná-las
a uma receita. Para mais informações, consulte a Visão geral do Wrangler.
Transformação: os plug-ins de transformação mudam os dados depois que eles são carregados de uma
fonte. Por exemplo, é possível clonar um registro, mudar o formato do arquivo para
JSON ou usar o plug-in JavaScript para criar uma transformação personalizada. Para
mais informações, consulte a Visão geral dos plug-ins.
Conectar a um destino: depois de preparar os dados e aplicar
as transformações, você pode se conectar ao destino onde pretende carregar
os dados. O Cloud Data Fusion oferece suporte a conexões com vários destinos. Para mais informações, consulte
Visão geral dos plug-ins.
Visualização: depois de projetar o pipeline, para depurar problemas antes de implantar e executar um pipeline, execute um job de visualização. Se você encontrar algum
erro, poderá corrigi-lo no modo Rascunho. O Studio usa as primeiras
100 linhas do conjunto de dados de origem para gerar a visualização. O Studio mostra
o status e a duração do job de visualização. Você pode interromper o job a qualquer momento.
Também é possível monitorar os eventos de registro à medida que o job de visualização é executado. Para mais
informações, consulte Pré-visualizar dados.
Gerenciar configurações do pipeline: depois de visualizar os dados, é possível
implantar o pipeline e gerenciar as seguintes configurações:
Configuração de computação: é possível mudar o perfil de computação que executa o pipeline. Por exemplo, você quer executar o pipeline em um cluster do Dataproc personalizado em vez do cluster padrão do Dataproc.
Configuração do pipeline: para cada pipeline, é possível ativar ou desativar a instrumentação, como métricas de tempo. Por padrão, a instrumentação é
ativada.
Configuração do mecanismo: o Spark é o mecanismo de execução padrão. É possível
transmitir parâmetros personalizados para o Spark.
Recursos: é possível especificar a memória e o número de CPUs para o
driver e o executor do Spark. O driver orquestra o job do Spark. O
executor processa os dados no Spark.
Alerta de pipeline: é possível configurar o pipeline para enviar alertas e
iniciar tarefas de pós-processamento após a execução do pipeline. Você
cria alertas de pipeline ao projetar o pipeline. Depois de implantar
o pipeline, você poderá conferir os alertas. Para mudar as configurações de alerta, você pode
editar o pipeline.
Pushdown de transformação: é possível ativar o pushdown de transformação se
você quiser que um pipeline execute determinadas transformações no
BigQuery.
Reutilizar pipelines usando macros, preferências e argumentos de execução:
o Cloud Data Fusion permite reutilizar pipelines de dados. Com pipelines de dados reutilizáveis, é possível ter um único pipeline que pode aplicar um padrão de integração de dados a vários casos de uso e conjuntos de dados. Os pipelines reutilizáveis oferecem melhor capacidade de gerenciamento. Eles permitem que você defina a maior parte da
configuração de um pipeline no momento da execução, em vez de codificá-la no momento do
design. No Pipeline Design Studio, é possível usar macros para adicionar
variáveis às configurações de plug-ins e especificar as substituições
de variáveis no momento da execução. Para mais informações,
consulte Gerenciar macros, preferências e argumentos de execução.
Executar: depois de revisar as configurações do pipeline, você pode iniciar a execução. É possível observar a mudança de status durante as fases da execução do pipeline, por exemplo, provisionamento, início, execução e sucesso.
Programar e orquestrar: os pipelines de dados em lote podem ser configurados para serem executados em
uma programação e frequência especificadas. Depois de criar e implantar um pipeline,
é possível criar uma programação. No Pipeline Design Studio, é possível
orquestrar pipelines criando um acionador em um pipeline de dados em lote para
que ele seja executado quando uma ou mais execuções de pipeline forem concluídas. Eles são chamados de
pipelines downstream e upstream. Você cria um acionador no pipeline downstream para que ele seja executado com base na conclusão de um ou mais pipelines upstream.
Recomendado: também é possível usar o Composer para orquestrar pipelines
no Cloud Data Fusion. Para mais informações, consulte Programar pipelines e Orquestrar pipelines.
Editar pipelines: o Cloud Data Fusion permite editar um pipeline
implantado. Quando você edita um pipeline implantado, uma nova versão do pipeline é criada com o mesmo nome e marcada como a versão mais recente. Isso
permite que você desenvolva pipelines de maneira iterativa em vez de duplicar pipelines,
criando um novo pipeline com um nome diferente. Para mais informações,
consulte Editar pipelines.
Registro e monitoramento: para monitorar métricas e registros do pipeline, é
recomendado ativar o serviço de registro do Stackdriver para usar o
Cloud Logging com o pipeline do Cloud Data Fusion.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-04 UTC."],[[["\u003cp\u003eCloud Data Fusion: Studio is a visual interface for designing, executing, and managing data pipelines using pre-built plugins, connecting to various on-premises and cloud data sources and destinations.\u003c/p\u003e\n"],["\u003cp\u003eThe Studio includes System and Namespace Administration modules to centrally manage configurations, compute profiles, runtime preferences, and other settings for multiple namespaces within each Cloud Data Fusion instance.\u003c/p\u003e\n"],["\u003cp\u003ePipeline Design Studio enables users to connect to data sources, prepare and transform data with Wrangler, apply transformations, preview data, and manage pipeline configurations like compute, engine, and resource settings.\u003c/p\u003e\n"],["\u003cp\u003eUsers can reuse data pipelines by parameterizing them with macros, preferences, and runtime arguments, which allows for a single pipeline to be applied across various use cases and datasets, while also scheduling and orchestrating data pipelines.\u003c/p\u003e\n"],["\u003cp\u003eThe Studio offers features for editing deployed pipelines, managing source control with Git integration, and monitoring pipeline metrics and logs via Stackdriver logging, allowing for better control and manageability.\u003c/p\u003e\n"]]],[],null,["# Introduction to Cloud Data Fusion: Studio\n\nThis page introduces Cloud Data Fusion: Studio, which is a visual,\nclick-and-drag interface for building data pipelines from a library of prebuilt\nplugins and an interface where you configure, execute, and manage your pipelines.\nBuilding a pipeline in the Studio typically follows this process:\n\n1. Connect to an on-premises or cloud data source.\n2. Prepare and transform your data.\n3. Connect to the destination.\n4. Test your pipeline.\n5. Execute your pipeline.\n6. Schedule and trigger your pipelines.\n\nAfter you design and execute the pipeline, you can manage pipelines on the\nCloud Data Fusion **Pipeline Studio** page:\n\n- Reuse pipelines by parameterizing them with preferences and runtime arguments.\n- Manage pipeline execution by customizing compute profiles, managing resources, and fine-tuning pipeline performance.\n- Manage pipeline lifecycle by editing pipelines.\n- Manage pipeline source control using Git integration.\n\n| **Note:** The Studio also provides administrative controls to centrally manage your configurations.\n\nBefore you begin\n----------------\n\n- [Enable the Cloud Data Fusion API](/data-fusion/docs/how-to/enable-service).\n- [Create a Cloud Data Fusion instance](/data-fusion/docs/how-to/create-instance).\n- Understand [access control in Cloud Data Fusion](/data-fusion/docs/access-control).\n- Understand key [concepts and terms](/data-fusion/docs/concepts/overview#concepts) in Cloud Data Fusion.\n\nCloud Data Fusion: Studio overview\n----------------------------------\n\nThe Studio includes the following components.\n\n### Administration\n\nCloud Data Fusion lets you have multiple\n[namespaces](/data-fusion/docs/concepts/overview#namespace) in each instance. Within the Studio, administrators can manage\nall of the namespaces centrally, or each namespace individually.\n\nThe Studio provides the following administrator controls:\n\nSystem Administration\n: The **System Admin** module in the Studio lets you create new namespaces and\n define the central [compute profile](/data-fusion/docs/concepts/overview#compute-profile) configurations at the system level,\n which are applicable to each namespace in that instance. For more information,\n see [Manage Studio administration](/data-fusion/docs/concepts/manage-studio-administration).\n\nNamespace Administration\n: The **Namespace Admin** module in the Studio lets you manage the\n configurations for the specific namespace. For each namespace, you can define\n compute profiles, runtime preferences, drivers, service accounts and git\n configurations. For more information, see [Manage Studio administration](/data-fusion/docs/concepts/manage-studio-administration).\n\n### Pipeline Design Studio\n\nYou design and execute pipelines in the *Pipeline Design Studio* in the\nCloud Data Fusion web interface. Designing and executing data pipelines\nincludes the following steps:\n\n- **Connect to a source** : Cloud Data Fusion allows connections to on-premises and cloud data sources. The Studio interface has default system plugins, which come pre-installed in the Studio. You can download additional plugins from a plugin repository, known as the *Hub* . For more information, see the [Plugins overview](/data-fusion/docs/concepts/plugins).\n- **Data preparation** : Cloud Data Fusion lets you prepare your data using its powerful data preparation plugin: *Wrangler* . Wrangler helps you view, explore, and transform a small sample of your data in one place before running the logic on the entire dataset in the Studio. This lets you quickly apply transformations to gain an understanding of how they affect the entire dataset. You can create multiple transformations and add them to a recipe. For more information, see the [Wrangler overview](/data-fusion/docs/concepts/wrangler-overview).\n- **Transform** : Transform plugins change data after it's loaded from a source---for example, you can clone a record, change the file format to JSON, or use the Javascript plugin to create a custom transformation. For more information, see the [Plugins overview](/data-fusion/docs/concepts/plugins).\n- **Connect to a destination** : After you prepare the data and apply transformations, you can connect to the destination where you plan to load the data. Cloud Data Fusion supports connections to multiple destinations. For more information, see [Plugins overview](/data-fusion/docs/concepts/plugins).\n- **Preview** : After you design the pipeline, to debug issues before you deploy and run a pipeline, you run a *Preview job* . If you encounter any errors, you can fix them while in *Draft* mode. The Studio uses the first 100 rows of your source dataset to generate the preview. The Studio displays the status and duration of the Preview job. You can stop the job anytime. You can also monitor the log events as the Preview job runs. For more information, see [Preview data](/data-fusion/docs/how-to/preview-data).\n- **Manage pipeline configurations**: After you preview the data, you can\n deploy the pipeline and manage the following pipeline configurations:\n\n - **Compute configuration**: You can change the compute profile that runs the pipeline---for example, you want to run the pipeline against a customized Dataproc cluster rather than the default Dataproc cluster.\n - **Pipeline configuration**: For each pipeline, you can enable or disable instrumentation, such as timing metrics. By default, instrumentation is enabled.\n - **Engine configuration**: Spark is the default execution engine. You can pass custom parameters for Spark.\n - **Resources**: You can specify the memory and number of CPUs for the Spark driver and executor. The driver orchestrates the Spark job. The executor handles the data processing in Spark.\n - **Pipeline alert**: You can configure the pipeline to send alerts and start post-processing tasks after the pipeline run finishes. You create pipeline alerts when you design the pipeline. After you deploy the pipeline, you can view the alerts. To change alert settings, you can edit the pipeline.\n - **Transformation pushdown**: You can enable Transformation pushdown if you want a pipeline to execute certain transformations in BigQuery.\n\n For more information, see [Manage pipeline configurations](/data-fusion/docs/concepts/manage-pipeline-configurations).\n- **Reuse pipelines using macros, preferences, and runtime arguments** :\n Cloud Data Fusion lets you reuse data pipelines. With reusable\n data pipelines, you can have a single pipeline that can apply a data\n integration pattern to a variety of use cases and datasets. Reusable\n pipelines give you better manageability. They let you set most of the\n configuration of a pipeline at execution time, instead of hard-coding it at\n design time. In the Pipeline Design Studio, you can use macros to add\n variables to plugin configurations so that you can specify the variable\n substitutions at runtime. For more information,\n see [Manage macros, preferences, and runtime arguments](/data-fusion/docs/how-to/manage-macros-prefs-and-runtime-args).\n\n- **Execute**: Once you have reviewed the pipeline configurations, you\n can initiate the pipeline execution. You can see the status change during\n the phases of the pipeline run---for example provisioning, starting,\n running, and success.\n\n- **Schedule and orchestrate**: Batch data pipelines can be set to run on\n a specified schedule and frequency. After you create and deploy a pipeline,\n you can create a schedule. In the Pipeline Design Studio, you can\n orchestrate pipelines by creating a trigger on a batch data pipeline to\n have it run when one or more pipeline runs complete. These are called\n downstream and upstream pipelines. You create a trigger on the downstream\n pipeline so that it runs based on the completion of one or more upstream\n pipelines.\n\n Recommended: You can also use Composer to orchestrate pipelines\n in Cloud Data Fusion. For more information, see\n [Schedule pipelines](/data-fusion/docs/how-to/schedule-pipelines) and [Orchestrate pipelines](/data-fusion/docs/concepts/orchestrate-pipelines).\n- **Edit pipelines** : Cloud Data Fusion lets you edit a deployed\n pipeline. When you edit a deployed pipeline, it creates a new version of\n the pipeline with the same name and marks it as the latest version. This\n lets you develop pipelines iteratively rather than duplicating pipelines,\n which creates a new pipeline with a different name. For more information,\n see [Edit pipelines](/data-fusion/docs/how-to/edit-a-pipeline).\n\n- **Source Control Management** : Cloud Data Fusion lets you better\n manage pipelines between development and production with\n [Source Control Management of the pipelines using GitHub](/data-fusion/docs/how-to/source-control-management).\n\n- **Logging and monitoring**: To monitor pipeline metrics and logs, it's\n recommended that you enable the Stackdriver logging service to use\n Cloud Logging with your Cloud Data Fusion pipeline.\n\nWhat's next\n-----------\n\n- Learn more about [managing Studio administration](/data-fusion/docs/concepts/manage-studio-administration)."]]