Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Nesta página, explicamos a terminologia e os conceitos básicos do processamento de pipeline no
Cloud Data Fusion.
A performance do pipeline depende dos seguintes aspectos:
O tamanho e as características dos seus dados
A estrutura do pipeline
Dimensionamento de cluster
Plug-ins usados pelo pipeline do Cloud Data Fusion
Terminologia de processamento de pipeline no Cloud Data Fusion
A terminologia a seguir se aplica ao processamento de pipeline no Cloud Data Fusion.
Tipo de máquina
Tipo de máquinas virtuais (VMs) usadas (CPU, memória).
Cluster
Um grupo de VMs que trabalham juntas para lidar com tarefas de processamento de dados em grande escala.
Nós mestres e de trabalho
Máquinas físicas ou virtuais que podem fazer processamento. Os nós mestres geralmente
coordenam o trabalho. Os nós de trabalho executam executores que processam dados. Eles têm
características de máquina (quantidade de memória e número de vCores disponíveis para
processos).
vCores, núcleos ou CPUs
Um recurso que faz computação. Normalmente, os nós fornecem uma certa quantidade de
núcleos, e os executores solicitam uma ou algumas CPUs. Equilibre isso com a
memória, ou você pode subutilizar seu cluster.
Driver
Uma única VM que atua como o coordenador central de todo o cluster. Ele
gerencia tarefas, programa o trabalho em nós de worker e monitora o progresso do job.
Executores
Várias VMs realizando as tarefas de processamento de dados reais, conforme instruído pelo
driver. Seus dados são particionados e distribuídos entre esses executores para
processamento paralelo. Para usar todos os executores, é preciso ter divisões
suficientes.
Divisões ou partições
Um conjunto de dados é dividido em divisões (outro nome para partições) para processar dados em
paralelo. Se você não tiver divisões suficientes, não poderá usar todo o
cluster.
Visão geral do ajuste de desempenho
Os pipelines são executados em clusters de máquinas. Quando você escolhe executar pipelines do Cloud Data Fusion em clusters do Dataproc (que é o provisionador recomendado), ele usa o YARN (Yet Another Resource Negotiator) em segundo plano. O Dataproc usa o YARN para o gerenciamento de recursos no
cluster. Quando você envia um pipeline do Cloud Data Fusion para um cluster do Dataproc, o job do Apache Spark aproveita o YARN para a alocação de recursos e a programação de tarefas.
Um cluster consiste em nós mestre e de trabalho. Os nós mestres geralmente
são responsáveis por coordenar o trabalho, enquanto os nós de trabalho executam o trabalho real.
Os clusters normalmente têm um pequeno número de nós mestre (um ou três) e um
grande número de workers. O YARN é usado como o sistema de coordenação de trabalho. O YARN executa
um serviço do Resource Manager no nó mestre e um serviço do Node Manager em cada
nó de trabalho. Os Resource Managers coordenam entre todos os Node Managers para
determinar onde criar e executar contêineres no cluster.
Em cada nó de trabalho, o Node Manager reserva uma parte da memória e das CPUs da máquina disponíveis para executar contêineres do YARN. Por exemplo, em um
cluster do Dataproc, se os nós de worker forem VMs n1-standard-4
(4 CPUs, 15 GB de memória), cada gerenciador de nós reservará 4 CPUs e
12 GB de memória para a execução de contêineres YARN. Os 3 GB restantes de memória
são reservados para os outros serviços do Hadoop em execução no nó.
Quando um pipeline é executado no YARN, ele inicia um driver de fluxo de trabalho do pipeline, um driver do Spark e muitos executores do Spark no Dataproc.
O driver de fluxo de trabalho é responsável por iniciar um ou mais programas do Spark
que compõem um pipeline. O driver do fluxo de trabalho geralmente não faz muito trabalho. Cada
programa do Spark executa um único driver e vários executores do Spark. O
driver coordena o trabalho entre os executores, mas geralmente não realiza
nenhum trabalho real. A maior parte do trabalho real é realizada pelos executores do Spark.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-10 UTC."],[[["\u003cp\u003eThis page introduces pipeline processing concepts and terminology within Cloud Data Fusion, emphasizing how data pipelines are executed.\u003c/p\u003e\n"],["\u003cp\u003ePipeline performance is influenced by data size, pipeline structure, cluster sizing, and the plugins used.\u003c/p\u003e\n"],["\u003cp\u003eKey components in pipeline processing include machine types, clusters, master/worker nodes, vCores, drivers, executors, and splits, each playing a specific role in data processing.\u003c/p\u003e\n"],["\u003cp\u003eCloud Data Fusion pipelines on Dataproc clusters use YARN for resource management, coordinating work across master and worker nodes.\u003c/p\u003e\n"],["\u003cp\u003eThe actual data processing work is performed by Spark executors, which are coordinated by a Spark driver, with the workflow driver managing the overall pipeline execution.\u003c/p\u003e\n"]]],[],null,["# Pipeline performance overview\n\nThis page explains the basic terminology and concepts of pipeline processing in\nCloud Data Fusion.\n\nPipeline performance depends on the following aspects:\n\n- The size and characteristics of your data\n- The structure of your pipeline\n- Cluster sizing\n- Plugins that your Cloud Data Fusion pipeline uses\n\nPipeline processing terminology in Cloud Data Fusion\n----------------------------------------------------\n\nThe following terminology applies in pipeline processing in\nCloud Data Fusion.\n\nMachine type\n: Type of virtual machines (VMs) used (CPU, memory).\n\nCluster\n: A group of VMs working together to handle large-scale data processing tasks.\n\nMaster and worker nodes\n: Physical or virtual machines that can do processing. Master nodes usually\n coordinate work. Worker nodes run executors that process data. They have\n machine characteristics (amount of memory and number of vCores available for\n processes).\n\nvCores, Cores, or CPUs\n: A resource that does computing. Usually your nodes provide a certain amount of\n Cores and your Executors request one or a few CPUs. Balance this along with\n memory, or you might underutilize your cluster.\n\nDriver\n: A single VM that acts as the central coordinator for the entire cluster. It\n manages tasks, schedules work across worker nodes, and monitors job progress.\n\nExecutors\n: Multiple VMs performing the actual data processing tasks, as instructed by the\n driver. Your data is partitioned and distributed across these executors for\n parallel processing. To utilize all of the executors, you must have enough\n splits.\n\nSplits or partitions\n: A dataset is *split* into splits (other name partitions) to process data in\n parallel. If you don't have enough splits, you can't utilize the whole\n cluster.\n\nPerformance tuning overview\n---------------------------\n\nPipelines are executed on clusters of machines. When you choose to run\nCloud Data Fusion pipelines on Dataproc clusters (which is the\nrecommended provisioner), it uses YARN (Yet Another Resource Negotiator) behind\nthe scenes. Dataproc utilizes YARN for resource management within\nthe cluster. When you submit a Cloud Data Fusion pipeline to a\nDataproc cluster, the underlying Apache Spark job leverages YARN\nfor resource allocation and task scheduling.\n\nA cluster consists of master and worker nodes. Master nodes are generally\nresponsible for coordinating work, while worker nodes perform the actual work.\nClusters will normally have a small number of master nodes (one or three) and a\nlarge number of workers. YARN is used as the work coordination system. YARN runs\na Resource Manager service on the master node and a Node Manager service on each\nworker node. Resource Managers coordinate amongst all the Node Managers to\ndetermine where to create and execute containers on the cluster.\n\nOn each worker node, the Node Manager reserves a portion of the available\nmachine memory and CPUs for running YARN containers. For example, on a\nDataproc cluster, if your worker nodes are n1-standard-4 VMs\n(4 CPU, 15 GB memory), each Node Manager will reserve 4 CPUs and\n12 GB memory for running YARN containers. The remaining 3 GB of memory\nis left for the other Hadoop services running on the node.\n\nWhen a pipeline is run on YARN, it will launch a pipeline workflow driver, a\nSpark driver, and many Spark executors in Dataproc.\n\nThe workflow driver is responsible for launching the one or more Spark programs\nthat make up a pipeline. The workflow driver usually doesn't do much work. Each\nSpark program runs a single Spark driver and multiple Spark executors. The\ndriver coordinates work amongst the executors, but usually doesn't perform any\nactual work. Most of the actual work is performed by the Spark executors.\n\nWhat's next\n-----------\n\n- Learn about [parallel processing](/data-fusion/docs/concepts/parallel-processing) in Cloud Data Fusion."]]