Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
En esta página, se explica la terminología y los conceptos básicos del procesamiento de canalizaciones en
Cloud Data Fusion.
El rendimiento de la canalización depende de los siguientes aspectos:
El tamaño y las características de tus datos
La estructura de tu canalización
Tamaño del clúster
Complementos que usa tu canalización de Cloud Data Fusion
Terminología del procesamiento de canalizaciones en Cloud Data Fusion
La siguiente terminología se aplica al procesamiento de canalizaciones en
Cloud Data Fusion.
Tipo de máquina
Tipo de máquinas virtuales (VM) que se usan (CPU, memoria).
Clúster
Un grupo de VMs que trabajan en conjunto para controlar tareas de procesamiento de datos a gran escala.
Nodos principales y trabajadores
Máquinas físicas o virtuales que pueden realizar el procesamiento. Los nodos principales suelen coordinar el trabajo. Los nodos trabajadores ejecutan ejecutores que procesan datos. Tienen características de la máquina (cantidad de memoria y cantidad de vCores disponibles para los procesos).
vCPU, núcleos o CPUs
Un recurso que realiza procesamiento. Por lo general, tus nodos proporcionan una cantidad determinada de núcleos, y tus ejecutores solicitan una o varias CPUs. Equilibra esto junto con la memoria, o podrías subutilizar el clúster.
Driver
Una sola VM que actúa como coordinador central de todo el clúster. Administra tareas, programa el trabajo en los nodos de trabajo y supervisa el progreso de los trabajos.
Ejecutores
Varias VMs que realizan las tareas de procesamiento de datos reales, según las instrucciones del controlador Tus datos se particionan y distribuyen entre estos ejecutores para el procesamiento en paralelo. Para usar todos los ejecutores, debes tener suficientes divisiones.
División o partición
Un conjunto de datos se divide en divisiones (otras particiones de nombres) para procesar los datos en
paralelo. Si no tienes suficientes divisiones, no podrás usar todo el clúster.
Descripción general de los ajustes de rendimiento
Las canalizaciones se ejecutan en clústeres de máquinas. Cuando eliges ejecutar canalizaciones de Cloud Data Fusion en clústeres de Dataproc (que es el aprovisionador recomendado), se usa YARN (Yet Another Resource Negotiator) en segundo plano. Dataproc usa YARN para la administración de recursos dentro
del clúster. Cuando envías una canalización de Cloud Data Fusion a un clúster de Dataproc, el trabajo subyacente de Apache Spark aprovecha YARN para la asignación de recursos y la programación de tareas.
Un clúster consta de nodos principales y trabajadores. Por lo general, los nodos principales son responsables de coordinar el trabajo, mientras que los nodos trabajadores realizan el trabajo real.
Por lo general, los clústeres tienen una pequeña cantidad de nodos principales (uno o tres) y una
gran cantidad de trabajadores. YARN se usa como sistema de coordinación de trabajo. YARN ejecuta un servicio de Resource Manager en el nodo principal y un servicio de Node Manager en cada nodo trabajador. Los administradores de recursos se coordinan entre todos los administradores de nodos para
determinar dónde crear y ejecutar contenedores en el clúster.
En cada nodo trabajador, el administrador de nodos reserva una parte de la memoria y las CPUs de la máquina disponibles para ejecutar contenedores de YARN. Por ejemplo, en un clúster de Dataproc, si tus nodos de trabajo son VMs n1-standard-4 (4 CPU, 15 GB de memoria), cada administrador de nodos reservará 4 CPU y 12 GB de memoria para ejecutar contenedores de YARN. Los 3 GB de memoria restantes se dejan para los otros servicios de Hadoop que se ejecutan en el nodo.
Cuando se ejecuta una canalización en YARN, se inicia un controlador de flujo de trabajo de canalización, un controlador de Spark y muchos ejecutores de Spark en Dataproc.
El controlador de flujo de trabajo es responsable de iniciar uno o más programas de Spark que conforman una canalización. Por lo general, el controlador de flujo de trabajo no realiza mucho trabajo. Cada programa de Spark ejecuta un solo controlador de Spark y varios ejecutores de Spark. El controlador coordina el trabajo entre los ejecutores, pero por lo general no realiza ningún trabajo real. Los ejecutores de Spark realizan la mayor parte del trabajo real.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[[["\u003cp\u003eThis page introduces pipeline processing concepts and terminology within Cloud Data Fusion, emphasizing how data pipelines are executed.\u003c/p\u003e\n"],["\u003cp\u003ePipeline performance is influenced by data size, pipeline structure, cluster sizing, and the plugins used.\u003c/p\u003e\n"],["\u003cp\u003eKey components in pipeline processing include machine types, clusters, master/worker nodes, vCores, drivers, executors, and splits, each playing a specific role in data processing.\u003c/p\u003e\n"],["\u003cp\u003eCloud Data Fusion pipelines on Dataproc clusters use YARN for resource management, coordinating work across master and worker nodes.\u003c/p\u003e\n"],["\u003cp\u003eThe actual data processing work is performed by Spark executors, which are coordinated by a Spark driver, with the workflow driver managing the overall pipeline execution.\u003c/p\u003e\n"]]],[],null,["# Pipeline performance overview\n\nThis page explains the basic terminology and concepts of pipeline processing in\nCloud Data Fusion.\n\nPipeline performance depends on the following aspects:\n\n- The size and characteristics of your data\n- The structure of your pipeline\n- Cluster sizing\n- Plugins that your Cloud Data Fusion pipeline uses\n\nPipeline processing terminology in Cloud Data Fusion\n----------------------------------------------------\n\nThe following terminology applies in pipeline processing in\nCloud Data Fusion.\n\nMachine type\n: Type of virtual machines (VMs) used (CPU, memory).\n\nCluster\n: A group of VMs working together to handle large-scale data processing tasks.\n\nMaster and worker nodes\n: Physical or virtual machines that can do processing. Master nodes usually\n coordinate work. Worker nodes run executors that process data. They have\n machine characteristics (amount of memory and number of vCores available for\n processes).\n\nvCores, Cores, or CPUs\n: A resource that does computing. Usually your nodes provide a certain amount of\n Cores and your Executors request one or a few CPUs. Balance this along with\n memory, or you might underutilize your cluster.\n\nDriver\n: A single VM that acts as the central coordinator for the entire cluster. It\n manages tasks, schedules work across worker nodes, and monitors job progress.\n\nExecutors\n: Multiple VMs performing the actual data processing tasks, as instructed by the\n driver. Your data is partitioned and distributed across these executors for\n parallel processing. To utilize all of the executors, you must have enough\n splits.\n\nSplits or partitions\n: A dataset is *split* into splits (other name partitions) to process data in\n parallel. If you don't have enough splits, you can't utilize the whole\n cluster.\n\nPerformance tuning overview\n---------------------------\n\nPipelines are executed on clusters of machines. When you choose to run\nCloud Data Fusion pipelines on Dataproc clusters (which is the\nrecommended provisioner), it uses YARN (Yet Another Resource Negotiator) behind\nthe scenes. Dataproc utilizes YARN for resource management within\nthe cluster. When you submit a Cloud Data Fusion pipeline to a\nDataproc cluster, the underlying Apache Spark job leverages YARN\nfor resource allocation and task scheduling.\n\nA cluster consists of master and worker nodes. Master nodes are generally\nresponsible for coordinating work, while worker nodes perform the actual work.\nClusters will normally have a small number of master nodes (one or three) and a\nlarge number of workers. YARN is used as the work coordination system. YARN runs\na Resource Manager service on the master node and a Node Manager service on each\nworker node. Resource Managers coordinate amongst all the Node Managers to\ndetermine where to create and execute containers on the cluster.\n\nOn each worker node, the Node Manager reserves a portion of the available\nmachine memory and CPUs for running YARN containers. For example, on a\nDataproc cluster, if your worker nodes are n1-standard-4 VMs\n(4 CPU, 15 GB memory), each Node Manager will reserve 4 CPUs and\n12 GB memory for running YARN containers. The remaining 3 GB of memory\nis left for the other Hadoop services running on the node.\n\nWhen a pipeline is run on YARN, it will launch a pipeline workflow driver, a\nSpark driver, and many Spark executors in Dataproc.\n\nThe workflow driver is responsible for launching the one or more Spark programs\nthat make up a pipeline. The workflow driver usually doesn't do much work. Each\nSpark program runs a single Spark driver and multiple Spark executors. The\ndriver coordinates work amongst the executors, but usually doesn't perform any\nactual work. Most of the actual work is performed by the Spark executors.\n\nWhat's next\n-----------\n\n- Learn about [parallel processing](/data-fusion/docs/concepts/parallel-processing) in Cloud Data Fusion."]]