Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Questa pagina illustra la terminologia e i concetti di base dell'elaborazione delle pipeline in Cloud Data Fusion.
Le prestazioni della pipeline dipendono dai seguenti aspetti:
Le dimensioni e le caratteristiche dei dati
La struttura della pipeline
Dimensionamento dei cluster
Plug-in utilizzati dalla pipeline Cloud Data Fusion
Terminologia di elaborazione delle pipeline in Cloud Data Fusion
La seguente terminologia si applica all'elaborazione della pipeline in Cloud Data Fusion.
Tipo di macchina
Tipo di macchine virtuali (VM) utilizzate (CPU, memoria).
Cluster
Un gruppo di VM che lavorano insieme per gestire attività di elaborazione dati su larga scala.
Nodi master e worker
Macchine fisiche o virtuali in grado di eseguire l'elaborazione. I nodi master di solito coordinano il lavoro. I nodi worker eseguono gli esecutori che elaborano i dati. Hanno caratteristiche della macchina (quantità di memoria e numero di vCore disponibili per i processi).
vCore, core o CPU
Una risorsa che esegue calcoli. In genere, i nodi forniscono una certa quantità di core e gli esecutori richiedono una o più CPU. Trova il giusto equilibrio con la memoria, altrimenti potresti sottoutilizzare il cluster.
Driver
Una singola VM che funge da coordinatore centrale per l'intero cluster. Gestisce le attività, pianifica il lavoro sui nodi worker e monitora l'avanzamento dei job.
Esecutori
Più VM che eseguono le attività di elaborazione dei dati effettive, come indicato dal
driver. I dati vengono partizionati e distribuiti tra questi executor per l'elaborazione parallela. Per utilizzare tutti gli esecutori, devi avere un numero sufficiente di suddivisioni.
Suddivisioni o partizioni
Un set di dati viene suddiviso in split (partizioni con altri nomi) per elaborare i dati in parallelo. Se non hai suddivisioni sufficienti, non puoi utilizzare l'intero cluster.
Panoramica dell'ottimizzazione delle prestazioni
Le pipeline vengono eseguite su cluster di macchine. Quando scegli di eseguire le pipeline Cloud Data Fusion sui cluster Dataproc (che è il provisioning consigliato), YARN (Yet Another Resource Negotiator) viene utilizzato in background. Dataproc utilizza YARN per la gestione delle risorse all'interno del cluster. Quando invii una pipeline Cloud Data Fusion a un
cluster Dataproc, il job Apache Spark sottostante sfrutta YARN per l'allocazione delle risorse e la pianificazione delle attività.
Un cluster è costituito da nodi master e worker. I nodi master sono generalmente responsabili del coordinamento del lavoro, mentre i nodi worker eseguono il lavoro effettivo.
I cluster di solito hanno un numero ridotto di nodi master (uno o tre) e un gran numero di worker. YARN viene utilizzato come sistema di coordinamento del lavoro. YARN esegue un servizio Resource Manager sul nodo master e un servizio Node Manager su ogni nodo worker. I gestori delle risorse si coordinano tra tutti i gestori dei nodi per determinare dove creare ed eseguire i container nel cluster.
Su ogni nodo worker, Node Manager riserva una parte della memoria e delle CPU della macchina disponibili per l'esecuzione dei container YARN. Ad esempio, in un
cluster Dataproc, se i nodi worker sono VM n1-standard-4
(4 CPU, 15 GB di memoria), ogni gestore dei nodi riserva 4 CPU e
12 GB di memoria per l'esecuzione dei contenitori YARN. I restanti 3 GB di memoria
vengono riservati agli altri servizi Hadoop in esecuzione sul nodo.
Quando una pipeline viene eseguita su YARN, viene lanciato un driver di flusso di lavoro della pipeline, un driver Spark e molti executor Spark in Dataproc.
Il driver del flusso di lavoro è responsabile dell'avvio di uno o più programmi Spark
che costituiscono una pipeline. In genere, il driver del flusso di lavoro non fa molto lavoro. Ogni
programma Spark esegue un singolo driver Spark e più executor Spark. Il
driver coordina il lavoro tra gli esecutori, ma di solito non svolge alcun
lavoro effettivo. La maggior parte del lavoro effettivo viene eseguita dagli esecutori Spark.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-04 UTC."],[[["\u003cp\u003eThis page introduces pipeline processing concepts and terminology within Cloud Data Fusion, emphasizing how data pipelines are executed.\u003c/p\u003e\n"],["\u003cp\u003ePipeline performance is influenced by data size, pipeline structure, cluster sizing, and the plugins used.\u003c/p\u003e\n"],["\u003cp\u003eKey components in pipeline processing include machine types, clusters, master/worker nodes, vCores, drivers, executors, and splits, each playing a specific role in data processing.\u003c/p\u003e\n"],["\u003cp\u003eCloud Data Fusion pipelines on Dataproc clusters use YARN for resource management, coordinating work across master and worker nodes.\u003c/p\u003e\n"],["\u003cp\u003eThe actual data processing work is performed by Spark executors, which are coordinated by a Spark driver, with the workflow driver managing the overall pipeline execution.\u003c/p\u003e\n"]]],[],null,["# Pipeline performance overview\n\nThis page explains the basic terminology and concepts of pipeline processing in\nCloud Data Fusion.\n\nPipeline performance depends on the following aspects:\n\n- The size and characteristics of your data\n- The structure of your pipeline\n- Cluster sizing\n- Plugins that your Cloud Data Fusion pipeline uses\n\nPipeline processing terminology in Cloud Data Fusion\n----------------------------------------------------\n\nThe following terminology applies in pipeline processing in\nCloud Data Fusion.\n\nMachine type\n: Type of virtual machines (VMs) used (CPU, memory).\n\nCluster\n: A group of VMs working together to handle large-scale data processing tasks.\n\nMaster and worker nodes\n: Physical or virtual machines that can do processing. Master nodes usually\n coordinate work. Worker nodes run executors that process data. They have\n machine characteristics (amount of memory and number of vCores available for\n processes).\n\nvCores, Cores, or CPUs\n: A resource that does computing. Usually your nodes provide a certain amount of\n Cores and your Executors request one or a few CPUs. Balance this along with\n memory, or you might underutilize your cluster.\n\nDriver\n: A single VM that acts as the central coordinator for the entire cluster. It\n manages tasks, schedules work across worker nodes, and monitors job progress.\n\nExecutors\n: Multiple VMs performing the actual data processing tasks, as instructed by the\n driver. Your data is partitioned and distributed across these executors for\n parallel processing. To utilize all of the executors, you must have enough\n splits.\n\nSplits or partitions\n: A dataset is *split* into splits (other name partitions) to process data in\n parallel. If you don't have enough splits, you can't utilize the whole\n cluster.\n\nPerformance tuning overview\n---------------------------\n\nPipelines are executed on clusters of machines. When you choose to run\nCloud Data Fusion pipelines on Dataproc clusters (which is the\nrecommended provisioner), it uses YARN (Yet Another Resource Negotiator) behind\nthe scenes. Dataproc utilizes YARN for resource management within\nthe cluster. When you submit a Cloud Data Fusion pipeline to a\nDataproc cluster, the underlying Apache Spark job leverages YARN\nfor resource allocation and task scheduling.\n\nA cluster consists of master and worker nodes. Master nodes are generally\nresponsible for coordinating work, while worker nodes perform the actual work.\nClusters will normally have a small number of master nodes (one or three) and a\nlarge number of workers. YARN is used as the work coordination system. YARN runs\na Resource Manager service on the master node and a Node Manager service on each\nworker node. Resource Managers coordinate amongst all the Node Managers to\ndetermine where to create and execute containers on the cluster.\n\nOn each worker node, the Node Manager reserves a portion of the available\nmachine memory and CPUs for running YARN containers. For example, on a\nDataproc cluster, if your worker nodes are n1-standard-4 VMs\n(4 CPU, 15 GB memory), each Node Manager will reserve 4 CPUs and\n12 GB memory for running YARN containers. The remaining 3 GB of memory\nis left for the other Hadoop services running on the node.\n\nWhen a pipeline is run on YARN, it will launch a pipeline workflow driver, a\nSpark driver, and many Spark executors in Dataproc.\n\nThe workflow driver is responsible for launching the one or more Spark programs\nthat make up a pipeline. The workflow driver usually doesn't do much work. Each\nSpark program runs a single Spark driver and multiple Spark executors. The\ndriver coordinates work amongst the executors, but usually doesn't perform any\nactual work. Most of the actual work is performed by the Spark executors.\n\nWhat's next\n-----------\n\n- Learn about [parallel processing](/data-fusion/docs/concepts/parallel-processing) in Cloud Data Fusion."]]