Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Auf dieser Seite werden die grundlegenden Begriffe und Konzepte der Pipelineverarbeitung in Cloud Data Fusion erläutert.
Die Pipelineleistung hängt von den folgenden Aspekten ab:
Größe und Merkmale Ihrer Daten
Die Struktur Ihrer Pipeline
Größenanpassung bei Clustern
Plug-ins, die von Ihrer Cloud Data Fusion-Pipeline verwendet werden
Terminologie der Pipelineverarbeitung in Cloud Data Fusion
Die folgende Terminologie gilt für die Pipelineverarbeitung in Cloud Data Fusion.
Maschinentyp
Art der verwendeten virtuellen Maschinen (VMs) (CPU, Arbeitsspeicher)
Cluster
Eine Gruppe von VMs, die gemeinsam große Datenmengen verarbeiten.
Master- und Worker-Knoten
Physische oder virtuelle Maschinen, auf denen die Verarbeitung erfolgen kann. Masterknoten koordinieren in der Regel die Arbeit. Auf Worker-Knoten werden Executors ausgeführt, die Daten verarbeiten. Sie haben Maschinenmerkmale (Arbeitsspeicherkapazität und Anzahl der vCores, die für Prozesse verfügbar sind).
vCores, Kerne oder CPUs
Eine Ressource, die Rechenvorgänge ausführt. Normalerweise stellen Ihre Knoten eine bestimmte Anzahl von Kernen bereit und Ihre Executors fordern eine oder mehrere CPUs an. Achten Sie darauf, dass die Anzahl der Kerne mit der Größe des Arbeitsspeichers übereinstimmt, da sonst Ihr Cluster möglicherweise nicht optimal ausgelastet wird.
Treiber
Eine einzelne VM, die als zentraler Koordinator für den gesamten Cluster dient. Er verwaltet Aufgaben, plant die Arbeit auf Worker-Knoten und überwacht den Jobfortschritt.
Executors
Mehrere VMs, die die tatsächlichen Datenverarbeitungsaufgaben ausführen, wie vom Treiber angewiesen. Ihre Daten werden zur parallelen Verarbeitung partitioniert und auf diese Executors verteilt. Um alle Executors zu nutzen, müssen Sie genügend Aufteilungen haben.
Trennlinien oder Partitionen
Ein Dataset wird in Splits (andere Namenspartitionen) aufgeteilt, um Daten parallel zu verarbeiten. Wenn Sie nicht genügend Teilungen haben, können Sie den gesamten Cluster nicht nutzen.
Leistungsoptimierung – Übersicht
Pipelines werden auf Clustern von Maschinen ausgeführt. Wenn Sie Cloud Data Fusion-Pipelines auf Dataproc-Clustern ausführen (dies ist die empfohlene Bereitstellungsmethode), wird im Hintergrund YARN (Yet Another Resource Negotiator) verwendet. Dataproc nutzt YARN für die Ressourcenverwaltung innerhalb des Clusters. Wenn Sie eine Cloud Data Fusion-Pipeline an einen Dataproc-Cluster senden, nutzt der zugrunde liegende Apache Spark-Job YARN für die Ressourcenzuweisung und Aufgabenplanung.
Ein Cluster besteht aus Master- und Worker-Knoten. Masterknoten sind in der Regel für die Koordination der Arbeit verantwortlich, während Workerknoten die eigentliche Arbeit ausführen.
Cluster haben normalerweise eine kleine Anzahl von Masterknoten (einen oder drei) und eine große Anzahl von Workern. YARN wird als Arbeitskoordinationssystem verwendet. YARN führt einen Resource Manager-Dienst auf dem Masterknoten und einen Node Manager-Dienst auf jedem Worker-Knoten aus. Resource Manager koordinieren sich mit allen Knotenmanagern, um zu bestimmen, wo Container im Cluster erstellt und ausgeführt werden sollen.
Auf jedem Worker-Knoten reserviert der NodeManager einen Teil des verfügbaren Arbeitsspeichers und der CPUs für das Ausführen von YARN-Containern. Wenn Ihre Worker-Knoten in einem Dataproc-Cluster beispielsweise n1-standard-4-VMs (4 CPUs, 15 GB Arbeitsspeicher) sind, reserviert jeder Node Manager 4 CPUs und 12 GB Arbeitsspeicher für das Ausführen von YARN-Containern. Die verbleibenden 3 GB Arbeitsspeicher bleiben für die anderen Hadoop-Dienste, die auf dem Knoten ausgeführt werden.
Wenn eine Pipeline unter YARN ausgeführt wird, werden ein Pipeline-Workflow-Treiber, ein Spark-Treiber und viele Spark-Ausführer in Dataproc gestartet.
Der Workflow-Treiber ist für die Ausführung der einen oder mehrerer Spark-Programme verantwortlich, aus denen eine Pipeline besteht. Der Workflow-Treiber hat normalerweise nicht viel zu tun. Jedes Spark-Programm führt einen einzelnen Spark-Treiber und mehrere Spark-Executors aus. Der Treiber koordiniert die Arbeit der Ausführenden, führt aber in der Regel keine eigentliche Arbeit aus. Der Großteil der eigentlichen Arbeit wird von den Spark-Ausführern ausgeführt.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-09-04 (UTC)."],[[["\u003cp\u003eThis page introduces pipeline processing concepts and terminology within Cloud Data Fusion, emphasizing how data pipelines are executed.\u003c/p\u003e\n"],["\u003cp\u003ePipeline performance is influenced by data size, pipeline structure, cluster sizing, and the plugins used.\u003c/p\u003e\n"],["\u003cp\u003eKey components in pipeline processing include machine types, clusters, master/worker nodes, vCores, drivers, executors, and splits, each playing a specific role in data processing.\u003c/p\u003e\n"],["\u003cp\u003eCloud Data Fusion pipelines on Dataproc clusters use YARN for resource management, coordinating work across master and worker nodes.\u003c/p\u003e\n"],["\u003cp\u003eThe actual data processing work is performed by Spark executors, which are coordinated by a Spark driver, with the workflow driver managing the overall pipeline execution.\u003c/p\u003e\n"]]],[],null,["# Pipeline performance overview\n\nThis page explains the basic terminology and concepts of pipeline processing in\nCloud Data Fusion.\n\nPipeline performance depends on the following aspects:\n\n- The size and characteristics of your data\n- The structure of your pipeline\n- Cluster sizing\n- Plugins that your Cloud Data Fusion pipeline uses\n\nPipeline processing terminology in Cloud Data Fusion\n----------------------------------------------------\n\nThe following terminology applies in pipeline processing in\nCloud Data Fusion.\n\nMachine type\n: Type of virtual machines (VMs) used (CPU, memory).\n\nCluster\n: A group of VMs working together to handle large-scale data processing tasks.\n\nMaster and worker nodes\n: Physical or virtual machines that can do processing. Master nodes usually\n coordinate work. Worker nodes run executors that process data. They have\n machine characteristics (amount of memory and number of vCores available for\n processes).\n\nvCores, Cores, or CPUs\n: A resource that does computing. Usually your nodes provide a certain amount of\n Cores and your Executors request one or a few CPUs. Balance this along with\n memory, or you might underutilize your cluster.\n\nDriver\n: A single VM that acts as the central coordinator for the entire cluster. It\n manages tasks, schedules work across worker nodes, and monitors job progress.\n\nExecutors\n: Multiple VMs performing the actual data processing tasks, as instructed by the\n driver. Your data is partitioned and distributed across these executors for\n parallel processing. To utilize all of the executors, you must have enough\n splits.\n\nSplits or partitions\n: A dataset is *split* into splits (other name partitions) to process data in\n parallel. If you don't have enough splits, you can't utilize the whole\n cluster.\n\nPerformance tuning overview\n---------------------------\n\nPipelines are executed on clusters of machines. When you choose to run\nCloud Data Fusion pipelines on Dataproc clusters (which is the\nrecommended provisioner), it uses YARN (Yet Another Resource Negotiator) behind\nthe scenes. Dataproc utilizes YARN for resource management within\nthe cluster. When you submit a Cloud Data Fusion pipeline to a\nDataproc cluster, the underlying Apache Spark job leverages YARN\nfor resource allocation and task scheduling.\n\nA cluster consists of master and worker nodes. Master nodes are generally\nresponsible for coordinating work, while worker nodes perform the actual work.\nClusters will normally have a small number of master nodes (one or three) and a\nlarge number of workers. YARN is used as the work coordination system. YARN runs\na Resource Manager service on the master node and a Node Manager service on each\nworker node. Resource Managers coordinate amongst all the Node Managers to\ndetermine where to create and execute containers on the cluster.\n\nOn each worker node, the Node Manager reserves a portion of the available\nmachine memory and CPUs for running YARN containers. For example, on a\nDataproc cluster, if your worker nodes are n1-standard-4 VMs\n(4 CPU, 15 GB memory), each Node Manager will reserve 4 CPUs and\n12 GB memory for running YARN containers. The remaining 3 GB of memory\nis left for the other Hadoop services running on the node.\n\nWhen a pipeline is run on YARN, it will launch a pipeline workflow driver, a\nSpark driver, and many Spark executors in Dataproc.\n\nThe workflow driver is responsible for launching the one or more Spark programs\nthat make up a pipeline. The workflow driver usually doesn't do much work. Each\nSpark program runs a single Spark driver and multiple Spark executors. The\ndriver coordinates work amongst the executors, but usually doesn't perform any\nactual work. Most of the actual work is performed by the Spark executors.\n\nWhat's next\n-----------\n\n- Learn about [parallel processing](/data-fusion/docs/concepts/parallel-processing) in Cloud Data Fusion."]]