Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Cette page explique la terminologie et les concepts de base du traitement par pipeline dans Cloud Data Fusion.
Les performances du pipeline dépendent des aspects suivants:
La taille et les caractéristiques de vos données
La structure de votre pipeline
Dimensionnement des clusters
Plug-ins utilisés par votre pipeline Cloud Data Fusion
Terminologie de traitement de pipeline dans Cloud Data Fusion
La terminologie suivante s'applique au traitement de pipeline dans Cloud Data Fusion.
Type de machine
Type de machines virtuelles (VM) utilisées (processeur, mémoire).
Cluster
Groupe de VM qui collaborent pour gérer des tâches de traitement de données à grande échelle.
Nœuds maître et de calcul
Machines physiques ou virtuelles pouvant effectuer le traitement. Les nœuds maîtres coordonnent généralement le travail. Les nœuds de calcul exécutent des exécuteurs qui traitent les données. Ils présentent des caractéristiques de machine (quantité de mémoire et nombre de vCores disponibles pour les processus).
vCores, cœurs ou processeurs
Ressource de calcul. En règle générale, vos nœuds fournissent un certain nombre de cœurs et vos exécuteurs demandent un ou plusieurs processeurs. Équilibrez cela avec la mémoire, sinon vous risquez de sous-utiliser votre cluster.
Driver
Une seule VM qui sert de coordinateur central pour l'ensemble du cluster. Il gère les tâches, planifie le travail sur les nœuds de calcul et surveille la progression des tâches.
Exécuteurs
Plusieurs VM effectuant les tâches de traitement de données réelles, comme indiqué par le pilote. Vos données sont partitionnées et distribuées entre ces exécuteurs pour un traitement parallèle. Pour utiliser tous les exécuteurs, vous devez disposer d'un nombre suffisant de divisions.
Divisions ou partitions
Un ensemble de données est divisé en divisions (autres partitions de nom) pour traiter les données en parallèle. Si vous n'avez pas suffisamment de divisions, vous ne pouvez pas utiliser l'ensemble du cluster.
Présentation du réglage des performances
Les pipelines sont exécutés sur des clusters de machines. Lorsque vous choisissez d'exécuter des pipelines Cloud Data Fusion sur des clusters Dataproc (qui est le provisionneur recommandé), YARN (Yet Another Resource Negotiator) est utilisé en coulisses. Dataproc utilise YARN pour la gestion des ressources au sein du cluster. Lorsque vous envoyez un pipeline Cloud Data Fusion à un cluster Dataproc, la tâche Apache Spark sous-jacente utilise YARN pour l'allocation des ressources et la planification des tâches.
Un cluster se compose de nœuds maître et de nœuds de calcul. Les nœuds maîtres sont généralement chargés de coordonner le travail, tandis que les nœuds de calcul effectuent le travail réel.
Les clusters comportent généralement un petit nombre de nœuds maîtres (un ou trois) et un grand nombre de nœuds de calcul. YARN est utilisé comme système de coordination du travail. YARN exécute un service Resource Manager sur le nœud maître et un service Node Manager sur chaque nœud de calcul. Les gestionnaires de ressources se coordonnent entre tous les gestionnaires de nœuds pour déterminer où créer et exécuter des conteneurs sur le cluster.
Sur chaque nœud de calcul, le gestionnaire de nœuds réserve une partie de la mémoire et des processeurs de la machine disponibles pour exécuter des conteneurs YARN. Par exemple, sur un cluster Dataproc, si vos nœuds de calcul sont des VM n1-standard-4 (4 CPU, 15 Go de mémoire), chaque gestionnaire de nœuds réserve 4 CPU et 12 Go de mémoire pour exécuter des conteneurs YARN. Les 3 Go de mémoire restants sont réservés aux autres services Hadoop exécutés sur le nœud.
Lorsqu'un pipeline est exécuté sur YARN, il lance un pilote de workflow de pipeline, un pilote Spark et de nombreux exécuteurs Spark dans Dataproc.
Le pilote de workflow est chargé de lancer le ou les programmes Spark qui constituent un pipeline. Le pilote de workflow n'effectue généralement pas beaucoup de travail. Chaque programme Spark exécute un seul pilote Spark et plusieurs exécuteurs Spark. Le pilote coordonne le travail entre les exécuteurs, mais n'effectue généralement aucune tâche. La majeure partie du travail réel est effectuée par les exécuteurs Spark.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[[["\u003cp\u003eThis page introduces pipeline processing concepts and terminology within Cloud Data Fusion, emphasizing how data pipelines are executed.\u003c/p\u003e\n"],["\u003cp\u003ePipeline performance is influenced by data size, pipeline structure, cluster sizing, and the plugins used.\u003c/p\u003e\n"],["\u003cp\u003eKey components in pipeline processing include machine types, clusters, master/worker nodes, vCores, drivers, executors, and splits, each playing a specific role in data processing.\u003c/p\u003e\n"],["\u003cp\u003eCloud Data Fusion pipelines on Dataproc clusters use YARN for resource management, coordinating work across master and worker nodes.\u003c/p\u003e\n"],["\u003cp\u003eThe actual data processing work is performed by Spark executors, which are coordinated by a Spark driver, with the workflow driver managing the overall pipeline execution.\u003c/p\u003e\n"]]],[],null,["# Pipeline performance overview\n\nThis page explains the basic terminology and concepts of pipeline processing in\nCloud Data Fusion.\n\nPipeline performance depends on the following aspects:\n\n- The size and characteristics of your data\n- The structure of your pipeline\n- Cluster sizing\n- Plugins that your Cloud Data Fusion pipeline uses\n\nPipeline processing terminology in Cloud Data Fusion\n----------------------------------------------------\n\nThe following terminology applies in pipeline processing in\nCloud Data Fusion.\n\nMachine type\n: Type of virtual machines (VMs) used (CPU, memory).\n\nCluster\n: A group of VMs working together to handle large-scale data processing tasks.\n\nMaster and worker nodes\n: Physical or virtual machines that can do processing. Master nodes usually\n coordinate work. Worker nodes run executors that process data. They have\n machine characteristics (amount of memory and number of vCores available for\n processes).\n\nvCores, Cores, or CPUs\n: A resource that does computing. Usually your nodes provide a certain amount of\n Cores and your Executors request one or a few CPUs. Balance this along with\n memory, or you might underutilize your cluster.\n\nDriver\n: A single VM that acts as the central coordinator for the entire cluster. It\n manages tasks, schedules work across worker nodes, and monitors job progress.\n\nExecutors\n: Multiple VMs performing the actual data processing tasks, as instructed by the\n driver. Your data is partitioned and distributed across these executors for\n parallel processing. To utilize all of the executors, you must have enough\n splits.\n\nSplits or partitions\n: A dataset is *split* into splits (other name partitions) to process data in\n parallel. If you don't have enough splits, you can't utilize the whole\n cluster.\n\nPerformance tuning overview\n---------------------------\n\nPipelines are executed on clusters of machines. When you choose to run\nCloud Data Fusion pipelines on Dataproc clusters (which is the\nrecommended provisioner), it uses YARN (Yet Another Resource Negotiator) behind\nthe scenes. Dataproc utilizes YARN for resource management within\nthe cluster. When you submit a Cloud Data Fusion pipeline to a\nDataproc cluster, the underlying Apache Spark job leverages YARN\nfor resource allocation and task scheduling.\n\nA cluster consists of master and worker nodes. Master nodes are generally\nresponsible for coordinating work, while worker nodes perform the actual work.\nClusters will normally have a small number of master nodes (one or three) and a\nlarge number of workers. YARN is used as the work coordination system. YARN runs\na Resource Manager service on the master node and a Node Manager service on each\nworker node. Resource Managers coordinate amongst all the Node Managers to\ndetermine where to create and execute containers on the cluster.\n\nOn each worker node, the Node Manager reserves a portion of the available\nmachine memory and CPUs for running YARN containers. For example, on a\nDataproc cluster, if your worker nodes are n1-standard-4 VMs\n(4 CPU, 15 GB memory), each Node Manager will reserve 4 CPUs and\n12 GB memory for running YARN containers. The remaining 3 GB of memory\nis left for the other Hadoop services running on the node.\n\nWhen a pipeline is run on YARN, it will launch a pipeline workflow driver, a\nSpark driver, and many Spark executors in Dataproc.\n\nThe workflow driver is responsible for launching the one or more Spark programs\nthat make up a pipeline. The workflow driver usually doesn't do much work. Each\nSpark program runs a single Spark driver and multiple Spark executors. The\ndriver coordinates work amongst the executors, but usually doesn't perform any\nactual work. Most of the actual work is performed by the Spark executors.\n\nWhat's next\n-----------\n\n- Learn about [parallel processing](/data-fusion/docs/concepts/parallel-processing) in Cloud Data Fusion."]]