Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Halaman ini menjelaskan terminologi dan konsep dasar pemrosesan pipeline di
Cloud Data Fusion.
Performa pipeline bergantung pada aspek berikut:
Ukuran dan karakteristik data Anda
Struktur pipeline Anda
Penentuan ukuran cluster
Plugin yang digunakan pipeline Cloud Data Fusion Anda
Terminologi pemrosesan pipeline di Cloud Data Fusion
Terminologi berikut berlaku dalam pemrosesan pipeline di Cloud Data Fusion.
Jenis mesin
Jenis virtual machine (VM) yang digunakan (CPU, memori).
Cluster
Sekelompok VM yang bekerja sama untuk menangani tugas pemrosesan data skala besar.
Node master dan pekerja
Komputer fisik atau virtual yang dapat melakukan pemrosesan. Node master biasanya
melakukan koordinasi pekerjaan. Node pekerja menjalankan eksekutor yang memproses data. Instance memiliki karakteristik mesin (jumlah memori dan jumlah vCore yang tersedia untuk proses).
vCore, Core, atau CPU
Resource yang melakukan komputasi. Biasanya node Anda menyediakan sejumlah Core tertentu dan Executor meminta satu atau beberapa CPU. Seimbangkan hal ini dengan
memori, atau Anda mungkin tidak memanfaatkan cluster secara maksimal.
Driver
Satu VM yang bertindak sebagai koordinator pusat untuk seluruh cluster. Scheduler ini
mengelola tugas, menjadwalkan pekerjaan di seluruh node pekerja, dan memantau progres tugas.
Eksekutor
Beberapa VM yang melakukan tugas pemrosesan data yang sebenarnya, seperti yang diinstruksikan oleh driver. Data Anda dipartisi dan didistribusikan di seluruh eksekutor ini untuk
pemrosesan paralel. Untuk menggunakan semua eksekutor, Anda harus memiliki pemisahan yang memadai.
Pemisahan atau partisi
Set data dibagi menjadi bagian (partisi nama lainnya) untuk memproses data secara
paralel. Jika tidak memiliki cukup pemisahan, Anda tidak dapat menggunakan seluruh
cluster.
Ringkasan penyesuaian performa
Pipeline dijalankan di cluster mesin. Jika Anda memilih untuk menjalankan
pipeline Cloud Data Fusion di cluster Dataproc (yang merupakan
penyedia yang direkomendasikan), pipeline tersebut akan menggunakan YARN (Yet Another Resource Negotiator) di
balik layar. Dataproc menggunakan YARN untuk pengelolaan resource dalam
cluster. Saat Anda mengirimkan pipeline Cloud Data Fusion ke
cluster Dataproc, tugas Apache Spark yang mendasarinya akan memanfaatkan YARN
untuk alokasi resource dan penjadwalan tugas.
Cluster terdiri dari node master dan worker. Node master umumnya
bertanggung jawab untuk mengoordinasikan pekerjaan, sedangkan node pekerja melakukan pekerjaan yang sebenarnya.
Cluster biasanya akan memiliki sejumlah kecil node master (satu atau tiga) dan
sejumlah besar pekerja. YARN digunakan sebagai sistem koordinasi pekerjaan. YARN menjalankan
layanan Resource Manager di node master dan layanan Node Manager di setiap
node pekerja. Resource Manager berkoordinasi di antara semua Node Manager untuk
menentukan tempat membuat dan menjalankan container di cluster.
Di setiap node pekerja, Pengelola Node mencadangkan sebagian memori dan CPU mesin yang tersedia untuk menjalankan penampung YARN. Misalnya, di kluster Dataproc, jika node pekerja Anda adalah VM n1-standard-4 (4 CPU, memori 15 GB), setiap Pengelola Node akan mencadangkan 4 CPU dan memori 12 GB untuk menjalankan penampung YARN. Sisa memori 3 GB
digunakan untuk layanan Hadoop lainnya yang berjalan di node.
Saat dijalankan di YARN, pipeline akan meluncurkan driver alur kerja pipeline, driver Spark, dan banyak eksekutor Spark di Dataproc.
Penggerak alur kerja bertanggung jawab untuk meluncurkan satu atau beberapa program Spark
yang membentuk pipeline. Penggerak alur kerja biasanya tidak melakukan banyak pekerjaan. Setiap
program Spark menjalankan satu driver Spark dan beberapa eksekutor Spark. Driver
melakukan koordinasi pekerjaan di antara eksekutor, tetapi biasanya tidak melakukan
pekerjaan yang sebenarnya. Sebagian besar pekerjaan sebenarnya dilakukan oleh eksekutor Spark.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-09-04 UTC."],[[["\u003cp\u003eThis page introduces pipeline processing concepts and terminology within Cloud Data Fusion, emphasizing how data pipelines are executed.\u003c/p\u003e\n"],["\u003cp\u003ePipeline performance is influenced by data size, pipeline structure, cluster sizing, and the plugins used.\u003c/p\u003e\n"],["\u003cp\u003eKey components in pipeline processing include machine types, clusters, master/worker nodes, vCores, drivers, executors, and splits, each playing a specific role in data processing.\u003c/p\u003e\n"],["\u003cp\u003eCloud Data Fusion pipelines on Dataproc clusters use YARN for resource management, coordinating work across master and worker nodes.\u003c/p\u003e\n"],["\u003cp\u003eThe actual data processing work is performed by Spark executors, which are coordinated by a Spark driver, with the workflow driver managing the overall pipeline execution.\u003c/p\u003e\n"]]],[],null,["# Pipeline performance overview\n\nThis page explains the basic terminology and concepts of pipeline processing in\nCloud Data Fusion.\n\nPipeline performance depends on the following aspects:\n\n- The size and characteristics of your data\n- The structure of your pipeline\n- Cluster sizing\n- Plugins that your Cloud Data Fusion pipeline uses\n\nPipeline processing terminology in Cloud Data Fusion\n----------------------------------------------------\n\nThe following terminology applies in pipeline processing in\nCloud Data Fusion.\n\nMachine type\n: Type of virtual machines (VMs) used (CPU, memory).\n\nCluster\n: A group of VMs working together to handle large-scale data processing tasks.\n\nMaster and worker nodes\n: Physical or virtual machines that can do processing. Master nodes usually\n coordinate work. Worker nodes run executors that process data. They have\n machine characteristics (amount of memory and number of vCores available for\n processes).\n\nvCores, Cores, or CPUs\n: A resource that does computing. Usually your nodes provide a certain amount of\n Cores and your Executors request one or a few CPUs. Balance this along with\n memory, or you might underutilize your cluster.\n\nDriver\n: A single VM that acts as the central coordinator for the entire cluster. It\n manages tasks, schedules work across worker nodes, and monitors job progress.\n\nExecutors\n: Multiple VMs performing the actual data processing tasks, as instructed by the\n driver. Your data is partitioned and distributed across these executors for\n parallel processing. To utilize all of the executors, you must have enough\n splits.\n\nSplits or partitions\n: A dataset is *split* into splits (other name partitions) to process data in\n parallel. If you don't have enough splits, you can't utilize the whole\n cluster.\n\nPerformance tuning overview\n---------------------------\n\nPipelines are executed on clusters of machines. When you choose to run\nCloud Data Fusion pipelines on Dataproc clusters (which is the\nrecommended provisioner), it uses YARN (Yet Another Resource Negotiator) behind\nthe scenes. Dataproc utilizes YARN for resource management within\nthe cluster. When you submit a Cloud Data Fusion pipeline to a\nDataproc cluster, the underlying Apache Spark job leverages YARN\nfor resource allocation and task scheduling.\n\nA cluster consists of master and worker nodes. Master nodes are generally\nresponsible for coordinating work, while worker nodes perform the actual work.\nClusters will normally have a small number of master nodes (one or three) and a\nlarge number of workers. YARN is used as the work coordination system. YARN runs\na Resource Manager service on the master node and a Node Manager service on each\nworker node. Resource Managers coordinate amongst all the Node Managers to\ndetermine where to create and execute containers on the cluster.\n\nOn each worker node, the Node Manager reserves a portion of the available\nmachine memory and CPUs for running YARN containers. For example, on a\nDataproc cluster, if your worker nodes are n1-standard-4 VMs\n(4 CPU, 15 GB memory), each Node Manager will reserve 4 CPUs and\n12 GB memory for running YARN containers. The remaining 3 GB of memory\nis left for the other Hadoop services running on the node.\n\nWhen a pipeline is run on YARN, it will launch a pipeline workflow driver, a\nSpark driver, and many Spark executors in Dataproc.\n\nThe workflow driver is responsible for launching the one or more Spark programs\nthat make up a pipeline. The workflow driver usually doesn't do much work. Each\nSpark program runs a single Spark driver and multiple Spark executors. The\ndriver coordinates work amongst the executors, but usually doesn't perform any\nactual work. Most of the actual work is performed by the Spark executors.\n\nWhat's next\n-----------\n\n- Learn about [parallel processing](/data-fusion/docs/concepts/parallel-processing) in Cloud Data Fusion."]]