Halaman ini menjelaskan istilah dan konsep dasar pemrosesan pipeline di Cloud Data Fusion.
Performa pipeline bergantung pada aspek berikut:
- Ukuran dan karakteristik data Anda
- Struktur pipeline
- Ukuran cluster
- Plugin yang digunakan pipeline Cloud Data Fusion Anda
Terminologi pemrosesan pipeline di Cloud Data Fusion
Terminologi berikut berlaku dalam pemrosesan pipeline di Cloud Data Fusion.
- Machine type
- Jenis virtual machine (VM) yang digunakan (CPU, memori).
- Cluster
- Sekelompok VM yang bekerja sama untuk menangani tugas pemrosesan data berskala besar.
- Node master dan pekerja
- Mesin fisik atau virtual yang dapat melakukan pemrosesan. Node master biasanya mengoordinasikan pekerjaan. Node pekerja menjalankan eksekutor yang memproses data. Versi tersebut memiliki karakteristik mesin (jumlah memori dan jumlah vCore yang tersedia untuk proses).
- vCore, Core, atau CPU
- Resource yang melakukan komputasi. Biasanya node menyediakan sejumlah Core, dan Executors akan meminta satu atau beberapa CPU. Seimbangkan hal ini dengan memori, atau Anda mungkin akan kurang memanfaatkan cluster Anda.
- Pengemudi
- Satu VM yang bertindak sebagai koordinator pusat untuk seluruh cluster. Cloud Monitoring mengelola tugas, menjadwalkan pekerjaan di seluruh worker node, dan memantau progres tugas.
- Eksekutor
- Beberapa VM melakukan tugas pemrosesan data aktual, seperti yang diinstruksikan oleh driver. Data Anda dipartisi dan didistribusikan di seluruh eksekutor ini untuk pemrosesan paralel. Untuk memanfaatkan semua eksekutor, Anda harus memiliki pemisahan yang cukup.
- Pemisahan atau partisi
- Set data dibagi menjadi bagian (partisi nama lain) untuk memproses data secara paralel. Jika tidak memiliki cukup bagian, Anda tidak dapat memanfaatkan seluruh cluster.
Ringkasan penyesuaian performa
Pipeline dijalankan pada cluster mesin. Saat Anda memilih untuk menjalankan pipeline Cloud Data Fusion di cluster Dataproc (yang merupakan penyedia yang direkomendasikan), pipeline ini menggunakan YARN (Yet Another Resource Negotiator) di belakang layar. Dataproc menggunakan YARN untuk pengelolaan resource di dalam cluster. Saat Anda mengirimkan pipeline Cloud Data Fusion ke cluster Dataproc, tugas Apache Spark yang mendasarinya memanfaatkan YARN untuk alokasi resource dan penjadwalan tugas.
Cluster terdiri atas node master dan worker. Node master umumnya bertanggung jawab untuk mengoordinasikan pekerjaan, sedangkan node pekerja melakukan pekerjaan yang sebenarnya. Cluster biasanya memiliki node master dalam jumlah kecil (satu atau tiga) dan pekerja dalam jumlah besar. YARN digunakan sebagai sistem koordinasi kerja. YARN menjalankan layanan Resource Manager pada node master dan layanan Node Manager pada setiap node pekerja. Resource Manager berkoordinasi di antara semua Node Manager untuk menentukan tempat membuat dan menjalankan container di cluster.
Pada setiap node pekerja, Pengelola Node mencadangkan sebagian memori mesin dan CPU yang tersedia untuk menjalankan container YARN. Misalnya, pada cluster Dataproc, jika worker node Anda adalah VM n1-standard-4 (4 CPU, memori 15 GB), setiap Node Manager akan mencadangkan 4 CPU dan memori 12 GB untuk menjalankan container YARN. Memori 3 GB yang tersisa tersisa untuk layanan Hadoop lain yang berjalan di node.
Saat dijalankan di YARN, pipeline akan meluncurkan driver alur kerja pipeline, driver Spark, dan banyak eksekutor Spark di Dataproc.
Driver alur kerja bertanggung jawab untuk meluncurkan satu atau beberapa program Spark yang membentuk pipeline. Driver alur kerja biasanya tidak melakukan banyak pekerjaan. Setiap program Spark menjalankan satu driver Spark dan beberapa eksekutor Spark. Pengendara mengkoordinasikan bekerja di antara eksekutor, tetapi biasanya tidak melakukan pekerjaan sebenarnya. Sebagian besar pekerjaan sebenarnya dilakukan oleh eksekutor Spark.
Langkah selanjutnya
- Pelajari pemrosesan paralel di Cloud Data Fusion.