Ringkasan performa pipeline

Halaman ini menjelaskan terminologi dan konsep dasar pemrosesan pipeline di Cloud Data Fusion.

Performa pipeline bergantung pada aspek berikut:

  • Ukuran dan karakteristik data Anda
  • Struktur pipeline Anda
  • Penentuan ukuran cluster
  • Plugin yang digunakan pipeline Cloud Data Fusion Anda

Terminologi pemrosesan pipeline di Cloud Data Fusion

Terminologi berikut berlaku dalam pemrosesan pipeline di Cloud Data Fusion.

Jenis mesin
Jenis virtual machine (VM) yang digunakan (CPU, memori).
Cluster
Sekelompok VM yang bekerja sama untuk menangani tugas pemrosesan data skala besar.
Node master dan pekerja
Komputer fisik atau virtual yang dapat melakukan pemrosesan. Node master biasanya melakukan koordinasi pekerjaan. Node pekerja menjalankan eksekutor yang memproses data. Instance memiliki karakteristik mesin (jumlah memori dan jumlah vCore yang tersedia untuk proses).
vCore, Core, atau CPU
Resource yang melakukan komputasi. Biasanya node Anda menyediakan sejumlah Core tertentu dan Executor meminta satu atau beberapa CPU. Seimbangkan hal ini dengan memori, atau Anda mungkin tidak memanfaatkan cluster secara maksimal.
Driver
Satu VM yang bertindak sebagai koordinator pusat untuk seluruh cluster. Scheduler ini mengelola tugas, menjadwalkan pekerjaan di seluruh node pekerja, dan memantau progres tugas.
Eksekutor
Beberapa VM yang melakukan tugas pemrosesan data yang sebenarnya, seperti yang diinstruksikan oleh driver. Data Anda dipartisi dan didistribusikan di seluruh eksekutor ini untuk pemrosesan paralel. Untuk menggunakan semua eksekutor, Anda harus memiliki pemisahan yang memadai.
Pemisahan atau partisi
Set data dibagi menjadi bagian (partisi nama lainnya) untuk memproses data secara paralel. Jika tidak memiliki cukup pemisahan, Anda tidak dapat menggunakan seluruh cluster.

Ringkasan penyesuaian performa

Pipeline dijalankan di cluster mesin. Jika Anda memilih untuk menjalankan pipeline Cloud Data Fusion di cluster Dataproc (yang merupakan penyedia yang direkomendasikan), pipeline tersebut akan menggunakan YARN (Yet Another Resource Negotiator) di balik layar. Dataproc menggunakan YARN untuk pengelolaan resource dalam cluster. Saat Anda mengirimkan pipeline Cloud Data Fusion ke cluster Dataproc, tugas Apache Spark yang mendasarinya akan memanfaatkan YARN untuk alokasi resource dan penjadwalan tugas.

Cluster terdiri dari node master dan worker. Node master umumnya bertanggung jawab untuk mengoordinasikan pekerjaan, sedangkan node pekerja melakukan pekerjaan yang sebenarnya. Cluster biasanya akan memiliki sejumlah kecil node master (satu atau tiga) dan sejumlah besar pekerja. YARN digunakan sebagai sistem koordinasi pekerjaan. YARN menjalankan layanan Resource Manager di node master dan layanan Node Manager di setiap node pekerja. Resource Manager berkoordinasi di antara semua Node Manager untuk menentukan tempat membuat dan menjalankan container di cluster.

Pengelola Resource dan Pengelola Node YARN

Di setiap node pekerja, Pengelola Node mencadangkan sebagian memori dan CPU mesin yang tersedia untuk menjalankan penampung YARN. Misalnya, di kluster Dataproc, jika node pekerja Anda adalah VM n1-standard-4 (4 CPU, memori 15 GB), setiap Pengelola Node akan mencadangkan 4 CPU dan memori 12 GB untuk menjalankan penampung YARN. Sisa memori 3 GB digunakan untuk layanan Hadoop lainnya yang berjalan di node.

Saat dijalankan di YARN, pipeline akan meluncurkan driver alur kerja pipeline, driver Spark, dan banyak eksekutor Spark di Dataproc.

Driver dan Eksekutor

Penggerak alur kerja bertanggung jawab untuk meluncurkan satu atau beberapa program Spark yang membentuk pipeline. Penggerak alur kerja biasanya tidak melakukan banyak pekerjaan. Setiap program Spark menjalankan satu driver Spark dan beberapa eksekutor Spark. Driver mengkoordinasikan pekerjaan di antara eksekutor, tetapi biasanya tidak melakukan pekerjaan yang sebenarnya. Sebagian besar pekerjaan sebenarnya dilakukan oleh eksekutor Spark.

Langkah selanjutnya