Halaman ini menjelaskan setelan pipeline yang dapat Anda sesuaikan dan dampaknya terhadap performa.
Performa pipeline bergantung pada hal berikut:
- Ukuran dan karakteristik data Anda
- Struktur pipeline Anda
- Ukuran cluster
- Plugin yang digunakan pipeline Cloud Data Fusion Anda
Ukuran cluster
Node master menggunakan resource yang sebanding dengan jumlah pipeline atau aplikasi tambahan yang berjalan di cluster. Jika Anda menjalankan pipeline pada cluster efemeral, gunakan 2 CPU dan memori 8 GB untuk node master. Jika menggunakan cluster persisten, Anda mungkin memerlukan node master yang lebih besar untuk mengikuti alur kerja. Untuk memahami apakah memerlukan node master yang lebih besar, Anda dapat memantau penggunaan memori dan CPU pada node tersebut. Sebaiknya tentukan ukuran node pekerja dengan minimal 2 CPU dan memori sebesar 8 GB. Jika telah mengonfigurasi pipeline untuk menggunakan memori dalam jumlah yang lebih besar, Anda harus menggunakan pekerja yang lebih besar.
Untuk meminimalkan waktu eksekusi, pastikan cluster Anda memiliki node yang cukup untuk memungkinkan pemrosesan paralel sebanyak mungkin.
Pelajari pengubahan ukuran cluster lebih lanjut.
Referensi
Pipeline memungkinkan Anda menentukan jumlah CPU dan jumlah memori yang akan diberikan ke driver Spark dan ke setiap eksekutor Spark. Pengemudi tidak melakukan banyak pekerjaan. Oleh karena itu, nilai default 1 CPU dan 2 GB memori sudah cukup untuk menjalankan sebagian besar pipeline. Anda mungkin perlu meningkatkan memori untuk pipeline yang berisi banyak tahapan atau skema besar. Jumlah CPU yang ditetapkan ke eksekutor menentukan jumlah tugas yang dapat dijalankan eksekutor secara paralel.
Pelajari referensi lebih lanjut.
Penyesuaian mesin eksekusi
Di Cloud Data Fusion versi 6.4 dan yang lebih baru, Cloud Data Fusion otomatis mengonfigurasi mesin eksekusi untuk mendapatkan performa terbaik bagi cluster Dataproc efemeral. Untuk cluster Dataproc statis, konfigurasi mesin eksekusi Anda.
Pelajari lebih lanjut
Untuk mempelajari konsep yang diperkenalkan di sini secara lebih mendetail, lihat Panduan penyesuaian performa pipeline data CDAP.