Performa pipeline

Halaman ini menjelaskan setelan pipeline yang dapat Anda sesuaikan dan dampaknya terhadap performa.

Performa pipeline bergantung pada hal berikut:

  • Ukuran dan karakteristik data Anda
  • Struktur pipeline Anda
  • Ukuran cluster
  • Plugin yang digunakan pipeline Cloud Data Fusion Anda

Ukuran cluster

Node master menggunakan resource yang sebanding dengan jumlah pipeline atau aplikasi tambahan yang berjalan di cluster. Jika Anda menjalankan pipeline pada cluster efemeral, gunakan 2 CPU dan memori 8 GB untuk node master. Jika menggunakan cluster persisten, Anda mungkin memerlukan node master yang lebih besar untuk mengikuti alur kerja. Untuk memahami apakah memerlukan node master yang lebih besar, Anda dapat memantau penggunaan memori dan CPU pada node tersebut. Sebaiknya tentukan ukuran node pekerja dengan minimal 2 CPU dan memori sebesar 8 GB. Jika telah mengonfigurasi pipeline untuk menggunakan memori dalam jumlah yang lebih besar, Anda harus menggunakan pekerja yang lebih besar.

Untuk meminimalkan waktu eksekusi, pastikan cluster Anda memiliki node yang cukup untuk memungkinkan pemrosesan paralel sebanyak mungkin.

Pelajari pengubahan ukuran cluster lebih lanjut.

Referensi

Pipeline memungkinkan Anda menentukan jumlah CPU dan jumlah memori yang akan diberikan ke driver Spark dan ke setiap eksekutor Spark. Pengemudi tidak melakukan banyak pekerjaan. Oleh karena itu, nilai default 1 CPU dan 2 GB memori sudah cukup untuk menjalankan sebagian besar pipeline. Anda mungkin perlu meningkatkan memori untuk pipeline yang berisi banyak tahapan atau skema besar. Jumlah CPU yang ditetapkan ke eksekutor menentukan jumlah tugas yang dapat dijalankan eksekutor secara paralel.

Pelajari referensi lebih lanjut.

Penyesuaian mesin eksekusi

Di Cloud Data Fusion versi 6.4 dan yang lebih baru, Cloud Data Fusion otomatis mengonfigurasi mesin eksekusi untuk mendapatkan performa terbaik bagi cluster Dataproc efemeral. Untuk cluster Dataproc statis, konfigurasi mesin eksekusi Anda.

Pelajari lebih lanjut

Untuk mempelajari konsep yang diperkenalkan di sini secara lebih mendetail, lihat Panduan penyesuaian performa pipeline data CDAP.