Membuat profil penggunaan resource Dataproc Serverless untuk Spark

Cloud Profiler terus mengumpulkan dan melaporkan penggunaan CPU aplikasi, dan informasi alokasi memori. Anda dapat mengaktifkan pembuatan profil saat Anda mengirimkan batch atau membuat beban kerja sesi dengan menggunakan properti pembuatan profil yang tercantum dalam tabel berikut. Dataproc Serverless untuk Spark menambahkan opsi JVM terkait ke spark.driver.extraJavaOptions dan spark.executor.extraJavaOptions konfigurasi yang digunakan untuk workload.

Opsi Deskripsi Nilai Default
dataproc.profiling.enabled Mengaktifkan pembuatan profil beban kerja true atau false false
dataproc.profiling.name Nama profil pada layanan Profiler PROFILE_NAME spark-WORKLOAD_TYPE-WORKLOAD_ID, dengan:
  • WORKLOAD_TYPE ditetapkan ke batch atau session
  • WORKLOAD_ID ditetapkan ke batchId atau sessionId

Catatan:

  • Dataproc Serverless untuk Spark menetapkan versi profiler ke salah satu UUID batch atau UUID sesi.
  • Profiler mendukung jenis workload Spark berikut: Spark, PySpark, SparkSql, dan SparkR.
  • Beban kerja harus berjalan selama lebih dari tiga menit untuk mengizinkan Profiler untuk mengumpulkan dan mengunggah data ke sebuah proyek.
  • Anda bisa mengganti opsi pembuatan profil yang dikirimkan bersama beban kerja dengan membangun SparkConf, lalu tetapkan extraJavaOptions dalam kode Anda. Perlu diperhatikan bahwa menetapkan properti extraJavaOptions saat beban kerja dikirimkan tidak menggantikan opsi pembuatan profil yang dikirimkan dengan beban kerja.

Untuk contoh opsi profiler yang digunakan dengan pengiriman batch, lihat Contoh workload batch PySpark.

Aktifkan pembuatan profil

Selesaikan langkah-langkah berikut untuk mengaktifkan pembuatan profil pada beban kerja:

  1. Aktifkan Profiler.
  2. Jika Anda menggunakan akun layanan VM kustom, memberikan Agen Cloud Profiler ke akun layanan VM kustom. Peran ini wajib diisi Izin profiler.
  3. Menyetel properti pembuatan profil saat Anda mengirimkan workload batch atau membuat template sesi.

Contoh workload batch PySpark

Contoh berikut menggunakan gcloud CLI untuk mengirimkan batch PySpark dengan mengaktifkan pembuatan profil.

gcloud dataproc batches submit pyspark PYTHON_WORKLOAD_FILE \
    --region=REGION \
    --properties=dataproc.profiling.enabled=true,dataproc.profiling.name=PROFILE_NAME \
    --  other args

Dua profil dibuat:

  • PROFILE_NAME-driver untuk membuat profil tugas spark driver
  • PROFILE_NAME-executor untuk membuat profil tugas eksekutor spark

Lihat profil

Anda dapat melihat profil dari Profiler di Konsol Google Cloud.

Langkah selanjutnya