Konfigurasi cluster

Halaman ini menjelaskan kapan cluster Dataproc statis harus digunakan di Cloud Data Fusion, versi yang kompatibel, dan konfigurasi cluster yang direkomendasikan.

Kapan cluster digunakan kembali

Mulai Cloud Data Fusion 6.5.0, Anda dapat menggunakan kembali cluster Dataproc di antara pengoperasian untuk mempercepat waktu pemrosesan. Anda menggunakan kembali cluster untuk mengurangi waktu yang diperlukan untuk memulai tugas ketika ada beberapa tugas yang terjadi satu per satu. Untuk informasi lebih lanjut, lihat Menggunakan Kembali cluster Dataproc.

Kapan cluster statis digunakan

Direkomendasikan: Coba gunakan kembali cluster untuk meningkatkan waktu startup sebelum mencoba menggunakan cluster statis.

Secara default, Cloud Data Fusion membuat cluster efemeral untuk setiap pipeline. Fungsi ini membuat cluster di awal proses pipeline, lalu menghapusnya setelah proses pipeline selesai.

Dalam skenario berikut, jangan gunakan default. Sebagai gantinya, gunakan cluster statis:

  • Jika waktu yang diperlukan untuk membuat cluster baru bagi setiap pipeline bersifat terlarang untuk kasus penggunaan Anda.

  • Kapan organisasi Anda memerlukan pembuatan cluster untuk dikelola secara terpusat. Misalnya, ketika Anda ingin menerapkan kebijakan tertentu untuk semua cluster Dataproc.

Untuk menggunakan cluster statis, Anda harus menetapkan properti berikut di cluster Dataproc:

dataproc:dataproc.conscrypt.provider.enable=false

Untuk informasi selengkapnya, lihat Menjalankan pipeline terhadap cluster Dataproc yang ada.

Kapan harus menggunakan penskalaan otomatis

Direkomendasikan: Gunakan penskalaan otomatis Cloud Data Fusion yang telah ditentukan sebelumnya atau kebijakan penskalaan otomatis Anda sendiri guna mengotomatiskan pengelolaan resource cluster untuk pemrosesan dalam pipeline batch.

Penskalaan otomatis tidak direkomendasikan untuk menurunkan skala. Untuk mengetahui informasi tentang cara mengurangi biaya selama periode aktivitas rendah, lihat dokumen berikut:

Jika Anda menggunakan profil komputasi default untuk menjalankan pipeline besar, pipeline mungkin tidak berjalan dengan performa yang optimal. Hal ini juga berguna jika Anda tidak yakin tentang persyaratan ukuran cluster yang tepat untuk pipeline Anda.

Di Cloud Data Fusion versi 6.6 dan yang lebih baru, Anda dapat menggunakan penskalaan otomatis yang telah ditentukan sebelumnya pada Cloud Data Fusion untuk mengotomatiskan pengelolaan resource cluster. Profil komputasi penskalaan otomatis siap pakai mungkin cukup untuk pipeline Anda, tetapi jika memerlukan kontrol lebih besar, Anda dapat menentukan kebijakan penskalaan otomatis sendiri.

Pada versi yang didukung, Anda dapat membuat kebijakan penskalaan otomatis sendiri untuk menetapkan jumlah maksimum pekerja. Mulai Cloud Data Fusion versi 6.10.0, instance menggunakan profil Dataproc penskalaan otomatis secara default untuk cluster efemeral. Untuk informasi selengkapnya tentang cara membuat kebijakan penskalaan otomatis, lihat Cluster penskalaan otomatis.

Gunakan penskalaan otomatis yang telah ditetapkan di Cloud Data Fusion

Anda dapat menggunakan penskalaan otomatis yang telah ditetapkan untuk meningkatkan worker node sesuai dengan beban kerja pipeline Anda pada versi 6.6 dan yang lebih baru. Penskalaan otomatis yang telah ditetapkan hanya tersedia untuk pipeline batch.

Opsi 1: Gunakan profil penskalaan otomatis Cloud Data Fusion

Pada instance Cloud Data Fusion yang berjalan dalam versi 6.6.0 dan yang lebih baru, instance Anda dilengkapi dengan profil bernama Penskalaan Otomatis Dataproc, yang merupakan profil Dataproc siap pakai dengan penskalaan otomatis yang telah ditentukan sebelumnya. Profil ini mirip dengan profil yang dibuat sebelumnya di opsi 3, kecuali, di 6.6.0 dan instance diupgrade dari 6.6.0, jenis mesin pekerja adalah n2.

  1. Di konsol Google Cloud, buka halaman Instance Cloud Data Fusion.
  2. Klik View Instance untuk membuka instance di antarmuka web Cloud Data Fusion.
  3. Buka halaman pipeline yang di-deploy dengan mengklik Daftar > Di-deploy.
  4. Klik Configure > Compute.
  5. Pilih profil bernama Autoscaling Dataproc.

Opsi 2: Aktifkan kebijakan penskalaan otomatis yang telah ditentukan sebelumnya dengan menyesuaikan profil

Untuk mengaktifkan penskalaan otomatis yang telah ditentukan sebelumnya di profil default, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman Instance Cloud Data Fusion.
  2. Klik View Instance untuk membuka instance di antarmuka web Cloud Data Fusion.
  3. Buka halaman pipeline yang di-deploy dengan mengklik Daftar > Di-deploy.
  4. Klik Konfigurasikan.
  5. Klik Sesuaikan di profil pilihan Anda.
  6. Luaskan bagian Jumlah pekerja cluster.
  7. Klik tombol Gunakan Penskalaan Otomatis yang telah ditetapkan.
  8. Klik Selesai dan Simpan.

Saat pipeline Anda berjalan di lain waktu, tugas Dataproc akan menggunakan kebijakan penskalaan otomatis yang telah ditetapkan dari Cloud Data Fusion.

Jika Anda mengaktifkan penskalaan otomatis yang telah ditentukan:

  • Properti Number of primary workers, Number of secondary workers, dan Autoscaling policy tidak dipertimbangkan.
  • Konfigurasi jenis mesin pekerja sama dengan profil yang dipilih.
  • Menonaktifkan tombol Gunakan Penskalaan Otomatis yang telah ditetapkan akan menonaktifkan penskalaan otomatis yang telah ditentukan, lalu menjalankan perilaku asli profil.

Argumen runtime:

Perilaku yang dijelaskan dapat dilakukan dengan memasukkan Kunci dan Nilai berikut dalam argumen runtime:

system.profile.properties.enablePredefinedAutoScaling = true

Opsi 3: Aktifkan kebijakan penskalaan otomatis yang telah ditentukan sebelumnya di profil komputasi baru

Anda dapat mengklik tombol Gunakan Penskalaan Otomatis yang telah ditetapkan saat membuat profil penyedia Dataproc baru. Anda kemudian dapat menggunakan profil ini di berbagai pipeline dan memiliki kontrol lebih besar atas jenis mesin pekerja dan properti lainnya.

  1. Di konsol Google Cloud, buka halaman Instance Cloud Data Fusion.
  2. Klik View Instance untuk membuka instance di UI Cloud Data Fusion.
  3. Anda dapat membuat profil dari cakupan sistem atau cakupan pengguna:

    1. (Opsional) Untuk cakupan sistem: Klik System Admin > Configuration > System Compute Profiles > Create New Profile.
    2. (Opsional) Untuk cakupan pengguna: Klik Menu > Namespace Admin > Create profile.

    Halaman penyedia penyedia akan terbuka.

  4. Klik Dataproc.

  5. Luaskan bagian Jumlah pekerja cluster.

  6. Klik tombol Gunakan Penskalaan Otomatis yang telah ditetapkan.

  7. Masukkan detail lainnya, lalu klik Create.

Anda dapat menerapkan profil ini ke pipeline dengan membuka pipeline di halaman Studio, mengklik Configure > Compute, dan memilih profil. Anda dapat menetapkan profil sebagai default.

Detail tambahan

Di halaman Compute config, tempat Anda dapat melihat daftar profil, ada kolom Total core, yang memiliki vCPU maksimum yang dapat ditingkatkan skalanya, seperti Up to 84.

Kompatibilitas versi

Masalah: Versi lingkungan Cloud Data Fusion Anda mungkin tidak kompatibel dengan versi cluster Dataproc Anda.

Direkomendasikan: Upgrade ke versi Cloud Data Fusion terbaru dan gunakan salah satu versi Dataproc yang didukung.

Cloud Data Fusion versi sebelumnya hanya kompatibel dengan versi Dataproc yang tidak didukung. Dataproc tidak menyediakan update dan dukungan untuk cluster yang dibuat dengan versi ini. Meskipun Anda dapat terus menjalankan cluster yang dibuat dengan versi yang tidak didukung, sebaiknya ganti dengan cluster yang dibuat dengan versi yang didukung.

Versi Cloud Data Fusion Versi Dataproc
6.10 dan yang lebih baru 2.1, 2.0 *
6,9 2.1, 2.0, 1,5 *
6,7-6,8 2.0, 1.5 *
6,4-6,6 2,0 *, 1,3 **
6,1-6,3 1,3**

* Cloud Data Fusion versi 6.4 dan yang lebih baru kompatibel dengan versi Dataproc yang didukung. Kecuali jika fitur OS tertentu diperlukan, praktik yang direkomendasikan adalah menentukan versi image major.minor.
Untuk menentukan versi OS yang digunakan di cluster Dataproc, versi OS tersebut harus kompatibel dengan salah satu versi Dataproc yang didukung untuk Cloud Data Fusion di tabel sebelumnya.

** Cloud Data Fusion versi 6.1 hingga 6.6 kompatibel dengan Dataproc versi 1.3 yang tidak didukung.

Praktik terbaik

Direkomendasikan: Saat Anda membuat cluster statis untuk pipeline Anda, gunakan konfigurasi berikut.

Parameter
yarn.nodemanager.delete.debug-delay-sec Menyimpan log YARN.
Nilai yang direkomendasikan: 86400 (setara dengan satu hari)
yarn.nodemanager.pmem-check-enabled Memungkinkan YARN memeriksa batas memori fisik dan menghentikan container jika melampaui memori fisik.
Nilai yang direkomendasikan: false
yarn.nodemanager.vmem-check-enabled Memungkinkan YARN memeriksa batas memori virtual dan menghentikan container jika batas tersebut melampaui memori fisik.
Nilai yang direkomendasikan: false.