Profil komputasi menentukan cara dan tempat pipeline dieksekusi. File ini mengaitkan informasi apa pun yang diperlukan untuk menyiapkan dan menghapus lingkungan eksekusi fisik pipeline. Profil komputasi menentukan nama penyedia dan setelan konfigurasi untuk penyedia tersebut.
Setiap profil komputasi memiliki cakupan: sistem atau pengguna. Anda dapat menggunakan profil komputasi sistem untuk namespace apa pun di bawahnya. Profil komputasi pengguna ada dalam namespace, dan hanya pipeline dalam namespace tersebut yang dapat menggunakan profil komputasi pengguna. Profil komputasi dapat ditetapkan ke pipeline batch. Saat profil komputasi ditetapkan ke pipeline, penyedia yang ditentukan dalam profil akan digunakan untuk membuat cluster tempat pipeline akan berjalan.
Misalnya, administrator mungkin memutuskan untuk membuat profil komputasi kecil, sedang, dan besar. Mereka mengonfigurasi setiap profil dengan kredensial Google Cloud yang diperlukan untuk membuat dan menghapus cluster Dataproc di akun Google Cloud perusahaan.
- Profil kecil dikonfigurasi untuk membuat cluster 5 node.
- Profil sedang dikonfigurasi untuk membuat cluster 20 node.
- Profil besar dikonfigurasi untuk membuat cluster 50 node.
Administrator menetapkan profil kecil ke pipeline yang dijadwalkan untuk berjalan setiap jam pada data dalam jumlah kecil. Mereka menetapkan profil besar ke pipeline yang dijadwalkan untuk berjalan setiap hari pada data dalam jumlah besar.
Profil komputasi default
Secara default, Cloud Data Fusion menggunakan Autoscale sebagai profil komputasi. Memperkirakan jumlah pekerja cluster (node) yang sesuai untuk beban kerja sulit, dan satu ukuran cluster untuk seluruh pipeline sering kali tidak ideal. Penskalaan Otomatis Dataproc menyediakan mekanisme untuk mengotomatiskan pengelolaan resource cluster dan memungkinkan penskalaan otomatis VM pekerja cluster. Untuk informasi selengkapnya, lihat Penskalaan otomatis.
Di halaman Compute config, tempat Anda dapat melihat daftar profil, ada
kolom Total cores, yang memiliki vCPU maksimum yang dapat diskalakan oleh profil, seperti Up to 84
.
Profil komputasi sistem dan pengguna
Profil komputasi menunjukkan penyedia yang akan digunakan saat membuat cluster dan menentukan konfigurasi cluster. Konfigurasi ini juga menentukan konfigurasi penyedia yang harus digunakan saat membuat cluster.
- Untuk membuat profil komputasi sistem, buka halaman Admin sistem di Cloud Data Fusion Studio. Halaman ini mencantumkan semua profil komputasi sistem dan memungkinkan Anda membuat profil komputasi sistem baru.
- Untuk membuat profil komputasi pengguna, buka halaman Administrasi namespace di Cloud Data Fusion Studio, lalu pilih namespace tempat profil akan dibuat. Kemudian, Anda dapat membuat profil yang hanya ada dalam namespace tersebut.
Penetapan profil komputasi
Anda dapat menetapkan profil komputasi ke pipeline batch dengan cara berikut:
- Tetapkan profil default untuk instance Cloud Data Fusion.
- Menetapkan profil default untuk namespace tertentu.
- Tetapkan profil ke pipeline batch yang akan digunakan untuk operasi yang dimulai secara manual.
- Menetapkan profil ke jadwal pipeline.
Jika profil ditetapkan dalam jadwal yang memicu operasi, atau jika Anda menjalankan pipeline secara manual dan ada profil yang ditetapkan ke pipeline tersebut, Cloud Data Fusion akan menggunakan profil komputasi tersebut.
Jika tidak ada profil yang ditetapkan, Cloud Data Fusion akan menggunakan profil default untuk namespace. Jika tidak ada profil default yang ditetapkan untuk namespace,
Cloud Data Fusion menggunakan profil default sistem. Jika tidak ada setelan default sistem, profil bawaan akan digunakan.
Menetapkan profil komputasi default
Untuk menetapkan profil default ke namespace atau instance Cloud Data Fusion, buka Cloud Data Fusion Studio, lalu klik System admin > Configuration > System compute profiles. Untuk memilih default, klik bintang di samping nama profil.
Opsional: gunakan Microservices Preferensi untuk menetapkan profil default
- Untuk menetapkan profil default, tetapkan preferensi pada instance Cloud Data Fusion dengan kunci system.profile.name dan nilai
system:<profile-name>
. - Untuk menetapkan profil default untuk namespace, tetapkan preferensi pada
namespace yang dipilih dengan kunci
system.profile.name
dan nilai<scope>:<profile-name>
.
Menetapkan profil komputasi untuk proses manual
Untuk menetapkan profil yang akan digunakan untuk menjalankan pipeline manual, ikuti langkah-langkah berikut:
- Buka halaman detail pipeline.
- Klik Configure > Compute config.
- Pilih profil, lalu klik Simpan. Profil yang dipilih digunakan setiap kali pipeline berjalan secara manual.
Atau, Anda dapat menggunakan Preferences Microservices untuk menetapkan profil untuk
peluncuran manual dengan menetapkan preferensi pada entity DataPipelineWorkflow
dengan kunci
system.profile.name
dan nilai <scope>:<profile-name>
.
Menetapkan profil komputasi ke jadwal
Setiap kali membuat jadwal untuk pipeline, Anda dapat menetapkan profil ke pipeline tersebut. Setiap kali jadwal memicu operasi pipeline, jadwal tersebut akan menggunakan profil tersebut untuk operasi. Hal ini berlaku untuk jadwal waktu dan jadwal yang dipicu oleh pipeline lain.
Mengganti konfigurasi profil komputasi
Saat profil dibuat, setiap setelan konfigurasi dapat dibuat tidak dapat diubah dengan menguncinya. Namun, jika setelan konfigurasi tidak dikunci, setelan tersebut dapat digagalkan saat runtime. Untuk mengganti konfigurasi profil, ikuti langkah-langkah berikut:
- Dari halaman Daftar Pipeline, pilih pipeline yang di-deploy yang ingin Anda jalankan.
- Dari halaman Detail Pipeline, klik Konfigurasi.
- Pilih profil komputasi, lalu klik Customize.
- Ubah setelan apa pun, lalu klik Simpan.
Anda dapat menggunakan argumen runtime dan properti jadwal untuk mengubah ukuran cluster dan setelan lainnya.
- Untuk mengganti profil yang digunakan, tetapkan argumen runtime dengan kunci
system.profile.name
dan nilai<scope>:<profile-name>
. - Untuk mengganti properti profil, tetapkan argumen runtime dengan kunci
system.profile.properties.<property-name>
dan nilai yang sama dengan nilai untuk properti tersebut.
Misalnya, untuk mengganti numWorkerssetting
ke nilai 10
, tetapkan
argumen preferensi atau runtime dengan kunci
system.profile.properties.numWorkers
dan nilai 10
.
Langkah selanjutnya
- Pelajari penyedia di Cloud Data Fusion lebih lanjut.
- Pelajari konfigurasi cluster Dataproc lebih lanjut.