Halaman ini menjelaskan cara menjalankan pipeline di Cloud Data Fusion terhadap cluster Dataproc yang ada.
Secara default, Cloud Data Fusion membuat cluster efemeral untuk setiap pipeline: Cloud Data Fusion membuat cluster di awal proses pipeline, lalu menghapusnya setelah proses pipeline selesai. Meskipun perilaku ini menghemat biaya dengan memastikan bahwa resource hanya dibuat jika diperlukan, perilaku default ini mungkin tidak diinginkan dalam skenario berikut:
Jika waktu yang diperlukan untuk membuat cluster baru bagi setiap pipeline bersifat terlarang untuk kasus penggunaan Anda.
Jika organisasi Anda mengharuskan pembuatan cluster dikelola secara terpusat, misalnya, saat Anda ingin menerapkan kebijakan tertentu untuk semua cluster Dataproc.
Untuk skenario ini, Anda dapat menjalankan pipeline pada cluster yang ada dengan mengikuti langkah-langkah berikut.
Sebelum memulai
Anda memerlukan hal berikut:
Instance Cloud Data Fusion.
Cluster Dataproc yang sudah ada.
Jika Anda menjalankan pipeline di Cloud Data Fusion versi 6.2, gunakan image Dataproc lama yang berjalan dengan Hadoop 2.x (misalnya, 1.5-debian10), atau upgrade ke Cloud Data Fusion versi terbaru.
Hubungkan ke cluster yang ada
Di Cloud Data Fusion versi 6.2.1 dan yang lebih baru, Anda dapat terhubung ke cluster Dataproc yang ada saat membuat profil Compute Engine baru.
Buka instance Anda:
Di konsol Google Cloud, buka halaman Cloud Data Fusion.
Untuk membuka instance di antarmuka web Cloud Data Fusion, klik Instance, lalu klik View instance.
Klik System admin.
Klik tab Configuration.
Klik
System compute profile.Klik Buat profil baru. Halaman penyedia penyedia akan terbuka.
Klik Dataproc yang Ada.
Masukkan informasi profil, cluster, dan pemantauan.
Klik Create.
Mengonfigurasi pipeline Anda untuk menggunakan profil kustom
Buka instance Anda:
Di konsol Google Cloud, buka halaman Cloud Data Fusion.
Untuk membuka instance di antarmuka web Cloud Data Fusion, klik Instance, lalu klik View instance.
Buka pipeline Anda di halaman Studio.
Klik Konfigurasikan.
Klik Compute config.
Klik profil yang telah dibuat.
Jalankan pipeline. Proses ini dijalankan pada cluster Dataproc yang ada.
Langkah selanjutnya
- Pelajari lebih lanjut cara mengonfigurasi cluster.
- Pecahkan masalah menghapus cluster.