Menjalankan pipeline terhadap cluster Dataproc yang ada

Halaman ini menjelaskan cara menjalankan pipeline di Cloud Data Fusion terhadap cluster Dataproc yang ada.

Secara default, Cloud Data Fusion membuat cluster efemeral untuk setiap pipeline: Cloud Data Fusion membuat cluster di awal proses pipeline, lalu menghapusnya setelah proses pipeline selesai. Meskipun perilaku ini menghemat biaya dengan memastikan bahwa resource hanya dibuat jika diperlukan, perilaku default ini mungkin tidak diinginkan dalam skenario berikut:

  • Jika waktu yang diperlukan untuk membuat cluster baru bagi setiap pipeline bersifat terlarang untuk kasus penggunaan Anda.

  • Jika organisasi Anda mengharuskan pembuatan cluster dikelola secara terpusat, misalnya, saat Anda ingin menerapkan kebijakan tertentu untuk semua cluster Dataproc.

Untuk skenario ini, Anda dapat menjalankan pipeline pada cluster yang ada dengan mengikuti langkah-langkah berikut.

Sebelum memulai

Anda memerlukan hal berikut:

Hubungkan ke cluster yang ada

Di Cloud Data Fusion versi 6.2.1 dan yang lebih baru, Anda dapat terhubung ke cluster Dataproc yang ada saat membuat profil Compute Engine baru.

  1. Buka instance Anda:

    1. Di konsol Google Cloud, buka halaman Cloud Data Fusion.

    2. Untuk membuka instance di antarmuka web Cloud Data Fusion, klik Instance, lalu klik View instance.

      Buka Instance

  2. Klik System admin.

  3. Klik tab Configuration.

  4. Klik System compute profile.

  5. Klik Buat profil baru. Halaman penyedia penyedia akan terbuka.

  6. Klik Dataproc yang Ada.

  7. Masukkan informasi profil, cluster, dan pemantauan.

  8. Klik Create.

Mengonfigurasi pipeline Anda untuk menggunakan profil kustom

  1. Buka instance Anda:

    1. Di konsol Google Cloud, buka halaman Cloud Data Fusion.

    2. Untuk membuka instance di antarmuka web Cloud Data Fusion, klik Instance, lalu klik View instance.

      Buka Instance

  2. Buka pipeline Anda di halaman Studio.

  3. Klik Konfigurasikan.

  4. Klik Compute config.

  5. Klik profil yang telah dibuat.

    Gunakan Profil Kustom.
    Gambar 1: Klik profil kustom
  6. Jalankan pipeline. Proses ini dijalankan pada cluster Dataproc yang ada.

Langkah selanjutnya