Menjalankan pipeline terhadap cluster Dataproc yang ada

Halaman ini menjelaskan cara menjalankan pipeline di Cloud Data Fusion terhadap cluster Dataproc yang ada.

Secara default, Cloud Data Fusion membuat cluster sementara untuk setiap pipeline: Cloud Data Fusion membuat cluster di awal operasi pipeline, lalu menghapusnya setelah operasi pipeline selesai. Meskipun perilaku ini menghemat biaya dengan memastikan bahwa resource hanya dibuat saat diperlukan, perilaku default ini mungkin tidak diinginkan dalam skenario berikut:

  • Jika waktu yang diperlukan untuk membuat cluster baru untuk setiap pipeline terlalu lama untuk kasus penggunaan Anda.

  • Jika organisasi Anda mewajibkan pembuatan cluster dikelola secara terpusat; misalnya, saat Anda ingin menerapkan kebijakan tertentu untuk semua cluster Dataproc.

Untuk skenario ini, Anda akan menjalankan pipeline terhadap cluster yang ada dengan langkah-langkah berikut.

Sebelum memulai

Anda memerlukan hal berikut:

Menghubungkan ke cluster yang ada

Di Cloud Data Fusion versi 6.2.1 dan yang lebih baru, Anda dapat terhubung ke kluster Dataproc yang ada saat membuat profil Compute Engine baru.

  1. Buka instance Anda:

    1. Di konsol Google Cloud, buka halaman Cloud Data Fusion.

    2. Untuk membuka instance di Cloud Data Fusion Studio, klik Instance, lalu klik View instance.

      Buka Instance

  2. Klik System admin.

  3. Klik tab Configuration.

  4. Klik Profil komputasi sistem.

  5. Klik Buat profil baru. Halaman penyedia akan terbuka.

  6. Klik Existing Dataproc.

  7. Masukkan informasi profil, cluster, dan pemantauan.

  8. Klik Create.

Mengonfigurasi pipeline Anda untuk menggunakan profil kustom

  1. Buka instance Anda:

    1. Di konsol Google Cloud, buka halaman Cloud Data Fusion.

    2. Untuk membuka instance di Cloud Data Fusion Studio, klik Instance, lalu klik View instance.

      Buka Instance

  2. Buka pipeline di halaman Studio.

  3. Klik Konfigurasikan.

  4. Klik Compute config.

  5. Klik profil yang Anda buat.

    Gunakan Profil Kustom.
    Gambar 1: Klik profil kustom
  6. Jalankan pipeline. Aplikasi ini berjalan pada cluster Dataproc yang ada.

Langkah selanjutnya