Mengatur pipeline

Halaman ini menjelaskan orkestrasi pipeline dengan Cloud Composer dan pemicu. Cloud Data Fusion merekomendasikan penggunaan Cloud Composer untuk melakukan orkestrasi pipeline. Jika Anda memerlukan cara yang lebih sederhana untuk mengelola orkestrasi, gunakan pemicu.

Composer

Mengorkestrasi pipeline dengan Cloud Composer

Mengorkestrasi eksekusi pipeline di Cloud Data Fusion dengan Cloud Composer memberikan manfaat berikut:

  • Pengelolaan alur kerja terpusat: mengelola eksekusi beberapa pipeline Cloud Data Fusion secara seragam.
  • Pengelolaan dependensi: untuk memastikan urutan eksekusi yang tepat, tentukan dependensi antar-pipeline.
  • Pemantauan dan pemberitahuan: Cloud Composer menyediakan kemampuan pemantauan dan pemberitahuan untuk kegagalan.
  • Integrasi dengan layanan lain: Cloud Composer memungkinkan Anda melakukan orkestrasi alur kerja yang mencakup Cloud Data Fusion dan layanan Google Cloud lainnya.

Untuk mengorkestrasi pipeline Cloud Data Fusion menggunakan Cloud Composer, ikuti proses ini:

  1. Siapkan lingkungan Cloud Composer.

    • Buat lingkungan Cloud Composer. Jika Anda tidak memilikinya, sediakan lingkungan di project Google Cloud Anda. Lingkungan ini adalah ruang kerja orkestrasi Anda.
    • Berikan izin. Pastikan akun layanan Cloud Composer memiliki izin yang diperlukan untuk mengakses Cloud Data Fusion (seperti izin untuk memulai, menghentikan, dan mencantumkan pipeline).
  2. Menentukan Directed Acyclic Graph (DAG) untuk orkestrasi.

    • Buat DAG: Di Cloud Composer, buat DAG yang menentukan alur kerja orkestrasi untuk pipeline Cloud Data Fusion Anda.
    • Operator Cloud Data Fusion: Gunakan Operator Cloud Data Fusion Cloud Composer dalam DAG Anda. Operator ini memungkinkan Anda berinteraksi secara terprogram dengan Cloud Data Fusion.

Operator Cloud Data Fusion

Orkestrasi pipeline Cloud Data Fusion memiliki operator berikut:

CloudDataFusionStartPipelineOperator

Memicu eksekusi pipeline Cloud Data Fusion berdasarkan ID-nya. Laporan ini memiliki parameter berikut:

  • ID Pipeline
  • Lokasi (region Google Cloud)
  • Namespace pipeline
  • Argumen runtime (opsional)
  • Menunggu penyelesaian (opsional)
  • Waktu tunggu (opsional)
CloudDataFusionStopPipelineOperator

Memungkinkan Anda menghentikan pipeline Cloud Data Fusion yang sedang berjalan.

CloudDataFusionDeletePipelineOperator

Menghapus pipeline Cloud Data Fusion.

Mem-build alur kerja DAG

Saat Anda mem-build alur kerja DAG, pertimbangkan hal-hal berikut:

  • Menentukan dependensi: Gunakan struktur DAG untuk menentukan dependensi antara tugas. Misalnya, Anda mungkin memiliki tugas yang menunggu pipeline di satu namespace berhasil diselesaikan sebelum memicu pipeline lain di namespace yang berbeda.
  • Penjadwalan: Menjadwalkan DAG untuk berjalan pada interval tertentu, seperti harian atau per jam, atau menyetelnya untuk dipicu secara manual.

Untuk informasi selengkapnya, lihat ringkasan Cloud Composer.

Pemicu

Mengatur pipeline dengan pemicu

Pemicu Cloud Data Fusion memungkinkan Anda menjalankan pipeline downstream secara otomatis setelah menyelesaikan (berhasil, gagal, atau kondisi yang ditentukan) satu atau beberapa pipeline upstream.

Pemicu berguna untuk tugas berikut:

  • Membersihkan data Anda sekali, lalu menyediakannya ke beberapa pipeline downstream untuk digunakan.
  • Berbagi informasi, seperti argumen runtime dan konfigurasi plugin, di antara pipeline. Tugas ini disebut konfigurasi payload.
  • Memiliki kumpulan pipeline dinamis yang berjalan menggunakan data dari jam, hari, minggu, atau bulan, bukan pipeline statis yang harus diperbarui untuk setiap operasi.

Misalnya, Anda memiliki set data yang berisi semua informasi tentang pengiriman perusahaan Anda. Berdasarkan data ini, Anda ingin menjawab beberapa pertanyaan bisnis. Untuk melakukannya, Anda membuat satu pipeline yang membersihkan data mentah tentang pengiriman, yang disebut Pembersihan Data Pengiriman. Kemudian, Anda membuat pipeline kedua, Delayed Shipments USA, yang membaca data yang telah dibersihkan dan menemukan pengiriman dalam Amerika Serikat yang tertunda lebih dari nilai minimum yang ditentukan. Pipeline Pengiriman Tertunda Amerika Serikat dapat dipicu segera setelah pipeline Pembersihan Data Pengiriman upstream berhasil diselesaikan.

Selain itu, karena pipeline downstream menggunakan output pipeline upstream, Anda harus menentukan bahwa saat pipeline downstream berjalan menggunakan pemicu ini, pipeline juga akan menerima direktori input yang akan dibaca (yang adalah direktori tempat pipeline upstream menghasilkan outputnya). Proses ini disebut meneruskan konfigurasi payload, yang Anda tentukan dengan argumen runtime. Dengan demikian, Anda dapat memiliki serangkaian pipeline dinamis yang berjalan menggunakan data jam, hari, minggu, atau bulan (bukan pipeline statis, yang harus diperbarui untuk setiap operasi).

Untuk mengatur pipeline dengan pemicu, ikuti proses ini:

  1. Membuat pipeline upstream dan downstream.

    • Di Cloud Data Fusion Studio, desain dan deploy pipeline yang membentuk rantai orkestrasi Anda.
    • Pertimbangkan penyelesaian pipeline mana yang akan mengaktifkan pipeline berikutnya (downstream) dalam alur kerja Anda.
  2. Opsional: meneruskan argumen runtime untuk pipeline upstream.

  3. Buat pemicu masuk di pipeline downstream.

    • Di Cloud Data Fusion Studio, buka halaman List. Di tab Deployed, klik nama pipeline downstream. Tampilan Deployment untuk pipeline tersebut akan muncul.
    • Di sisi kiri tengah halaman, klik Pemicu masuk. Daftar pipeline yang tersedia akan muncul.
    • Klik pipeline upstream. Pilih satu atau beberapa status penyelesaian pipeline upstream (Berhasil, Gagal, atau Berhenti) sebagai kondisi untuk kapan pipeline downstream harus dijalankan.
    • Jika Anda ingin pipeline upstream membagikan informasi (disebut konfigurasi payload) dengan pipeline downstream, klik Konfigurasi pemicu, lalu ikuti langkah-langkah untuk meneruskan konfigurasi payload sebagai argumen runtime. Jika tidak, klik Aktifkan pemicu.
  4. Uji pemicu.

    • Memulai proses pipeline upstream.
    • Jika pemicu dikonfigurasi dengan benar, pipeline downstream akan otomatis dijalankan setelah pipeline upstream selesai, berdasarkan kondisi yang Anda konfigurasikan.

Meneruskan konfigurasi payload sebagai argumen runtime

Konfigurasi payload memungkinkan pembagian informasi dari pipeline upstream ke pipeline downstream. Informasi ini dapat berupa, misalnya, direktori output, format data, atau hari pipeline dijalankan. Informasi ini kemudian digunakan oleh pipeline downstream untuk keputusan seperti menentukan set data yang tepat untuk dibaca.

Untuk meneruskan informasi dari pipeline upstream ke pipeline downstream, Anda menetapkan argumen runtime pipeline downstream dengan nilai argumen runtime atau konfigurasi plugin apa pun di pipeline upstream.

Setiap kali pipeline downstream dipicu dan dijalankan, konfigurasi payloadnya ditetapkan menggunakan argumen runtime dari operasi tertentu dari pipeline upstream yang memicu pipeline downstream.

Untuk meneruskan konfigurasi payload sebagai argumen runtime, ikuti langkah-langkah berikut:

  1. Melanjutkan dari Membuat pemicu masuk, setelah mengklik Konfigurasi pemicu, argumen runtime apa pun yang Anda tetapkan sebelumnya untuk pipeline upstream akan muncul. Pilih argumen runtime yang akan diteruskan dari pipeline upstream ke pipeline downstream saat pemicu ini dieksekusi.
  2. Klik tab Konfigurasi plugin untuk melihat daftar hal yang akan diteruskan dari pipeline upstream ke pipeline downstream saat dipicu.
  3. Klik Konfigurasi dan Aktifkan Pemicu.