Halaman ini menjelaskan orkestrasi pipeline dengan Cloud Composer dan pemicu. Cloud Data Fusion merekomendasikan penggunaan Cloud Composer untuk mengorkestrasi pipeline. Jika Anda memerlukan cara yang lebih sederhana untuk mengelola orkestrasi, gunakan pemicu.
Composer
Mengorkestrasi pipeline dengan Cloud Composer
Melakukan orkestrasi eksekusi pipeline di Cloud Data Fusion dengan Cloud Composer memberikan manfaat berikut:
- Pengelolaan alur kerja terpusat: mengelola eksekusi beberapa pipeline Cloud Data Fusion secara seragam.
- Pengelolaan dependensi: untuk memastikan urutan eksekusi yang tepat, menentukan dependensi antar-pipeline.
- Pemantauan dan pemberitahuan: Cloud Composer menyediakan kemampuan pemantauan dan pemberitahuan kegagalan.
- Integrasi dengan layanan lain: Cloud Composer memungkinkan Anda mengorkestrasi alur kerja yang mencakup Cloud Data Fusion dan layanan Google Cloud lainnya.
Untuk mengorkestrasi pipeline Cloud Data Fusion menggunakan Cloud Composer, ikuti proses ini:
Menyiapkan lingkungan Cloud Composer.
- Buat lingkungan Cloud Composer. Jika Anda tidak memilikinya, sediakan lingkungan di project Google Cloud Anda. Lingkungan ini adalah ruang kerja orkestrasi Anda.
- Berikan izin. Pastikan akun layanan Cloud Composer memiliki izin yang diperlukan untuk mengakses Cloud Data Fusion (seperti izin untuk memulai, menghentikan, dan mencantumkan pipeline).
Menentukan Directed Acyclic Graphs (DAG) untuk orkestrasi.
- Buat DAG: Di Cloud Composer, buat DAG yang menentukan alur kerja orkestrasi untuk pipeline Cloud Data Fusion Anda.
- Operator Cloud Data Fusion: Gunakan Operator Cloud Data Fusion milik Cloud Composer di DAG Anda. Operator ini memungkinkan Anda berinteraksi secara terprogram dengan Cloud Data Fusion.
Operator Cloud Data Fusion
Orkestrasi pipeline Cloud Data Fusion memiliki operator berikut:
CloudDataFusionStartPipelineOperator
Memicu eksekusi pipeline Cloud Data Fusion berdasarkan ID-nya. Parameter ini memiliki parameter berikut:
- ID pipeline
- Lokasi (region Google Cloud)
- Namespace pipeline
- Argumen runtime (opsional)
- Menunggu hingga selesai (opsional)
- Waktu tunggu (opsional)
CloudDataFusionStopPipelineOperator
Memungkinkan Anda menghentikan pipeline Cloud Data Fusion yang sedang berjalan.
CloudDataFusionDeletePipelineOperator
Menghapus pipeline Cloud Data Fusion.
Membangun alur kerja DAG
Saat Anda membangun alur kerja DAG, pertimbangkan hal-hal berikut:
- Menentukan dependensi: Gunakan struktur DAG untuk menentukan dependensi antar-tugas. Misalnya, Anda mungkin memiliki tugas yang menunggu pipeline di satu namespace berhasil diselesaikan sebelum memicu pipeline lain di namespace berbeda.
- Penjadwalan: Jadwalkan DAG untuk dijalankan pada interval tertentu, seperti harian atau per jam, atau tetapkan agar dipicu secara manual.
Untuk mengetahui informasi selengkapnya, lihat ringkasan Cloud Composer.
Triggers
Mengorkestrasi pipeline dengan pemicu
Pemicu Cloud Data Fusion memungkinkan Anda menjalankan pipeline downstream secara otomatis setelah selesai (berhasil, kegagalan, atau kondisi tertentu) dari satu atau beberapa pipeline upstream.
Pemicu berguna untuk tugas berikut:
- Membersihkan data sekali, lalu menyediakannya di beberapa pipeline downstream untuk digunakan.
- Berbagi informasi, seperti argumen runtime dan konfigurasi plugin, antar-pipeline. Tugas ini disebut konfigurasi payload.
- Memiliki kumpulan pipeline dinamis yang dijalankan menggunakan data dari jam, hari, minggu, atau bulan, bukan pipeline statis yang harus diupdate setiap kali dijalankan.
Misalnya, Anda memiliki set data yang berisi semua informasi tentang pengiriman di perusahaan Anda. Berdasarkan data ini, Anda ingin menjawab beberapa pertanyaan bisnis. Untuk melakukannya, Anda membuat satu pipeline yang membersihkan data mentah tentang pengiriman, yang disebut Pembersihan Data Pengiriman. Kemudian, Anda membuat pipeline kedua, Tertunda Pengiriman USA, yang membaca data yang telah dibersihkan dan menemukan pengiriman di dalam wilayah AS yang tertunda lebih dari batas yang ditentukan. Pipeline Pending Shipments USA dapat dipicu segera setelah pipeline Shipments Data Pembersihan upstream berhasil diselesaikan.
Selain itu, karena pipeline downstream menggunakan output dari pipeline upstream, Anda harus menentukan bahwa saat pipeline downstream berjalan menggunakan pemicu ini, pipeline juga akan menerima direktori input untuk dibaca (yang merupakan direktori tempat pipeline upstream menghasilkan output-nya). Proses ini disebut meneruskan konfigurasi payload, yang Anda tentukan dengan argumen runtime. Alat ini memungkinkan Anda memiliki kumpulan pipeline dinamis yang dijalankan menggunakan data per jam, hari, minggu, atau bulan (bukan pipeline statis, yang harus diupdate setiap kali dijalankan).
Untuk mengorkestrasi pipeline dengan pemicu, ikuti proses ini:
Membuat pipeline upstream dan downstream.
- Di Cloud Data Fusion Studio, desain dan deploy pipeline yang membentuk rantai orkestrasi Anda.
- Pertimbangkan penyelesaian pipeline mana yang akan mengaktifkan pipeline berikutnya (downstream) dalam alur kerja Anda.
Opsional: teruskan argumen runtime untuk pipeline upstream.
- Jika Anda perlu meneruskan konfigurasi payload sebagai argumen runtime di antara pipeline, konfigurasikan argumen runtime. Argumen ini dapat diteruskan ke pipeline downstream selama eksekusi.
Buat pemicu masuk pada pipeline downstream.
- Di Cloud Data Fusion Studio, buka halaman Daftar. Di tab Deployed, klik nama pipeline downstream. Tampilan Deploy untuk pipeline tersebut akan muncul.
- Di sisi kiri tengah halaman, klik Pemicu masuk. Daftar pipeline yang tersedia akan muncul.
- Klik pipeline upstream. Pilih satu atau beberapa status penyelesaian pipeline upstream (Succeeds, Fails, atau Stops) sebagai kondisi kapan pipeline downstream harus berjalan.
- Jika Anda ingin pipeline upstream berbagi informasi (disebut konfigurasi payload) dengan pipeline downstream, klik Konfigurasi pemicu, lalu ikuti langkah-langkah untuk meneruskan konfigurasi payload sebagai argumen runtime. Jika tidak, klik Aktifkan pemicu.
Menguji pemicu.
- Memulai operasi pipeline upstream.
- Jika pemicu dikonfigurasi dengan benar, pipeline downstream akan otomatis dieksekusi setelah pipeline upstream selesai, berdasarkan kondisi yang Anda konfigurasi.
Meneruskan konfigurasi payload sebagai argumen runtime
Konfigurasi {i>payload<i} memungkinkan berbagi informasi dari pipeline upstream ke pipeline downstream. Informasi ini dapat berupa, misalnya, direktori output, format data, atau hari kapan pipeline dijalankan. Informasi ini kemudian digunakan oleh pipeline downstream untuk keputusan seperti menentukan set data yang tepat untuk dibaca.
Untuk meneruskan informasi dari pipeline upstream ke pipeline downstream, Anda harus menetapkan argumen runtime pipeline downstream dengan nilai argumen runtime atau konfigurasi plugin apa pun di pipeline upstream.
Setiap kali pipeline downstream terpicu dan berjalan, konfigurasi payloadnya ditetapkan menggunakan argumen runtime dari proses tertentu pada pipeline upstream yang memicu pipeline downstream.
Untuk meneruskan konfigurasi payload sebagai argumen runtime, ikuti langkah-langkah berikut:
- Melanjutkan dari langkah terakhir Anda pada Membuat pemicu masuk, setelah mengklik Konfigurasi pemicu, argumen runtime apa pun yang disetel sebelumnya untuk pipeline upstream Anda akan muncul. Pilih argumen runtime yang akan diteruskan dari pipeline upstream ke pipeline downstream saat pemicu ini dijalankan.
- Klik tab Plugin config untuk melihat daftar apa yang akan diteruskan dari pipeline upstream Anda ke pipeline downstream Anda saat dipicu.
- Klik Konfigurasi dan Aktifkan Pemicu.