Halaman ini menjelaskan dasar-dasar tentang cara men-deploy dan menjalankan pipeline di Cloud Data Fusion.
Men-deploy pipeline
Setelah selesai mendesain dan men-debug pipeline data serta puas dengan data yang Anda lihat di Pratinjau, Anda siap men-deploy pipeline.
Saat Anda men-deploy pipeline, Cloud Data Fusion Studio akan membuat alur kerja dan tugas Apache Spark yang sesuai di latar belakang.
Menjalankan pipeline
Setelah men-deploy pipeline, Anda dapat menjalankan pipeline dengan cara berikut:
- Untuk menjalankan pipeline on demand, buka pipeline yang di-deploy, lalu klik Run.
- Untuk menjadwalkan pipeline agar berjalan pada waktu tertentu, buka pipeline yang di-deploy dan klik Schedule.
- Untuk memicu pipeline berdasarkan saat pipeline lain selesai, buka pipeline yang di-deploy dan klik Pemicu masuk.
Pipeline Studio menyimpan histori pipeline setiap kali dijalankan. Anda dapat beralih antara berbagai versi runtime pipeline.
Jika pipeline memiliki makro, tetapkan argumen runtime untuk setiap makro. Anda juga dapat meninjau dan mengubah konfigurasi pipeline sebelum menjalankan pipeline yang di-deploy. Anda dapat melihat perubahan status selama fase pipeline berjalan, seperti Penyediaan, Dimulai, Berjalan, dan Berhasil. Anda juga dapat menghentikan pipeline kapan saja.
Jika mengaktifkan instrumentasi, Anda dapat menjelajahi metrik yang dihasilkan oleh pipeline dengan mengklik Properties di node mana pun dalam pipeline, seperti sumber, transformasi, atau sink.
Untuk mengetahui informasi selengkapnya tentang operasi pipeline, klik Ringkasan.
Melihat kumpulan data operasi
Setelah pipeline selesai dijalankan, Anda dapat melihat data operasi. Secara default, Anda dapat melihat data operasi selama 30 hari terakhir. Cloud Data Fusion akan menghapusnya setelah periode tersebut. Anda dapat memperpanjang periode tersebut menggunakan REST API.
REST API
Untuk mempertahankan data operasi lebih dari 30 hari, perbarui opsi app.run.records.ttl
menggunakan perintah berikut:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
Ganti kode berikut:
PROJECT_NAME
: Google Cloud nama projectREGION_NAME
: region instance Cloud Data Fusion—misalnya,us-east4
INSTANCE_NAME
: ID instance Cloud Data FusionDAYS
: Jumlah waktu, dalam hari, untuk mempertahankan catatan proses untuk proses pipeline lama—misalnya,30
.HOURS
: frekuensi, dalam jam, untuk memeriksa dan menghapus data operasi lama—misalnya,24
.
Contoh:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'
Langkah selanjutnya
- Pelajari konfigurasi pipeline lebih lanjut.