Halaman ini menjelaskan dasar-dasar mengenai deployment dan pengoperasian pipeline di di Cloud Data Fusion.
Men-deploy pipeline
Setelah Anda selesai mendesain dan melakukan proses debug pada pipeline data dan puas dengan data yang Anda lihat di Pratinjau, maka Anda siap untuk men-deploy pipeline.
Saat Anda men-deploy pipeline, Cloud Data Fusion Studio akan membuat dan tugas Apache Spark yang sesuai di latar belakang.
Menjalankan pipeline
Setelah men-deploy pipeline, Anda dapat menjalankan pipeline dengan cara berikut:
- Untuk menjalankan pipeline on demand, buka pipeline yang di-deploy, lalu klik Run.
- Untuk menjadwalkan pipeline agar berjalan pada waktu tertentu, buka instance pipeline, lalu klik Schedule.
- Untuk memicu pipeline berbasis saat pipeline lain selesai, buka sebuah pipeline yang di-deploy, lalu klik Pemicu masuk.
Pipeline Studio menyimpan histori pipeline setiap kali dijalankan. Anda dapat beralih di antara berbagai versi runtime pipeline.
Jika pipeline memiliki makro, tetapkan argumen runtime untuk setiap makro. Anda juga dapat meninjau dan mengubah konfigurasi pipeline sebelum menjalankan pipeline yang di-deploy. Anda dapat melihat perubahan status selama fase pipeline yang berjalan, seperti Provisioning, Starting, Running, dan Berhasil. Anda juga dapat menghentikan pipeline kapan saja.
Jika mengaktifkan instrumentasi, Anda dapat mempelajari metrik yang dihasilkan oleh pipeline dengan mengklik Properties pada node mana pun di pipeline Anda, seperti sumber, transformasi, atau sink.
Untuk mengetahui informasi selengkapnya tentang operasi pipeline, klik Ringkasan.
Melihat data run
Setelah proses pipeline selesai, Anda dapat melihat kumpulan data run. Secara {i>default<i}, Anda dapat melihat kumpulan data operasi selama 30 hari terakhir. Cloud Data Fusion menghapusnya setelah periode tersebut. Anda dapat memperpanjang periode tersebut menggunakan REST API.
REST API
Untuk mempertahankan data operasi selama lebih dari 30 hari, perbarui app.run.records.ttl
menggunakan perintah berikut:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
Ganti kode berikut:
PROJECT_NAME
: nama project Google CloudREGION_NAME
: instance Cloud Data Fusion region—misalnya,us-east4
INSTANCE_NAME
: instance Cloud Data Fusion IDDAYS
: Lamanya waktu, dalam hari, untuk mempertahankan operasi kumpulan data untuk operasi pipeline lama—misalnya,30
.HOURS
: frekuensi, dalam jam, untuk memeriksa dan menghapus data run lama—misalnya,24
.
Contoh:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'
Langkah selanjutnya
- Pelajari konfigurasi pipeline lebih lanjut.