Men-deploy dan menjalankan pipeline

Halaman ini menjelaskan dasar-dasar mengenai deployment dan pengoperasian pipeline di di Cloud Data Fusion.

Men-deploy pipeline

Setelah Anda selesai mendesain dan melakukan proses debug pada pipeline data dan puas dengan data yang Anda lihat di Pratinjau, maka Anda siap untuk men-deploy pipeline.

Saat Anda men-deploy pipeline, Cloud Data Fusion Studio akan membuat dan tugas Apache Spark yang sesuai di latar belakang.

Menjalankan pipeline

Setelah men-deploy pipeline, Anda dapat menjalankan pipeline dengan cara berikut:

  • Untuk menjalankan pipeline on demand, buka pipeline yang di-deploy, lalu klik Run.
  • Untuk menjadwalkan pipeline agar berjalan pada waktu tertentu, buka instance pipeline, lalu klik Schedule.
  • Untuk memicu pipeline berbasis saat pipeline lain selesai, buka sebuah pipeline yang di-deploy, lalu klik Pemicu masuk.

Pipeline Studio menyimpan histori pipeline setiap kali dijalankan. Anda dapat beralih di antara berbagai versi runtime pipeline.

Jika pipeline memiliki makro, tetapkan argumen runtime untuk setiap makro. Anda juga dapat meninjau dan mengubah konfigurasi pipeline sebelum menjalankan pipeline yang di-deploy. Anda dapat melihat perubahan status selama fase pipeline yang berjalan, seperti Provisioning, Starting, Running, dan Berhasil. Anda juga dapat menghentikan pipeline kapan saja.

Jika mengaktifkan instrumentasi, Anda dapat mempelajari metrik yang dihasilkan oleh pipeline dengan mengklik Properties pada node mana pun di pipeline Anda, seperti sumber, transformasi, atau sink.

Untuk mengetahui informasi selengkapnya tentang operasi pipeline, klik Ringkasan.

Melihat data run

Setelah proses pipeline selesai, Anda dapat melihat kumpulan data run. Secara {i>default<i}, Anda dapat melihat kumpulan data operasi selama 30 hari terakhir. Cloud Data Fusion menghapusnya setelah periode tersebut. Anda dapat memperpanjang periode tersebut menggunakan REST API.

REST API

Untuk mempertahankan data operasi selama lebih dari 30 hari, perbarui app.run.records.ttl menggunakan perintah berikut:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

Ganti kode berikut:

  • PROJECT_NAME: nama project Google Cloud
  • REGION_NAME: instance Cloud Data Fusion region—misalnya, us-east4
  • INSTANCE_NAME: instance Cloud Data Fusion ID
  • DAYS: Lamanya waktu, dalam hari, untuk mempertahankan operasi kumpulan data untuk operasi pipeline lama—misalnya, 30.
  • HOURS: frekuensi, dalam jam, untuk memeriksa dan menghapus data run lama—misalnya, 24.

Contoh:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

Langkah selanjutnya