Ringkasan alur kerja

Dokumen ini membantu Anda memahami arsitektur dan eksekusi alur kerja di Dataform.

Anda dapat menggunakan Dataform untuk mengembangkan, menguji, dan mengontrol versi alur kerja yang dapat Anda jalankan di BigQuery untuk mentransformasi data guna tujuan analisis. Anda dapat mengembangkan alur kerja dengan Dataform core, menggunakan file SQLX dan opsional file JavaScript, atau dengan JavaScript.

Alur kerja dapat terdiri dari objek berikut:

Deklarasi sumber data
Deklarasi sumber data BigQuery yang memungkinkan Anda mereferensikan sumber data ini dalam definisi tabel Dataform dan operasi SQL.
Tables
Tabel yang Anda buat di Dataform berdasarkan sumber data yang dideklarasikan atau tabel lain dalam alur kerja Anda. Dataform mendukung jenis tabel berikut: tabel, tabel inkremental, tampilan, dan tampilan terwujud.
Pernyataan
Kueri pengujian kualitas data yang dapat Anda gunakan untuk memvalidasi data tabel. Dataform menjalankan pernyataan setiap kali memperbarui alur kerja Anda dan akan memberi tahu Anda jika ada pernyataan yang gagal.
Operasi SQL kustom
Pernyataan SQL yang dijalankan Dataform di BigQuery apa adanya, tanpa modifikasi.
Termasuk
File JavaScript
dengan definisi variabel dan fungsi yang dapat Anda gunakan kembali di seluruh alur kerja.

Visualisasi alur kerja

Anda dapat melihat visualisasi alur kerja dalam bentuk Directed Acyclic Graph (DAG). DAG menampilkan semua objek alur kerja yang ditentukan di ruang kerja Anda, dan hubungan di antara objek tersebut. Anda dapat memperbesar dan memperkecil serta menggunakan navigasi tarik lalu lepas di DAG. Jika ada error kompilasi dalam alur kerja Anda, Dataform akan menampilkan pesan error bukan DAG.

Untuk melihat DAG alur kerja Anda, di ruang kerja Anda, klik Grafik yang dikompilasi.

Eksekusi alur kerja

Di ruang kerja pengembangan, Anda dapat memicu eksekusi secara manual seluruh alur kerja, pilihan tindakan, atau pilihan tag.

Anda dapat menjadwalkan eksekusi dengan konfigurasi rilis dan konfigurasi alur kerja Dataform. Pertama, buat konfigurasi rilis untuk membuat hasil kompilasi repositori Anda. Kemudian, buat konfigurasi alur kerja, pilih konfigurasi rilis, pilih tindakan alur kerja yang ingin Anda jalankan, dan tetapkan jadwal jalankan.

Atau, Anda dapat menjadwalkan eksekusi dengan Cloud Composer, atau dengan Workflows dan Cloud Scheduler.

Selama eksekusi, Dataform menjalankan kueri SQL di BigQuery, dengan mengikuti urutan dependensi objek dalam alur kerja Anda. Setelah eksekusi, Anda dapat menggunakan tabel dan tampilan yang ditentukan untuk semua tujuan analisis di BigQuery.

Opsi konfigurasi eksekusi

Untuk menjalankan grup tindakan alur kerja tertentu, Anda dapat menambahkan Tag eksekusi Dataform ke file yang Anda pilih. Kemudian, Anda dapat menjalankan hanya file dengan tag yang dipilih saat Anda memicu eksekusi secara manual.

Secara default, Dataform menjalankan alur kerja Anda dengan setelan eksekusi yang ditentukan dalam file dataform.json. Anda dapat mengganti setelan eksekusi ini dengan penggantian kompilasi.

Dengan penggantian kompilasi ruang kerja, Anda dapat mengubah ruang kerja menjadi lingkungan eksekusi yang terisolasi. Artinya, saat Anda memicu eksekusi secara manual di ruang kerja, Dataform menjalankan output di lokasi terisolasi di BigQuery.

Untuk membuat dan menjalankan satu hasil kompilasi dengan penggantian kompilasi, Anda dapat meneruskan permintaan dengan Dataform API.

Dengan konfigurasi rilis, Anda dapat mengonfigurasi penggantian kompilasi untuk seluruh repositori, serta frekuensi pembuatan hasil kompilasi dengan setelan yang diterapkan.

Untuk mempelajari lebih lanjut cara mengonfigurasi kompilasi dan siklus proses kode di Dataform, lihat Pengantar siklus proses kode di Dataform.

Langkah berikutnya