Pengantar alur kerja SQL

Dokumen ini membantu Anda memahami arsitektur dan eksekusi alur kerja SQL di Dataform.

Anda dapat menggunakan Dataform untuk mengembangkan, menguji, dan mengontrol versi alur kerja SQL yang dapat dijalankan di BigQuery untuk mengubah data untuk tujuan analisis. Anda dapat mengembangkan alur kerja SQL dengan inti Dataform, menggunakan file SQLX dan file JavaScript secara opsional, atau dengan JavaScript.

Alur kerja SQL dapat terdiri dari objek berikut:

Deklarasi sumber data
Deklarasi sumber data BigQuery yang memungkinkan Anda mereferensikan sumber data ini dalam definisi tabel Dataform dan operasi SQL.
Tables
Tabel yang Anda buat di Dataform berdasarkan sumber data yang dideklarasikan atau tabel lain dalam alur kerja SQL. Dataform mendukung jenis tabel berikut: tabel, tabel inkremental, tampilan, dan tampilan terwujud.
Pernyataan
Kueri pengujian kualitas data yang dapat Anda gunakan untuk memvalidasi data tabel. Dataform menjalankan pernyataan setiap kali memperbarui alur kerja SQL Anda dan memberi tahu Anda jika ada pernyataan yang gagal.
Operasi SQL kustom
Pernyataan SQL yang dijalankan Dataform di BigQuery apa adanya, tanpa modifikasi.
Mencakup
File JavaScript dengan definisi variabel dan fungsi yang dapat Anda gunakan kembali di seluruh alur kerja SQL.

Visualisasi alur kerja SQL

Anda dapat melihat alur kerja SQL yang divisualisasi dalam bentuk Directed Acyclic Graph (DAG). DAG menampilkan semua objek alur kerja SQL yang ditentukan di ruang kerja Anda, dan hubungan di antara keduanya. Anda dapat memperbesar dan memperkecil, serta menggunakan tarik lalu lepas untuk menavigasi DAG. Jika ada error kompilasi dalam alur kerja SQL Anda, Dataform akan menampilkan pesan error, bukan DAG.

Untuk melihat DAG alur kerja SQL, di ruang kerja, klik Grafik yang dikompilasi.

Eksekusi alur kerja SQL

Di ruang kerja pengembangan, Anda dapat memicu eksekusi secara manual dari seluruh alur kerja SQL, pilihan tindakan, atau pilihan tag.

Anda dapat menjadwalkan eksekusi dengan konfigurasi rilis dan konfigurasi alur kerja Dataform. Pertama, buat konfigurasi rilis untuk membuat hasil kompilasi repositori Anda. Kemudian, buat konfigurasi alur kerja, pilih konfigurasi rilis, pilih tindakan alur kerja SQL yang ingin Anda jalankan, dan tetapkan jadwal eksekusi.

Atau, Anda dapat menjadwalkan eksekusi dengan Cloud Composer, atau dengan Workflows dan Cloud Scheduler.

Selama eksekusi, Dataform menjalankan kueri SQL di BigQuery, mengikuti urutan dependensi objek dalam alur kerja SQL Anda. Setelah eksekusi, Anda dapat menggunakan tabel dan tampilan yang ditentukan untuk semua tujuan analisis di BigQuery.

Opsi konfigurasi eksekusi

Untuk menjalankan grup objek alur kerja SQL tertentu, Anda dapat menambahkan tag eksekusi Dataform ke file yang dipilih. Kemudian, Anda dapat hanya mengeksekusi file dengan tag yang dipilih saat memicu eksekusi secara manual.

Secara default, Dataform menjalankan alur kerja SQL Anda dengan setelan eksekusi yang ditentukan dalam file dataform.json. Anda dapat mengganti setelan eksekusi ini dengan penggantian kompilasi.

Dengan penggantian kompilasi ruang kerja, Anda dapat mengubah ruang kerja menjadi lingkungan eksekusi terpisah. Artinya, saat Anda memicu eksekusi secara manual di workspace, Dataform akan mengeksekusi output di lokasi terisolasi di BigQuery.

Untuk membuat dan menjalankan satu hasil kompilasi dengan penggantian kompilasi, Anda dapat meneruskan permintaan dengan Dataform API.

Dengan konfigurasi rilis, Anda dapat mengonfigurasi penggantian kompilasi untuk seluruh repositori, serta frekuensi pembuatan hasil kompilasi dengan setelan yang diterapkan.

Untuk mempelajari lebih lanjut cara mengonfigurasi kompilasi dan siklus proses kode di Dataform, lihat Pengantar siklus proses kode di Dataform.

Langkah selanjutnya