Pengantar alur kerja SQL

Dokumen ini membantu Anda memahami arsitektur dan eksekusi alur kerja SQL di Dataform.

Anda dapat menggunakan Dataform untuk mengembangkan, menguji, dan mengontrol versi alur kerja SQL yang dapat dijalankan di BigQuery guna mengubah data untuk tujuan analisis. Anda dapat mengembangkan alur kerja SQL dengan Dataform core, menggunakan file SQLX dan file JavaScript opsional, atau dengan JavaScript.

Alur kerja SQL dapat terdiri dari objek berikut:

Deklarasi sumber data
Deklarasi sumber data BigQuery yang memungkinkan Anda mereferensikan sumber data ini dalam definisi tabel Dataform dan operasi SQL.
Tables
Tabel yang Anda buat dalam Dataform berdasarkan sumber data yang dideklarasikan atau tabel lain dalam alur kerja SQL Anda. Dataform mendukung jenis tabel berikut: tabel, tabel inkremental, tampilan, dan tampilan terwujud.
Pernyataan
Kueri uji kualitas data yang dapat Anda gunakan untuk memvalidasi data tabel. Dataform menjalankan pernyataan setiap kali memperbarui alur kerja SQL Anda dan memberi tahu Anda jika ada pernyataan yang gagal.
Operasi SQL kustom
Pernyataan SQL yang Dataform berjalan di BigQuery sebagaimana adanya, tanpa modifikasi.
Mencakup
File JavaScript dengan definisi variabel dan fungsi yang dapat Anda gunakan kembali di seluruh alur kerja SQL.

Visualisasi alur kerja SQL

Anda dapat melihat alur kerja SQL yang divisualisasikan dalam bentuk Directed Acyclic Graph (DAG). DAG menampilkan semua objek dari alur kerja SQL yang ditentukan di ruang kerja Anda, dan hubungan antar-objek. Anda dapat memperbesar dan memperkecil, serta menggunakan tarik lalu lepas untuk membuka DAG. Jika ada error kompilasi dalam alur kerja SQL Anda, Dataform akan menampilkan pesan error, bukan DAG.

Untuk melihat DAG alur kerja SQL Anda, di ruang kerja Anda, klik Compiled graph.

Eksekusi alur kerja SQL

Di ruang kerja pengembangan, Anda dapat memicu eksekusi secara manual di seluruh alur kerja SQL, pilihan tindakan, atau pilihan tag.

Anda dapat menjadwalkan eksekusi dengan konfigurasi rilis Dataform dan konfigurasi alur kerja. Pertama, buat konfigurasi rilis untuk membuat hasil kompilasi repositori Anda. Kemudian, buat konfigurasi alur kerja, pilih konfigurasi rilis, pilih tindakan alur kerja SQL yang ingin dijalankan, lalu tetapkan jadwal eksekusi.

Atau, Anda dapat menjadwalkan eksekusi dengan Cloud Composer, atau dengan Workflows dan Cloud Scheduler.

Selama eksekusi, Dataform mengeksekusi kueri SQL di BigQuery, dengan mengikuti urutan dependensi objek dalam alur kerja SQL Anda. Setelah eksekusi, Anda dapat menggunakan tabel dan tampilan yang ditentukan untuk semua tujuan analisis di BigQuery.

Opsi konfigurasi eksekusi

Untuk menjalankan grup tertentu objek alur kerja SQL, Anda dapat menambahkan Tag eksekusi Dataform ke file yang dipilih. Kemudian, Anda dapat menjalankan hanya file dengan tag yang dipilih saat memicu eksekusi secara manual.

Secara default, Dataform menjalankan alur kerja SQL Anda dengan setelan eksekusi yang ditentukan dalam file dataform.json. Anda dapat mengganti setelan eksekusi ini dengan penggantian kompilasi.

Dengan penggantian kompilasi ruang kerja, Anda dapat mengubah ruang kerja menjadi lingkungan eksekusi yang terisolasi. Artinya, saat Anda memicu eksekusi secara manual di ruang kerja, Dataform akan mengeksekusi output di lokasi yang terisolasi di BigQuery.

Untuk membuat dan menjalankan satu hasil kompilasi dengan penggantian kompilasi, Anda dapat meneruskan permintaan dengan Dataform API.

Dengan konfigurasi rilis, Anda dapat mengonfigurasi penggantian kompilasi untuk seluruh repositori, serta frekuensi pembuatan hasil kompilasi dengan setelan yang diterapkan.

Untuk mempelajari lebih lanjut cara mengonfigurasi kompilasi dan siklus proses kode di Dataform, lihat Pengantar siklus proses kode di Dataform.

Langkah selanjutnya