Dokumen ini memperkenalkan Anda pada konsep dan proses Dataform.
Dataform adalah layanan bagi analis data untuk mengembangkan, menguji, mengontrol versi, dan menjadwalkan alur kerja SQL yang kompleks untuk transformasi data di BigQuery.
Formulir data memungkinkan Anda mengelola transformasi data dalam proses Ekstraksi, Pemuatan, dan Transformasi (ELT) untuk integrasi data. Setelah data mentah diekstrak dari sistem sumber dan dimuat ke BigQuery, Dataform akan membantu Anda mengubahnya menjadi rangkaian tabel data yang terdefinisi dengan baik, diuji, dan didokumentasikan.
Dataform memungkinkan Anda melakukan tindakan transformasi data berikut:
- Kembangkan dan jalankan alur kerja SQL untuk transformasi data.
- Berkolaborasi dengan anggota tim dalam pengembangan alur kerja SQL melalui Git.
- Mengelola tabel dalam jumlah besar dan dependensinya.
- Mendeklarasikan data sumber dan mengelola dependensi tabel.
- Lihat visualisasi hierarki dependensi alur kerja SQL Anda.
- Mengelola data dengan kode SQL di repositori pusat.
- Gunakan kembali kode dengan JavaScript.
- Uji kebenaran data dengan uji kualitas pada tabel sumber dan output.
- Kode SQL kontrol versi.
- Tabel data dokumen di dalam kode SQL.
Proses transformasi data di Dataform
Alur kerja transformasi data untuk Dataform adalah sebagai berikut:
- Formulir data memungkinkan Anda membuat repositori untuk mengelola kode.
- Dataform memungkinkan Anda membuat ruang kerja untuk pengembangan.
- Dataform memungkinkan Anda mengembangkan alur kerja SQL di ruang kerja pengembangan.
- Dataform mengompilasi Inti Dataform ke dalam SQL.
- Bentuk data mengeksekusi hierarki dependensi.
Dataform memungkinkan Anda membuat repositori untuk mengelola kode Anda
Dalam repositori Dataform, Anda menggunakan Dataform core, yang merupakan ekstensi dari SQL, untuk menulis file SQLX yang Anda gunakan untuk menentukan alur kerja. Repositori formulir data mendukung kontrol versi. Anda dapat menautkan repositori Dataform ke penyedia Git pihak ketiga.
Dataform memungkinkan Anda membuat ruang kerja untuk pengembangan
Anda dapat membuat ruang kerja pengembangan di dalam repositori Dataform untuk pengembangan inti Dataform. Di ruang kerja pengembangan, Anda dapat membuat perubahan pada repositori, mengompilasi, menguji, dan mengirimkannya ke repositori utama melalui Git.
Dataform memungkinkan Anda mengembangkan inti Dataform di ruang kerja pengembangan
Di ruang kerja pengembangan, Anda dapat menentukan dan mendokumentasikan tabel, dependensinya, dan logika transformasi untuk membangun alur kerja SQL Anda. Anda juga dapat mengonfigurasi tindakan di JavaScript.
Dataform mengompilasi Dataform core
Selama kompilasi, Dataform melakukan tugas-tugas berikut:
- Mengompilasi core Dataform ke dalam alur kerja SQL dari SQL Standar.
- Menambahkan pernyataan SQL boilerplate, seperti
CREATE TABLE
atauINSERT
, ke kode yang sesuai dengan konfigurasi kueri Anda. - Transpiles (mengompilasi JavaScript sumber ke sumber) ke dalam SQL.
- Menyelesaikan dependensi dan memeriksa error, termasuk dependensi sirkular atau yang hilang.
- Membangun hierarki dependensi dari semua tindakan yang akan dijalankan di BigQuery.
Kompilasi bentuk data bersifat hermetis untuk memastikan konsistensi kompilasi, artinya kode yang sama dikompilasi ke hasil kompilasi SQL yang sama setiap saat. Dataform mengompilasi kode Anda di lingkungan sandbox tanpa akses internet. Tidak ada tindakan tambahan, seperti memanggil API eksternal, yang tersedia selama kompilasi.
Untuk men-debug secara real time, Anda dapat memeriksa alur kerja SQL terkompilasi dari project Anda dalam grafik interaktif di ruang kerja pengembangan Anda.
Bentuk data menjalankan hierarki dependensi
Di BigQuery, Dataform melakukan tugas-tugas berikut:
- Menjalankan perintah SQL, dengan mengikuti urutan hierarki dependensi.
- Menjalankan kueri pernyataan terhadap tabel dan tampilan Anda untuk memeriksa ketepatan data.
- Menjalankan operasi SQL lain yang Anda tentukan.
Setelah eksekusi, Anda dapat menggunakan tabel dan tampilan untuk semua tujuan analisis.
Anda dapat melihat log untuk melihat tabel yang dibuat, apakah pernyataan lulus atau gagal, durasi penyelesaian setiap tindakan, dan informasi lainnya. Anda juga dapat melihat kode SQL persis yang dijalankan di BigQuery.
Framework pemodelan bentuk data
Dataform menyediakan framework pemodelan data open source, yang terdiri dari Dataform core dan Dataform CLI, yang dapat Anda gunakan di luar Google Cloud.
Langkah selanjutnya
- Untuk mempelajari fitur Dataform lebih lanjut, lihat Ringkasan fitur Dataform.
- Untuk mempelajari Dataform core lebih lanjut, lihat Ringkasan inti Dataform.
- Untuk mempelajari lebih lanjut tentang Dataform CLI, lihat Menggunakan Dataform CLI.