Pengantar transformasi data
Dokumen ini menjelaskan berbagai cara Anda dapat mengubah data di tabel BigQuery.
Untuk mengetahui informasi selengkapnya tentang integrasi data, lihat Pengantar pemuatan, transformasi, dan pengeksporan data.
Metode transformasi data
Anda dapat mengubah data di BigQuery dengan cara berikut:
- Gunakan bahasa pengolahan data (DML) untuk mentransformasi data di tabel BigQuery.
- Gunakan tampilan terwujud untuk otomatis meng-cache hasil kueri guna meningkatkan performa dan efisiensi.
- Gunakan kueri berkelanjutan untuk menganalisis data yang masuk secara real time dan terus-menerus menyisipkan baris output ke dalam tabel BigQuery atau mengekspor ke Pub/Sub atau Bigtable.
- Gunakan pipeline BigQuery atau Dataform untuk mengembangkan, menguji, mengontrol versi, dan menjadwalkan pipeline di BigQuery.
- Gunakan persiapan data dengan rekomendasi transformasi yang dihasilkan AI dan memahami konteks untuk membersihkan data yang akan dianalisis. Persiapan data didukung oleh Dataform API.
Tabel berikut menunjukkan berbagai karakteristik setiap metode transformasi.
Metode transformasi | Target transformasi | Metode definisi | Frekuensi transformasi |
---|---|---|---|
Bahasa manipulasi data (DML) | Tabel (di tempat) | SQL DML | Dimulai oleh pengguna atau dijadwalkan |
Tabel virtual terwujud | Tabel virtual terwujud | Kueri SQL | Pembaruan otomatis atau manual |
Kueri berkelanjutan | Tabel, Topik Pub/Sub, Tabel Bigtable | Kueri SQL dengan EXPORT DATA | Berkelanjutan |
Dataform | Tabel | Inti Dataform (SQLX) | Dijadwalkan (pipeline) |
Pipeline BigQuery | Tabel | Pipeline BigQuery | Dijadwalkan (pipeline) |
Persiapan data | Tabel | Editor visual | Dijadwalkan |
Anda juga dapat meninjau histori perubahan tabel BigQuery untuk memeriksa transformasi yang dilakukan pada tabel dalam rentang waktu tertentu.
Mentransformasi data dengan DML
Anda dapat menggunakan bahasa pengolahan data (DML) untuk mengubah data dalam tabel BigQuery. Pernyataan DML adalah kueri GoogleSQL yang memanipulasi data tabel yang ada untuk menambahkan atau menghapus baris, mengubah data dalam baris yang ada, atau menggabungkan data dengan nilai dari tabel lain. Transformasi DML juga didukung dalam tabel berpartisi.
Anda dapat menjalankan beberapa pernyataan DML secara bersamaan, dengan BigQuery mengantrekan beberapa pernyataan DML yang mengubah data Anda satu per satu. BigQuery mengelola cara menjalankan pernyataan DML serentak, berdasarkan jenis transformasi.
Mengubah data dengan tampilan terwujud
Tampilan tampilan terwujud adalah tampilan yang telah dihitung sebelumnya yang secara berkala menyimpan hasil kueri SQL ke dalam cache untuk meningkatkan performa dan efisiensi. BigQuery memanfaatkan hasil prakomputasi dari tampilan terwujud dan jika memungkinkan, hanya membaca perubahan dari tabel dasar untuk menghitung hasil terbaru.
Tampilan terwujud diprakomputasi di latar belakang saat tabel dasar berubah. Setiap perubahan data inkremental dari tabel dasar akan otomatis ditambahkan ke tampilan terwujud, tanpa memerlukan tindakan pengguna.
Mentransformasi data dengan kueri berkelanjutan
Kueri berkelanjutan adalah pernyataan SQL yang berjalan secara berkelanjutan. Kueri berkelanjutan memungkinkan Anda menganalisis data yang masuk di BigQuery secara real time. Anda dapat menyisipkan baris output yang dihasilkan oleh kueri berkelanjutan ke dalam tabel BigQuery atau mengekspornya ke Pub/Sub atau Bigtable.
Mentransformasi data dengan Dataform
Dataform memungkinkan Anda mengelola transformasi data dalam proses ekstrak, muat, dan transformasi (ELT) untuk integrasi data. Setelah mengekstrak data mentah dari sistem sumber dan memuatnya ke BigQuery, Anda dapat menggunakan Dataform untuk mengubahnya menjadi rangkaian tabel yang terorganisir, diuji, dan didokumentasikan. Saat menggunakan DML, Anda mengambil pendekatan imperatif dengan memberi tahu BigQuery cara tepat untuk mentransformasi data Anda. Sementara itu, di Dataform, Anda menulis pernyataan deklaratif yang kemudian akan menentukan transformasi yang diperlukan untuk mencapai status tersebut.
Di Dataform, Anda dapat mengembangkan, menguji, dan mengontrol versi alur kerja SQL untuk transformasi data dari deklarasi sumber data hingga tabel, tampilan, atau tampilan yang di-materialize. Anda dapat mengembangkan alur kerja SQL dengan Dataform core atau JavaScript murni. Inti Dataform adalah bahasa meta open source yang memperluas SQL dengan SQLX dan JavaScript. Anda dapat menggunakan Dataform core untuk mengelola dependensi, menyiapkan pengujian kualitas data otomatis, dan mendokumentasikan deskripsi tabel atau kolom dalam kode.
Dataform menyimpan kode alur kerja SQL Anda di repositori dan menggunakan Git untuk melacak perubahan file. Ruang kerja pengembangan di Dataform memungkinkan Anda mengerjakan konten repositori tanpa memengaruhi pekerjaan orang lain yang sedang mengerjakan repositori yang sama. Anda dapat menghubungkan repositori Dataform ke penyedia Git pihak ketiga, termasuk Azure DevOps Services, Bitbucket, GitHub, dan GitLab.
Anda dapat menjalankan atau menjadwalkan alur kerja SQL dengan konfigurasi rilis Dataform dan konfigurasi alur kerja. Atau, Anda dapat menjadwalkan eksekusi dengan Cloud Composer, atau dengan Workflows dan Cloud Scheduler. Selama eksekusi, Dataform menjalankan kueri SQL di BigQuery sesuai urutan dependensi objek dalam alur kerja SQL Anda. Setelah eksekusi, Anda dapat menggunakan tabel dan tampilan yang ditentukan untuk analisis di BigQuery.
Untuk mempelajari lebih lanjut cara membuat alur kerja SQL transformasi data di Dataform, lihat Ringkasan Dataform dan Fitur Dataform.
Mengubah data dengan pipeline BigQuery
Pipeline BigQuery didukung oleh Dataform dan memungkinkan Anda membuat serta mengelola transformasi data dalam proses ekstrak, muat, transformasi (ELT) atau ekstrak, transformasi, muat (ETL).
Anda dapat membuat dan mengelola pipeline BigQuery secara visual di BigQuery Studio.
Untuk mempelajari lebih lanjut cara membuat pipeline BigQuery, lihat Membuat pipeline.
Menyiapkan data di BigQuery
Untuk mengurangi kesulitan persiapan data, BigQuery memungkinkan Anda membersihkan data dengan saran transformasi yang dihasilkan Gemini. Persiapan data di BigQuery menawarkan bantuan berikut:
- Menerapkan transformasi dan aturan kualitas data
- Menstandardisasi dan memperkaya data
- Mengotomatiskan pemetaan skema
Anda dapat memvalidasi hasil dalam pratinjau data sebelum menjalankan perubahan pada semua data Anda.
Untuk mengetahui informasi selengkapnya, lihat Pengantar penyiapan data BigQuery.
Langkah berikutnya
- Untuk mempelajari DML lebih lanjut, lihat Mentransformasi data dengan bahasa manipulasi data (DML).
- Untuk mempelajari Dataform lebih lanjut, lihat Ringkasan Dataform.