Pengantar transformasi data

Dokumen ini menjelaskan berbagai cara untuk mengubah data di tabel BigQuery.

Untuk informasi selengkapnya tentang integrasi data, lihat Pengantar pemuatan, transformasi, dan ekspor data.

Metode untuk mengubah data

Anda dapat mengubah data di BigQuery dengan cara berikut:

  • Gunakan bahasa pengolahan data (DML) untuk mengubah data di tabel BigQuery.
  • Gunakan tampilan terwujud untuk meng-cache hasil kueri secara otomatis untuk meningkatkan performa dan efisiensi.
  • Gunakan kueri berkelanjutan untuk menganalisis data yang masuk secara real time dan terus menyisipkan baris output ke dalam tabel BigQuery atau mengekspor ke Pub/Sub atau Bigtable.
  • Gunakan Dataform untuk mengembangkan, menguji, mengontrol versi, dan menjadwalkan alur kerja SQL di BigQuery.
  • Gunakan persiapan data dengan rekomendasi transformasi berbasis konteks yang dihasilkan AI untuk membersihkan data yang akan dianalisis.

Tabel berikut menunjukkan karakteristik yang berbeda dari setiap metode transformasi.

Metode transformasi Target transformasi Metode definisi Frekuensi transformasi
Bahasa manipulasi data (DML) Tabel (di tempat) DML SQL Dimulai atau dijadwalkan oleh pengguna
Tabel virtual terwujud Tampilan terwujud Kueri SQL Pembaruan otomatis atau manual
Kueri berkelanjutan Tabel, topik Pub/Sub, tabel Bigtable Kueri SQL dengan EXPORT DATA Berkelanjutan
Dataform Tabel Dataform core (SQLX) Terjadwal (alur kerja)
Persiapan data Tabel Editor visual Dijadwalkan

Anda juga dapat meninjau histori perubahan tabel BigQuery untuk memeriksa transformasi yang dilakukan pada tabel dalam rentang waktu yang ditentukan.

Mentransformasi data dengan DML

Anda dapat menggunakan bahasa pengolahan data (DML) untuk mengubah data dalam tabel BigQuery. Pernyataan DML adalah kueri GoogleSQL yang memanipulasi data tabel yang ada untuk menambahkan atau menghapus baris, mengubah data di baris yang ada, atau menggabungkan data dengan nilai dari tabel lain. Transformasi DML juga didukung di tabel berpartisi.

Anda dapat menjalankan beberapa pernyataan DML secara serentak, dengan BigQuery mengantrekan beberapa pernyataan DML yang mengubah data Anda satu per satu. BigQuery mengelola cara pernyataan DML serentak dijalankan, berdasarkan jenis transformasi.

Mengubah data dengan tampilan terwujud

Tampilan Tampilan terwujud adalah tampilan yang telah dihitung sebelumnya yang secara berkala menyimpan hasil kueri SQL ke dalam cache untuk meningkatkan performa dan efisiensi. BigQuery memanfaatkan hasil prakomputasi dari tampilan terwujud dan jika memungkinkan, hanya membaca perubahan dari tabel dasar untuk menghitung hasil terbaru.

Tampilan terwujud diprakomputasi di latar belakang saat tabel dasar berubah. Setiap perubahan data inkremental dari tabel dasar akan otomatis ditambahkan ke tampilan terwujud, tanpa memerlukan tindakan pengguna.

Mengubah data dengan kueri berkelanjutan

Kueri berkelanjutan adalah pernyataan SQL yang berjalan secara berkelanjutan. Kueri berkelanjutan memungkinkan Anda menganalisis data yang masuk di BigQuery secara real time. Anda dapat menyisipkan baris output yang dihasilkan oleh kueri berkelanjutan ke dalam tabel BigQuery atau mengekspornya ke Pub/Sub atau Bigtable.

Mentransformasi data dengan Dataform

Dataform memungkinkan Anda mengelola transformasi data dalam proses ekstrak, muat, dan transformasi (ELT) untuk integrasi data. Setelah mengekstrak data mentah dari sistem sumber dan memuat ke BigQuery, Anda dapat menggunakan Dataform untuk mengubahnya menjadi rangkaian tabel yang terorganisir, diuji, dan didokumentasikan. Meskipun dalam DML Anda menggunakan pendekatan imperatif dengan memberi tahu BigQuery cara tepat untuk mengubah data, di Dataform Anda menulis pernyataan deklaratif yang kemudian akan menentukan transformasi yang diperlukan untuk mencapai status tersebut.

Di Dataform, Anda dapat mengembangkan, menguji, dan mengontrol versi alur kerja SQL untuk transformasi data dari deklarasi sumber data ke tabel, tampilan, atau tampilan yang diwujudkan output. Anda dapat mengembangkan alur kerja SQL dengan inti Dataform atau JavaScript murni. Dataform core adalah meta-bahasa open source yang memperluas SQL dengan SQLX dan JavaScript. Anda dapat menggunakan Dataform core untuk mengelola dependensi, menyiapkan pengujian kualitas data otomatis, dan mendokumentasikan deskripsi tabel atau kolom dalam kode.

Dataform menyimpan kode alur kerja SQL Anda di repositories dan menggunakan Git untuk melacak perubahan file. Ruang kerja pengembangan di Dataform memungkinkan Anda mengerjakan konten repositori tanpa memengaruhi pekerjaan orang lain yang bekerja di repositori yang sama. Anda dapat menghubungkan repositori Dataform ke penyedia Git pihak ketiga, termasuk Azure DevOps Services, Bitbucket, GitHub, dan GitLab.

Anda dapat menjalankan atau menjadwalkan alur kerja SQL dengan konfigurasi rilis dan konfigurasi alur kerja Dataform. Atau, Anda dapat menjadwalkan eksekusi dengan Cloud Composer, atau dengan Workflows dan Cloud Scheduler. Selama eksekusi, Dataform menjalankan kueri SQL di BigQuery dalam urutan dependensi objek dalam alur kerja SQL Anda. Setelah eksekusi, Anda dapat menggunakan tabel dan tampilan yang ditentukan untuk analisis di BigQuery.

Untuk mempelajari lebih lanjut cara membuat alur kerja SQL transformasi data di Dataform, lihat Ringkasan Dataform dan Ringkasan fitur Dataform.

Menyiapkan data di BigQuery

Untuk mengurangi beban persiapan data, BigQuery memungkinkan Anda membersihkan data dengan saran transformasi yang dihasilkan Gemini. Persiapan data di BigQuery menawarkan bantuan berikut:

  • Menerapkan transformasi dan aturan kualitas data
  • Menstandarkan dan memperkaya data
  • Mengotomatiskan pemetaan skema

Anda dapat memvalidasi hasilnya dalam pratinjau data sebelum menjalankan perubahan pada semua data.

Untuk mengetahui informasi selengkapnya, lihat Pengantar persiapan data BigQuery.

Langkah selanjutnya