Pengantar persiapan data BigQuery

Dokumen ini menjelaskan persiapan data yang dilengkapi AI di BigQuery. Persiapan data adalah resource BigQuery Studio, yang menggunakan Gemini di BigQuery untuk menganalisis data Anda dan memberikan saran cerdas untuk membersihkan, mengubah, dan memperkayanya. Anda dapat secara signifikan mengurangi waktu dan upaya yang diperlukan untuk tugas persiapan data manual. Orkestrasi persiapan data didukung oleh Dataform.

Manfaat

  • Anda dapat mengurangi waktu yang dihabiskan untuk pengembangan pipeline data dengan saran transformasi yang dibuat Gemini dan berbasis konteks.
  • Anda dapat memvalidasi hasil yang dihasilkan dalam pratinjau dan menerima saran pembersihan dan pengayaan kualitas data dengan pemetaan skema otomatis.
  • Dataform memungkinkan Anda menggunakan proses continuous integration, continuous development (CI/CD), yang mendukung kolaborasi lintas tim untuk peninjauan kode dan kontrol sumber.

Peran yang diperlukan

Pengguna yang menyiapkan data dan akun layanan Dataform yang menjalankan tugas memerlukan peran Identity and Access Management (IAM). Untuk mengetahui informasi selengkapnya, lihat Peran yang diperlukan dan Menyiapkan Gemini untuk BigQuery.

Titik entri persiapan data

Anda dapat membuat dan mengelola persiapan data di halaman BigQuery Studio (lihat Membuka editor persiapan data di BigQuery).

Saat Anda membuka tabel di persiapan data BigQuery, tugas BigQuery akan berjalan menggunakan kredensial Anda. Proses ini akan membuat baris contoh dari tabel yang dipilih dan menulis hasilnya ke tabel sementara dalam project yang sama. Gemini menggunakan data sampel dan skema untuk membuat saran persiapan data yang ditampilkan di editor persiapan data.

Tampilan di editor persiapan data

Persiapan data muncul sebagai tab di halaman BigQuery Studio. Setiap tab memiliki serangkaian sub-tab, atau tampilan penyiapan data, tempat Anda mendesain dan mengelola penyiapan data.

Tampilan data

Saat Anda membuat persiapan data baru, tab editor persiapan data akan terbuka, yang menampilkan tampilan data, yang berisi sampel perwakilan tabel. Untuk persiapan data yang ada, Anda dapat membuka tampilan data dengan mengklik node dalam tampilan grafik pipeline persiapan data.

Tampilan data memungkinkan Anda melakukan hal berikut:

  • Berinteraksi dengan data Anda untuk membentuk langkah-langkah persiapan data.
  • Terapkan saran dari Gemini.
  • Tingkatkan kualitas saran Gemini dengan memasukkan contoh nilai di sel.

Di setiap kolom dalam tabel, profil statistik (histogram) menampilkan jumlah untuk setiap nilai teratas kolom di baris pratinjau.

Tampilan grafik

Tampilan grafik adalah ringkasan visual persiapan data Anda. Tab ini muncul sebagai tab di halaman BigQuery Studio di konsol, saat Anda membuka persiapan data. Grafik menampilkan node untuk semua langkah dalam pipeline persiapan data Anda. Anda dapat memilih node pada grafik untuk mengonfigurasi langkah-langkah persiapan data yang diwakilinya.

Tampilan skema

Tampilan skema persiapan data menampilkan skema saat ini dari langkah persiapan data aktif. Skema yang ditampilkan cocok dengan kolom dalam tampilan data.

Dalam tampilan skema, Anda dapat melakukan operasi skema khusus, seperti menghapus kolom, yang juga membuat langkah-langkah dalam daftar Langkah yang diterapkan.

Saran oleh Gemini

Gemini memberikan saran yang sesuai konteks untuk membantu menyelesaikan tugas persiapan data berikut:

  • Menerapkan transformasi dan aturan kualitas data
  • Menstandarkan dan memperkaya data
  • Mengotomatiskan pemetaan skema

Setiap saran muncul di kartu dalam daftar saran editor persiapan data. Kartu berisi informasi berikut:

  • Kategori tingkat tinggi langkah, seperti Simpan baris atau Transformasi
  • Deskripsi langkah, seperti Simpan baris jika COLUMN_NAME bukan NULL
  • Ekspresi SQL yang sesuai yang digunakan untuk menjalankan langkah

Anda dapat melihat pratinjau atau menerapkan kartu saran, atau menyesuaikan saran. Anda juga dapat menambahkan langkah secara manual. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan data dengan Gemini.

Untuk menyesuaikan saran dari Gemini, berikan contoh tentang apa yang harus diubah di kolom.

Sampling data

BigQuery menggunakan sampling data untuk memberi Anda pratinjau persiapan data. Anda dapat melihat sampel di tampilan data untuk setiap node. Data dalam contoh tidak otomatis diperbarui. Untuk mengetahui informasi selengkapnya, lihat Contoh pembaruan persiapan data.

Mode tulis

Untuk mengoptimalkan biaya dan waktu pemrosesan, Anda dapat mengubah setelan mode tulis untuk memproses data baru dari sumber secara bertahap. Misalnya, jika Anda memiliki tabel di BigQuery tempat data dimasukkan setiap hari, dan dasbor Looker yang harus mencerminkan data yang diubah, Anda dapat menjadwalkan persiapan data BigQuery untuk membaca data baru secara bertahap dari tabel sumber dan menyebarkannya ke tabel tujuan.

Untuk mengonfigurasi cara data yang Anda siapkan ditulis ke tabel tujuan, lihat Mengoptimalkan penyiapan data dengan memproses data secara bertahap.

Mode tulis berikut didukung:

Opsi mode tulis Deskripsi
Muat ulang penuh Menyisipkan data yang disiapkan untuk mengganti semua data di tabel tujuan. Tabel dibuat ulang, bukan dipotong. Refresh penuh adalah mode default saat menulis ke tabel tujuan.
Tambahkan Menyisipkan data yang disiapkan ke baris baru di tabel tujuan.
Inkremental Hanya menyisipkan data baru atau, bergantung pada pilihan kolom inkremental Anda, data yang diubah di tabel tujuan.

Langkah-langkah persiapan data yang didukung

BigQuery mendukung jenis langkah-langkah persiapan data berikut:

Jenis langkah Deskripsi
Sumber Menambahkan sumber saat Anda memilih tabel BigQuery untuk dibaca atau saat Anda menambahkan langkah join.
Transformasi Membersihkan dan mentransformasi data menggunakan ekspresi SQL. Anda menerima kartu saran untuk ekspresi berikut:
  • Fungsi typecasting, seperti CAST
  • Fungsi string, seperti SUBSTR, CONCAT, REPLACE, UPPER, LOWER, dan TRIM
  • Fungsi tanggal dan waktu, seperti PARSE_DATE, TIMESTAMP, EXTRACT, dan DATE_ADD
  • Fungsi JSON, seperti JSON_EXTRACT

Anda juga dapat menggunakan ekspresi SQL BigQuery yang valid dalam langkah transformasi manual. Contoh:
  • Matematika dengan angka, seperti mengonversi watt-hour menjadi kilowatt-hour
  • Fungsi array, seperti ARRAY_AGG, ARRAY_CONCAT, dan UNNEST
  • Fungsi jendela, seperti ROW_NUMBER, LAG, LEAD, RANK, dan NTILE


Untuk informasi selengkapnya, lihat Menambahkan transformasi.
Filter Menghapus baris melalui sintaksis klausa WHERE. Saat menambahkan langkah filter, Anda dapat memilih untuk menjadikannya sebagai langkah validasi.

Untuk informasi selengkapnya, lihat Memfilter baris.
Validasi Mengirim baris yang memenuhi kriteria aturan validasi ke tabel error. Jika data gagal dalam aturan validasi dan tidak ada tabel error yang dikonfigurasi, persiapan data akan gagal selama eksekusi.

Untuk informasi selengkapnya, lihat Mengonfigurasi tabel error dan menambahkan aturan validasi.
Gabung Menggabungkan nilai dari dua sumber. Tabel harus berada di lokasi yang sama. Kolom kunci join harus memiliki jenis data yang sama. Persiapan data mendukung operasi join berikut:
  • Inner join
  • Left join
  • Right join
  • Full outer join
  • Gabungan Lintas (jika tidak ada kolom kunci gabungan yang dipilih, gabungan lintas akan digunakan)


Untuk informasi selengkapnya, lihat Menambahkan operasi join.
Tujuan Menentukan tujuan untuk menghasilkan langkah-langkah persiapan data. Jika Anda memasukkan tabel tujuan yang tidak ada, persiapan data akan membuat tabel baru menggunakan informasi skema saat ini.

Untuk mengetahui informasi selengkapnya, lihat Menambahkan atau mengubah tabel tujuan.
Menghapus kolom Menghapus kolom dari skema. Lakukan langkah ini dari tampilan skema.

Untuk informasi selengkapnya, lihat Menghapus kolom.

Menjadwalkan operasi persiapan data

Untuk menjalankan langkah-langkah persiapan data dan memuat data yang disiapkan ke dalam tabel tujuan, jadwalkan pengoperasian persiapan data satu kali atau berulang. Anda dapat menjadwalkan persiapan data dari editor persiapan data, dan mengelolanya dari halaman Orchestration BigQuery. Untuk informasi selengkapnya, lihat Menjadwalkan persiapan data.

API

Persiapan data BigQuery tidak memiliki API-nya sendiri. Untuk mempelajari lebih lanjut cara menggunakan penyiapan data BigQuery dengan Dataform, hubungi bq-datapreparation-feedback@google.com.

Batasan

Persiapan data tersedia dengan batasan berikut:

  • Semua set data sumber dan tujuan persiapan data BigQuery dari persiapan data tertentu harus berada di lokasi yang sama. Untuk mengetahui informasi selengkapnya, lihat Lokasi yang didukung.
  • Selama pengeditan pipeline, data dan interaksi dikirim ke pusat data Amerika Serikat untuk diproses. Untuk mengetahui informasi selengkapnya, lihat Lokasi yang didukung.
  • Persiapan data tidak mendukung pembuatan kueri SQL dalam bahasa alami.
  • Persiapan data BigQuery tidak mendukung tampilan, perbandingan, atau pemulihan versi persiapan data.
  • Respons dari Gemini didasarkan pada sampel set data yang Anda berikan saat mendesain pipeline persiapan data. Untuk mengetahui informasi selengkapnya, lihat cara Gemini untuk Google Cloud menggunakan data Anda dan persyaratan dalam Program Penguji Tepercaya Gemini untuk Google Cloud.

Lokasi

Persiapan data mendukung pemrosesan data di semua lokasi BigQuery. Set data sumber dan tujuan dari persiapan data tertentu harus berada di lokasi yang sama.

Harga

Menjalankan persiapan data dan membuat sampel pratinjau data menggunakan resource BigQuery, yang ditagih dengan tarif yang ditampilkan di harga BigQuery.

Persiapan data disertakan dalam harga Gemini di BigQuery. Anda dapat menggunakan penyiapan data BigQuery selama Pratinjau tanpa biaya tambahan. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan Gemini di BigQuery.

Kuota

Untuk informasi selengkapnya, lihat kuota Gemini di Google Cloud.

Langkah selanjutnya