Pengantar persiapan data BigQuery
Dokumen ini menjelaskan persiapan data yang dilengkapi AI di BigQuery. Persiapan data adalah resource BigQuery Studio, yang menggunakan Gemini di BigQuery untuk menganalisis data Anda dan memberikan saran cerdas untuk membersihkan, mengubah, dan memperkayanya. Anda dapat secara signifikan mengurangi waktu dan upaya yang diperlukan untuk tugas persiapan data manual. Orkestrasi persiapan data didukung oleh Dataform.
Manfaat
- Anda dapat mengurangi waktu yang dihabiskan untuk pengembangan pipeline data dengan saran transformasi yang dibuat Gemini dan berbasis konteks.
- Anda dapat memvalidasi hasil yang dihasilkan dalam pratinjau dan menerima saran pembersihan dan pengayaan kualitas data dengan pemetaan skema otomatis.
- Dataform memungkinkan Anda menggunakan proses continuous integration, continuous development (CI/CD), yang mendukung kolaborasi lintas tim untuk peninjauan kode dan kontrol sumber.
Peran yang diperlukan
Pengguna yang menyiapkan data dan akun layanan Dataform yang menjalankan tugas memerlukan peran Identity and Access Management (IAM). Untuk mengetahui informasi selengkapnya, lihat Peran yang diperlukan dan Menyiapkan Gemini untuk BigQuery.
Titik entri persiapan data
Anda dapat membuat dan mengelola persiapan data di halaman BigQuery Studio (lihat Membuka editor persiapan data di BigQuery).
Saat Anda membuka tabel di persiapan data BigQuery, tugas BigQuery akan berjalan menggunakan kredensial Anda. Proses ini akan membuat baris contoh dari tabel yang dipilih dan menulis hasilnya ke tabel sementara dalam project yang sama. Gemini menggunakan data sampel dan skema untuk membuat saran persiapan data yang ditampilkan di editor persiapan data.
Tampilan di editor persiapan data
Persiapan data muncul sebagai tab di halaman BigQuery Studio. Setiap tab memiliki serangkaian sub-tab, atau tampilan penyiapan data, tempat Anda mendesain dan mengelola penyiapan data.
Tampilan data
Saat Anda membuat persiapan data baru, tab editor persiapan data akan terbuka, yang menampilkan tampilan data, yang berisi sampel perwakilan tabel. Untuk persiapan data yang ada, Anda dapat membuka tampilan data dengan mengklik node dalam tampilan grafik pipeline persiapan data.
Tampilan data memungkinkan Anda melakukan hal berikut:
- Berinteraksi dengan data Anda untuk membentuk langkah-langkah persiapan data.
- Terapkan saran dari Gemini.
- Tingkatkan kualitas saran Gemini dengan memasukkan contoh nilai di sel.
Di setiap kolom dalam tabel, profil statistik (histogram) menampilkan jumlah untuk setiap nilai teratas kolom di baris pratinjau.
Tampilan grafik
Tampilan grafik adalah ringkasan visual persiapan data Anda. Tab ini muncul sebagai tab di halaman BigQuery Studio di konsol, saat Anda membuka persiapan data. Grafik menampilkan node untuk semua langkah dalam pipeline persiapan data Anda. Anda dapat memilih node pada grafik untuk mengonfigurasi langkah-langkah persiapan data yang diwakilinya.
Tampilan skema
Tampilan skema persiapan data menampilkan skema saat ini dari langkah persiapan data aktif. Skema yang ditampilkan cocok dengan kolom dalam tampilan data.
Dalam tampilan skema, Anda dapat melakukan operasi skema khusus, seperti menghapus kolom, yang juga membuat langkah-langkah dalam daftar Langkah yang diterapkan.
Saran oleh Gemini
Gemini memberikan saran yang sesuai konteks untuk membantu menyelesaikan tugas persiapan data berikut:
- Menerapkan transformasi dan aturan kualitas data
- Menstandarkan dan memperkaya data
- Mengotomatiskan pemetaan skema
Setiap saran muncul di kartu dalam daftar saran editor persiapan data. Kartu berisi informasi berikut:
- Kategori tingkat tinggi langkah, seperti Simpan baris atau Transformasi
- Deskripsi langkah, seperti Simpan baris jika
COLUMN_NAME
bukanNULL
- Ekspresi SQL yang sesuai yang digunakan untuk menjalankan langkah
Anda dapat melihat pratinjau atau menerapkan kartu saran, atau menyesuaikan saran. Anda juga dapat menambahkan langkah secara manual. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan data dengan Gemini.
Untuk menyesuaikan saran dari Gemini, berikan contoh tentang apa yang harus diubah di kolom.
Sampling data
BigQuery menggunakan sampling data untuk memberi Anda pratinjau persiapan data. Anda dapat melihat sampel di tampilan data untuk setiap node. Data dalam contoh tidak otomatis diperbarui. Untuk mengetahui informasi selengkapnya, lihat Contoh pembaruan persiapan data.
Mode tulis
Untuk mengoptimalkan biaya dan waktu pemrosesan, Anda dapat mengubah setelan mode tulis untuk memproses data baru dari sumber secara bertahap. Misalnya, jika Anda memiliki tabel di BigQuery tempat data dimasukkan setiap hari, dan dasbor Looker yang harus mencerminkan data yang diubah, Anda dapat menjadwalkan persiapan data BigQuery untuk membaca data baru secara bertahap dari tabel sumber dan menyebarkannya ke tabel tujuan.
Untuk mengonfigurasi cara data yang Anda siapkan ditulis ke tabel tujuan, lihat Mengoptimalkan penyiapan data dengan memproses data secara bertahap.
Mode tulis berikut didukung:
Opsi mode tulis | Deskripsi |
---|---|
Muat ulang penuh | Menyisipkan data yang disiapkan untuk mengganti semua data di tabel tujuan. Tabel dibuat ulang, bukan dipotong. Refresh penuh adalah mode default saat menulis ke tabel tujuan. |
Tambahkan | Menyisipkan data yang disiapkan ke baris baru di tabel tujuan. |
Inkremental | Hanya menyisipkan data baru atau, bergantung pada pilihan kolom inkremental Anda, data yang diubah di tabel tujuan. |
Langkah-langkah persiapan data yang didukung
BigQuery mendukung jenis langkah persiapan data berikut:
Jenis langkah | Deskripsi |
---|---|
Sumber | Menambahkan sumber saat Anda memilih tabel BigQuery untuk dibaca atau saat Anda menambahkan langkah join. |
Transformasi | Membersihkan dan mentransformasi data menggunakan ekspresi SQL. Anda menerima
kartu saran untuk ekspresi berikut:
Anda juga dapat menggunakan ekspresi SQL BigQuery yang valid dalam langkah transformasi manual. Contoh:
Untuk informasi selengkapnya, lihat Menambahkan transformasi. |
Filter | Menghapus baris melalui sintaksis klausa WHERE . Saat menambahkan langkah filter, Anda dapat memilih untuk menjadikannya sebagai langkah validasi.
Untuk informasi selengkapnya, lihat Memfilter baris. |
Validasi | Mengirim baris yang memenuhi kriteria aturan validasi ke tabel error.
Jika data gagal dalam aturan validasi dan tidak ada tabel error yang dikonfigurasi, persiapan data akan gagal selama eksekusi.
Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi tabel error dan menambahkan aturan validasi. |
Gabung | Menggabungkan nilai dari dua sumber. Tabel harus berada di lokasi yang sama.
Kolom kunci join harus memiliki jenis data yang sama. Persiapan data
mendukung operasi join berikut:
Untuk informasi selengkapnya, lihat Menambahkan operasi join. |
Tujuan | Menentukan tujuan untuk menghasilkan langkah-langkah persiapan data. Jika Anda memasukkan tabel tujuan yang tidak ada, persiapan data akan membuat tabel baru menggunakan informasi skema saat ini. Untuk mengetahui informasi selengkapnya, lihat Menambahkan atau mengubah tabel tujuan. |
Menghapus kolom | Menghapus kolom dari skema. Anda melakukan
langkah ini dari tampilan skema.
Untuk informasi selengkapnya, lihat Menghapus kolom. |
Menjadwalkan operasi persiapan data
Untuk menjalankan langkah-langkah persiapan data dan memuat data yang disiapkan ke dalam tabel tujuan, jadwalkan pengoperasian persiapan data satu kali atau berulang. Anda dapat menjadwalkan persiapan data dari editor persiapan data, dan mengelolanya dari halaman Orchestration BigQuery. Untuk informasi selengkapnya, lihat Menjadwalkan persiapan data.
API
Persiapan data BigQuery tidak memiliki API-nya sendiri. Untuk mempelajari lebih lanjut cara menggunakan penyiapan data BigQuery dengan Dataform, hubungi bq-datapreparation-feedback@google.com.
Batasan
Persiapan data tersedia dengan batasan berikut:
- Semua set data sumber dan tujuan persiapan data BigQuery dari persiapan data tertentu harus berada di lokasi yang sama. Untuk mengetahui informasi selengkapnya, lihat Lokasi yang didukung.
- Selama pengeditan pipeline, data dan interaksi dikirim ke pusat data Amerika Serikat untuk diproses. Untuk mengetahui informasi selengkapnya, lihat Lokasi yang didukung.
- Persiapan data tidak mendukung pembuatan kueri SQL dalam bahasa alami.
- Persiapan data BigQuery tidak mendukung tampilan, perbandingan, atau pemulihan versi persiapan data.
- Respons dari Gemini didasarkan pada sampel set data yang Anda berikan saat mendesain pipeline persiapan data. Untuk mengetahui informasi selengkapnya, lihat cara Gemini untuk Google Cloud menggunakan data Anda dan persyaratan dalam Program Penguji Tepercaya Gemini untuk Google Cloud.
Lokasi
Persiapan data mendukung pemrosesan data di semua lokasi BigQuery. Set data sumber dan tujuan dari persiapan data tertentu harus berada di lokasi yang sama.
Harga
Menjalankan persiapan data dan membuat sampel pratinjau data menggunakan resource BigQuery, yang dikenai tarif yang ditampilkan di harga BigQuery.
Persiapan data disertakan dalam harga Gemini di BigQuery. Anda dapat menggunakan penyiapan data BigQuery selama Pratinjau tanpa biaya tambahan. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan Gemini di BigQuery.
Kuota
Untuk informasi selengkapnya, lihat kuota Gemini di Google Cloud.
Langkah selanjutnya
- Pelajari cara menyiapkan data dengan Gemini di BigQuery.
- Pelajari cara mengelola deployment dan eksekusi persiapan data.