Menyiapkan data dengan Gemini

Dokumen ini menjelaskan cara membuat dan mengelola saran kode SQL untuk penyiapan data di BigQuery.

Untuk mengetahui informasi selengkapnya, lihat Pengantar penyiapan data BigQuery.

Sebelum memulai

Membuka editor persiapan data di BigQuery

Anda dapat membuka editor penyiapan data di BigQuery dengan membuat penyiapan data baru, membuat penyiapan data dari tabel yang ada atau file Cloud Storage, atau membuka penyiapan data yang ada. Untuk mengetahui informasi selengkapnya tentang apa yang terjadi saat Anda membuat persiapan data, lihat Titik entri persiapan data.

Di halaman BigQuery, Anda dapat membuka editor persiapan data dengan cara berikut:

Buat baru

Untuk membuat persiapan data baru di BigQuery, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman BigQuery.
    Buka BigQuery
  2. Buka daftar Buat baru, lalu klik Penyiapan data. Editor penyiapan data ditampilkan di tab penyiapan data tanpa judul yang baru.
  3. Di kotak penelusuran editor, masukkan nama tabel atau kata kunci Anda, lalu pilih tabel. Editor persiapan data untuk tabel akan terbuka, menampilkan pratinjau data Anda di tab Data, dan serangkaian saran persiapan data awal dari Gemini.
  4. Opsional: Untuk menyederhanakan tampilan, aktifkan mode layar penuh dengan mengklik layar penuh Layar penuh.
  5. Opsional: Untuk melihat detail penyiapan data, histori versi, menambahkan komentar baru, atau membalas komentar yang ada, gunakan toolbar (Pratinjau).
  6. Jelajahi toolbar persiapan data.

Membuat dari tabel

Untuk membuat penyiapan data baru dari tabel yang ada, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman BigQuery.
    Buka BigQuery
  2. Di panel Explorer, tahan kursor ke tabel.
  3. Klik more_vert Menu > Kueri di > Penyiapan data. Editor persiapan data untuk tabel akan terbuka, menampilkan pratinjau data Anda di tab Data, dan serangkaian saran persiapan data awal dari Gemini.
  4. Opsional: Untuk menyederhanakan tampilan, aktifkan mode layar penuh dengan mengklik layar penuh Layar penuh.
  5. Opsional: Untuk melihat detail penyiapan data, histori versi, menambahkan komentar baru, atau membalas komentar yang ada, gunakan toolbar (Pratinjau).
  6. Jelajahi toolbar persiapan data.

Membuat dari file Cloud Storage

Untuk membuat penyiapan data baru dari file di Cloud Storage, ikuti langkah-langkah berikut:

Muat file

  1. Di konsol Google Cloud , buka halaman BigQuery.
    Buka BigQuery
  2. Di daftar Buat baru, klik Penyiapan data. Editor penyiapan data ditampilkan di tab penyiapan data baru tanpa judul.
  3. Di daftar sumber data, klik Google Cloud Storage. Dialog Siapkan data akan terbuka.
  4. Di bagian Sumber, pilih file dari bucket Cloud Storage atau masukkan jalur sumber Anda. Misalnya, masukkan jalur ke file CSV Anda: STORAGE_BUCKET_NAME/FILE_NAME.csv. Penelusuran karakter pengganti, seperti *.csv, didukung.

    Format file terdeteksi secara otomatis. Format yang didukung adalah Avro, CSV, JSONL, ORC, dan Parquet. Jenis file kompatibel lainnya, seperti DAT, TSV, dan TXT, dibaca sebagai format CSV.
  5. Tentukan tabel penyiapan eksternal tempat Anda akan mengupload file. Di bagian Staging table, masukkan nama project, set data, dan tabel untuk tabel baru.
  6. Di bagian Schema, tinjau skema. Gemini memeriksa nama kolom dalam file Anda. Jika tidak menemukan apa pun, fitur ini akan memberikan saran.

    Secara default, file persiapan data memuat data sebagai string. Anda dapat menentukan jenis data yang lebih spesifik saat menyiapkan data file.
  7. Opsional: Di Advanced options, Anda dapat menambahkan informasi lainnya, seperti jumlah error yang diizinkan sebelum tugas gagal. Gemini memberikan opsi tambahan berdasarkan konten file Anda.
  8. Klik Buat. Editor persiapan data untuk file akan terbuka, menampilkan pratinjau data Anda di tab Data, dan serangkaian saran persiapan data awal dari Gemini.
  9. Opsional: Untuk menyederhanakan tampilan, aktifkan mode layar penuh dengan mengklik layar penuh Layar penuh.
  10. Opsional: Untuk melihat detail penyiapan data, histori versi, menambahkan komentar baru, atau membalas komentar yang ada, gunakan toolbar (Pratinjau).
  11. Jelajahi toolbar persiapan data.

Menyiapkan file

Di tampilan data, siapkan data Cloud Storage bertahap yang Anda muat dengan mengikuti langkah-langkah berikut:

  1. Opsional: Tentukan jenis data yang lebih kuat untuk kolom yang relevan dengan menjelajahi daftar saran untuk saran transformasi atau memilih kolom dan membuat saran untuk kolom tersebut.
  2. Opsional: Tentukan aturan validasi. Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi tabel error dan menambahkan aturan validasi.
  3. Tambahkan tabel tujuan.
  4. Untuk memuat data Cloud Storage ke dalam tabel tujuan, jalankan penyiapan data.
  5. Opsional: Jadwalkan proses penyiapan data.
  6. Opsional: Mengoptimalkan persiapan data dengan memproses data secara inkremental.

Buka yang ada

Untuk membuka editor penyiapan data yang sudah ada, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman BigQuery.
    Buka BigQuery
  2. Di panel Explorer, klik nama project Anda dan Persiapan data.
  3. Pilih penyiapan data yang ada. Tampilan grafik pipeline persiapan data akan ditampilkan.
  4. Pilih salah satu node dalam grafik. Editor persiapan data untuk tabel akan terbuka, menampilkan pratinjau data Anda di tab Data dan serangkaian awal saran persiapan data dari Gemini.
  5. Opsional: Untuk menyederhanakan tampilan, aktifkan mode layar penuh dengan mengklik layar penuh Layar penuh.
  6. Opsional: Untuk melihat detail penyiapan data, histori versi, menambahkan komentar baru, atau membalas komentar yang ada, gunakan toolbar (Pratinjau).
  7. Jelajahi toolbar persiapan data.

Menambahkan langkah-langkah penyiapan data

Anda menyiapkan data dalam beberapa langkah. Anda dapat melihat pratinjau atau menerapkan langkah-langkah yang disarankan oleh Gemini. Anda juga dapat meningkatkan kualitas saran, atau menerapkan langkah-langkah Anda sendiri.

Menerapkan dan meningkatkan kualitas saran dari Gemini

Saat Anda membuka editor penyiapan data untuk tabel, Gemini akan memeriksa data dan skema dari tabel yang Anda muat serta membuat saran filter dan transformasi. Saran muncul di kartu dalam daftar Langkah-Langkah.

Gambar berikut menunjukkan tempat Anda dapat menerapkan dan meningkatkan kualitas langkah-langkah yang disarankan oleh Gemini:

Tampilan data di editor penyiapan data yang menampilkan opsi untuk melihat pratinjau, mengedit, atau menerapkan saran dari Gemini.

Untuk menerapkan saran dari Gemini sebagai langkah persiapan data, lakukan hal berikut:

  1. Di tampilan data, klik nama kolom atau sel tertentu. Gemini membuat saran untuk memfilter dan mengubah data.
  2. Opsional: Untuk meningkatkan kualitas saran, edit nilai satu hingga tiga sel dalam tabel untuk menunjukkan seperti apa nilai dalam kolom seharusnya. Misalnya, masukkan tanggal sesuai dengan format yang Anda inginkan untuk semua tanggal. Gemini akan membuat saran baru berdasarkan perubahan Anda.

    Gambar berikut menunjukkan cara mengedit nilai untuk meningkatkan kualitas langkah-langkah yang disarankan oleh Gemini:

    Tingkatkan kualitas saran dengan mengedit nilai dalam sel untuk menunjukkan seperti apa nilai dalam kolom seharusnya.

  3. Pilih kartu saran.

    1. Opsional: Untuk melihat pratinjau hasil kartu saran, klik Pratinjau.
    2. Opsional: Untuk mengubah kartu saran menggunakan bahasa alami, klik Edit.
  4. Klik Terapkan.

Menambahkan langkah-langkah dengan bahasa alami atau ekspresi SQL

Jika saran yang ada tidak memenuhi kebutuhan Anda, tambahkan langkah. Pilih kolom atau jenis langkah, lalu deskripsikan apa yang Anda inginkan menggunakan bahasa alami.

Menambahkan transformasi

  1. Di tampilan data atau skema, pilih opsi Transformasi. Anda juga dapat memilih kolom atau menambahkan contoh untuk membantu Gemini memahami transformasi data Anda.
  2. Di kolom Deskripsi, masukkan perintah, seperti Convert the state column to uppercase.
  3. Klik kirim Kirim.

    Gemini akan membuat ekspresi SQL dan deskripsi baru berdasarkan perintah Anda.

  4. Dalam daftar Kolom target, pilih atau masukkan nama kolom.

  5. Opsional: Untuk memperbarui ekspresi SQL, revisi perintah dan klik send Kirim, atau masukkan ekspresi SQL secara manual.

  6. Opsional: Klik Pratinjau dan tinjau langkahnya.

  7. Klik Terapkan.

Meratakan kolom JSON

Untuk mempermudah akses dan analisis key-value pair, ratakan kolom JSON. Misalnya, jika Anda memiliki kolom JSON bernama user_properties yang berisi kunci country dan device_type, meratakan kolom ini akan mengekstrak country dan device_type ke dalam kolom level teratasnya sendiri sehingga Anda dapat menggunakannya secara langsung dalam analisis.

Gemini untuk BigQuery menyarankan operasi yang mengekstraksi kolom hanya dari tingkat teratas JSON. Jika kolom yang diekstrak ini berisi lebih banyak objek JSON, Anda dapat meratakannya dalam langkah tambahan untuk mengakses isinya.

  1. Di tampilan data untuk tabel sumber JSON, pilih kolom atau sel.
  2. Klik Ratakan untuk membuat saran.
  3. Opsional: Untuk memperbarui ekspresi SQL, Anda dapat memasukkan ekspresi SQL secara manual.
  4. Opsional: Klik Pratinjau dan tinjau langkahnya.
  5. Klik Terapkan.

Perataan memiliki perilaku berikut:

  • Opsi Ratakan muncul di tampilan data setelah Anda memilih sel atau kolom yang berisi JSON. Bagian ini tidak muncul secara default saat Anda mengklik Tambahkan langkah.
  • Jika kunci JSON tidak ada di baris yang dipilih, saran yang dihasilkan tidak berisi kunci tersebut. Masalah ini dapat menyebabkan beberapa kolom tidak disertakan saat data diratakan.
  • Jika nama kolom bertabrakan selama perataan, nama kolom yang berulang akan berakhir dalam format ini: _<i>. Misalnya, jika sudah ada kolom bernama address, nama kolom baru yang diratakan adalah address_1.
  • Nama kolom yang diratakan mengikuti konvensi penamaan kolom BigQuery.
  • Jika Anda membiarkan kolom kunci JSON kosong, format nama kolom default adalah f<i>_.

Meratakan kolom RECORD atau STRUCT

Untuk mempermudah akses dan analisis kolom bertingkat, ratakan kolom dengan jenis data RECORD atau STRUCT. Misalnya, jika Anda memiliki rekaman event_log yang berisi kolom timestamp dan action, meratakan rekaman ini akan mengekstrak timestamp dan action ke dalam kolom tingkat teratasnya sendiri sehingga Anda dapat mentransformasinya secara langsung.

Proses ini mengekstrak semua kolom bertingkat dari kumpulan data, hingga kedalaman 10 tingkat, dan membuat kolom baru untuk setiap kolom. Nama kolom baru dibuat dengan menggabungkan nama kolom induk dengan nama kolom bertingkat, yang dipisahkan dengan garis bawah (misalnya, PARENT-COLUMN-NAME_FIELD-NAME). Kolom asli dihapus. Untuk mempertahankan kolom asli, Anda dapat menghapus langkah Lepaskan kolom dari daftar Langkah-langkah yang diterapkan.

Untuk meratakan rekaman, ikuti langkah-langkah berikut:

  1. Dalam tampilan data untuk tabel sumber, pilih kolom rekaman.
  2. Klik Ratakan untuk membuat saran.
  3. Opsional: Untuk memperbarui ekspresi SQL, Anda dapat memasukkan ekspresi SQL secara manual.
  4. Opsional: Klik Pratinjau dan tinjau langkahnya.
  5. Klik Terapkan.

Filter baris

Untuk menambahkan filter yang menghapus baris, ikuti langkah-langkah berikut:

  1. Dalam tampilan data atau skema, pilih opsi Filter. Anda juga dapat memilih kolom untuk membantu Gemini memahami filter data Anda.
  2. Di kolom Deskripsi, masukkan perintah, seperti Column ID should not be NULL.
  3. Klik Generate. Gemini akan membuat ekspresi SQL dan deskripsi baru berdasarkan perintah Anda.
  4. Opsional: Untuk memperbarui ekspresi SQL, revisi perintah, lalu klik send Kirim, atau masukkan ekspresi SQL secara manual.
  5. Opsional: Klik Pratinjau dan tinjau langkahnya.
  6. Klik Terapkan.

Format ekspresi filter

Ekspresi SQL untuk filter mempertahankan baris yang cocok dengan kondisi yang ditentukan. Hal ini setara dengan pernyataan SELECT … WHERE SQL_EXPRESSION.

Misalnya, untuk mempertahankan data jika kolom year lebih besar dari atau sama dengan 2000, kondisinya adalah year >= 2000.

Ekspresi harus mengikuti sintaksis SQL BigQuery untuk klausa WHERE.

Menghapus duplikat data

Untuk menghapus baris duplikat dari data Anda, ikuti langkah-langkah berikut:

  1. Di tampilan data atau skema, pilih opsi Hapus duplikat. Gemini memberikan saran penghapusan duplikat awal.
  2. Opsional: Untuk menyempurnakan saran, masukkan deskripsi baru dan klik kirim Kirim.
  3. Opsional: Untuk mengonfigurasi langkah penghapusan duplikat secara manual, gunakan opsi berikut:
    • Di daftar Pilihan rekaman, pilih salah satu strategi berikut:
      • Pertama: Untuk setiap grup baris dengan nilai kunci penghapusan duplikat yang sama, strategi ini memilih baris pertama berdasarkan ekspresi ORDER BY dan menghapus sisanya.
      • Terakhir: Untuk setiap grup baris dengan nilai kunci penghapusan duplikat yang sama, strategi ini memilih baris terakhir berdasarkan ekspresi ORDER BY dan menghapus sisanya.
      • Semua: Untuk setiap grup baris dengan nilai kunci penghapusan duplikat yang sama, strategi ini memilih baris mana pun dari grup tersebut dan menghapus sisanya.
      • Unik: Menghapus semua baris duplikat di semua kolom dalam tabel.
    • Di kolom Kunci penghapusan duplikat, pilih satu atau beberapa kolom atau ekspresi untuk mengidentifikasi baris duplikat. Kolom ini berlaku jika strategi pemilihan data adalah Pertama, Terakhir, atau Semua.
    • Di kolom Urutkan menurut ekspresi, masukkan ekspresi yang menentukan urutan baris. Misalnya, untuk memilih baris terbaru, masukkan datetime DESC. Untuk memilih baris pertama menurut abjad berdasarkan nama, masukkan nama kolom seperti last_name. Ekspresi mengikuti aturan yang sama seperti klausa ORDER BY standar di BigQuery. Kolom ini hanya berlaku jika strategi pemilihan rekaman adalah Pertama atau Terakhir.
  4. Opsional: Klik Pratinjau dan tinjau langkahnya.
  5. Klik Terapkan.

Menghapus kolom

Untuk menghapus satu atau beberapa kolom dari penyiapan data, ikuti langkah-langkah berikut:

  1. Di tampilan data atau skema, pilih kolom yang ingin Anda lepas.
  2. Klik Lepaskan. Langkah penerapan baru ditambahkan untuk kolom yang dihapus.

Menambahkan operasi gabungan dengan Gemini

Untuk menambahkan langkah operasi gabungan antara dua sumber dalam penyiapan data Anda, ikuti langkah-langkah berikut:

  1. Di tampilan data untuk node dalam penyiapan data, buka daftar Saran, lalu klik opsi Gabungkan.
  2. Dalam dialog Tambahkan gabungan, klik Jelajahi, lalu pilih tabel lain yang terlibat dalam operasi gabungan (disebut sebagai sisi kanan gabungan).
  3. Opsional: Pilih jenis operasi gabungan yang ingin Anda lakukan, seperti Inner join.
  4. Tinjau informasi kunci gabungan yang dihasilkan Gemini di kolom berikut:

    • Deskripsi gabungan: Deskripsi bahasa alami dari ekspresi SQL untuk operasi gabungan. Saat Anda mengedit deskripsi ini dan mengklik kirim Kirim, Gemini akan menyarankan kondisi gabungan SQL baru.
    • Kondisi gabungan: Ekspresi SQL dalam klausa ON untuk operasi gabungan. Anda dapat menggunakan kualifikasi L dan R untuk merujuk ke tabel sumber kiri dan kanan. Misalnya, untuk menggabungkan kolom customer_id dari tabel kiri ke kolom customer_id dari tabel kanan, masukkan L.customerId = R.customerId. Penentu ini tidak peka huruf besar/kecil.

  5. Opsional: Untuk mempertajam saran dari Gemini, edit kolom Deskripsi bergabung, lalu klik kirim Kirim.

  6. Opsional: Untuk melihat pratinjau setelan operasi penggabungan penyiapan data Anda, klik Pratinjau.

  7. Klik Terapkan.

    Langkah operasi gabung dibuat. Tabel sumber yang Anda pilih (sisi kanan gabungan) dan operasi gabungan tercermin dalam daftar langkah yang diterapkan dan dalam node di tampilan grafik penyiapan data Anda.

Data gabungan

  1. Di tampilan data atau skema, pilih opsi Gabungkan.
  2. Di kolom Deskripsi, masukkan perintah, seperti Find the total revenue for a region.
  3. Klik Kirim.

    Gemini membuat kunci pengelompokan dan ekspresi agregasi berdasarkan perintah Anda.

  4. Opsional: Edit kunci pengelompokan atau ekspresi agregasi yang dihasilkan, jika diperlukan.

  5. Opsional: Anda dapat menambahkan kunci pengelompokan dan ekspresi agregasi secara manual.

    • Di kolom Kunci pengelompokan, masukkan nama atau ekspresi kolom. Jika Anda mengosongkannya, tabel yang dihasilkan akan memiliki satu baris. Jika Anda memasukkan ekspresi, ekspresi tersebut harus memiliki alias (klausa AS)—misalnya EXTRACT(YEAR FROM order_date) AS order_year. Tidak ada duplikat yang diizinkan.
    • Di kolom Ekspresi agregasi, masukkan ekspresi agregasi yang memiliki alias (klausa AS)—misalnya SUM(quantity) AS total_quantity. Anda dapat memasukkan beberapa ekspresi yang dipisahkan koma. Duplikat tidak diizinkan. Untuk mengetahui daftar ekspresi agregasi yang didukung, lihat Fungsi agregat.
  6. Opsional: Klik Pratinjau dan tinjau langkahnya.

  7. Klik Terapkan.

Mengonfigurasi tabel error dan menambahkan aturan validasi

Anda dapat menambahkan filter yang membuat aturan validasi, yang mengirimkan error ke tabel error atau gagal menjalankan penyiapan data.

Mengonfigurasi tabel error

Untuk mengonfigurasi tabel error, ikuti langkah-langkah berikut:

  1. Di editor penyiapan data, buka toolbar dan klik Lainnya > Tabel error.
  2. Klik Aktifkan tabel error.
  3. Tentukan lokasi tabel.
  4. Opsional: Tentukan durasi maksimum untuk menyimpan error.
  5. Klik Simpan.

Menambahkan aturan validasi

Untuk menambahkan aturan validasi, ikuti langkah-langkah berikut:

  1. Di tampilan data atau skema, klik opsi Filter. Anda juga dapat memilih kolom untuk membantu Gemini memahami filter data Anda.
  2. Masukkan deskripsi untuk langkah.
  3. Masukkan ekspresi SQL, dalam bentuk klausa WHERE.
  4. Opsional: Jika Anda ingin ekspresi SQL bertindak sebagai aturan validasi, centang kotak Baris validasi yang gagal masuk ke tabel error. Anda juga dapat mengubah filter menjadi validasi di toolbar penyiapan data dengan mengklik Lainnya > Tabel error.
  5. Opsional: Klik Pratinjau dan tinjau langkahnya.
  6. Klik Terapkan.

Menambahkan atau mengubah tabel tujuan

Untuk menambahkan atau mengubah tabel tujuan bagi output penyiapan data Anda, ikuti langkah-langkah berikut:

  1. Di tampilan data atau skema, pilih opsi Tujuan.
  2. Pilih project tempat tabel tujuan disimpan.
  3. Pilih salah satu set data, atau muat set data baru.
  4. Masukkan tabel tujuan. Jika tabel tidak ada, penyiapan data akan membuat tabel baru pada proses pertama. Untuk mengetahui informasi selengkapnya, lihat Mode penulisan.
  5. Pilih set data Anda sebagai set data tujuan.
  6. Klik Simpan.

Melihat sampel dan skema data untuk langkah yang diterapkan

Untuk melihat detail sampel dan skema pada langkah tertentu dalam penyiapan data, lakukan hal berikut:

  1. Di editor penyiapan data, buka daftar Langkah-langkah, lalu klik Langkah-langkah yang diterapkan.
  2. Pilih langkah. Tab Data dan Skema akan muncul, menampilkan sampel data dan skema pada langkah tertentu ini.

Mengedit langkah yang diterapkan

Untuk mengedit langkah yang diterapkan, lakukan hal berikut:

  1. Di editor penyiapan data, buka daftar Langkah-langkah, lalu klik Langkah-langkah yang diterapkan.
  2. Pilih langkah.
  3. Di samping langkah, klik more_vert Menu > Edit.
  4. Dalam dialog Edit Langkah yang Diterapkan, Anda dapat melakukan hal berikut:
    • Edit deskripsi langkah.
    • Dapatkan saran dari Gemini dengan mengedit deskripsi dan mengklik kirim Kirim.
    • Edit ekspresi SQL.
  5. Di kolom Target column, pilih kolom.
  6. Opsional: Klik Pratinjau dan tinjau langkahnya.
  7. Klik Terapkan.

Menghapus langkah yang diterapkan

Untuk menghapus langkah yang diterapkan, lakukan hal berikut:

  1. Di editor penyiapan data, buka daftar Langkah-langkah, lalu klik Langkah-langkah yang diterapkan.
  2. Pilih langkah.
  3. Klik more_vert Menu > Hapus.

Menjalankan persiapan data

Setelah menambahkan langkah-langkah penyiapan data, mengonfigurasi tujuan, dan memperbaiki error validasi, Anda dapat menjalankan uji coba pada sampel data, atau men-deploy langkah-langkah dan menjadwalkan penyiapan data. Untuk mengetahui informasi selengkapnya, lihat Menjadwalkan persiapan data.

Memuat ulang contoh persiapan data

Data dalam sampel tidak diperbarui secara otomatis. Jika data dalam tabel sumber untuk penyiapan data telah berubah, tetapi perubahan tersebut tidak tercermin dalam sampel data penyiapan, klik Lainnya > Perbarui sampel.

Langkah berikutnya