Menggunakan Agen Ilmu Data Colab Enterprise dengan BigQuery
Agen Data Science (DSA) untuk Colab Enterprise dan BigQuery memungkinkan Anda mengotomatiskan analisis eksplorasi data, melakukan tugas machine learning, dan memberikan insight, semuanya dalam notebook Colab Enterprise.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.
Untuk project baru, BigQuery API diaktifkan secara otomatis.
- Agen Ilmu Data mendukung sumber data berikut:
- File CSV
- Tabel BigQuery
- Kode yang dihasilkan oleh Agen Data Science hanya berjalan di runtime notebook Anda.
- Agen Data Science tidak didukung di project yang telah mengaktifkan Kontrol Layanan VPC.
- Saat pertama kali menjalankan Agen Data Science, Anda mungkin mengalami beberapa latensi sekitar lima hingga sepuluh menit. Hal ini hanya terjadi sekali per project selama penyiapan awal.
- Buat rencana: Buat dan ubah rencana untuk menyelesaikan tugas tertentu menggunakan alat umum seperti Python, SQL, dan DataFrame BigQuery.
- Eksplorasi data: Jelajahi dataset untuk memahami struktur, mengidentifikasi potensi masalah seperti nilai yang hilang dan pencilan, serta memeriksa distribusi variabel utama menggunakan Python atau SQL.
- Pembersihan data: Bersihkan data Anda. Misalnya, hapus titik data yang merupakan pencilan.
- Penataan data: Mengonversi fitur kategoris menjadi representasi numerik menggunakan teknik seperti encoding one-hot atau encoding label atau dengan menggunakan alat transformasi fitur BigQuery. Buat fitur baru untuk analisis.
- Analisis data: Menganalisis hubungan antara variabel yang berbeda. Menghitung korelasi antara fitur numerik dan menjelajahi distribusi fitur kategoris. Cari pola dan tren dalam data.
- Visualisasi data: Buat visualisasi seperti histogram, diagram kotak, diagram sebar, dan diagram batang yang merepresentasikan distribusi variabel individual dan hubungan di antara variabel tersebut. Anda juga dapat membuat visualisasi di Python untuk tabel yang disimpan di BigQuery.
- Rekayasa fitur: Merekayasa fitur baru dari set data yang sudah dibersihkan.
- Pemisahan data: Memisahkan set data yang telah direkayasa menjadi set data pelatihan, validasi, dan pengujian.
- Pelatihan model: Latih model menggunakan data pelatihan di DataFrame pandas (
X_train
,y_train
), BigQuery DataFrames, atau menggunakan pernyataanCREATE MODEL
BigQuery ML dengan tabel BigQuery. - Pengoptimalan model: Mengoptimalkan model menggunakan set validasi.
Pelajari model alternatif seperti
DecisionTreeRegressor
danRandomForestRegressor
serta bandingkan performanya. - Evaluasi model: Mengevaluasi model berperforma terbaik pada set data pengujian yang disimpan dalam DataFrame pandas atau DataFrame BigQuery. Menilai kualitas model, membuat perbandingan antar-model, atau memprediksi performa model dengan menggunakan fungsi evaluasi model BigQuery ML.
- Inferensi model: Lakukan inferensi dengan model terlatih BigQuery ML, model yang diimpor, dan model jarak jauh menggunakan fungsi inferensi BigQuery ML. Atau gunakan metode
BigFrames
model.predict()
untuk membuat prediksi pada data yang belum pernah dilihat. Buat atau buka notebook Colab Enterprise.
Upload file CSV, pilih satu atau beberapa tabel BigQuery dari pemilih tabel, atau rujuk tabel BigQuery dalam perintah Anda.
Masukkan perintah yang menjelaskan analisis data yang ingin Anda lakukan atau prototipe yang ingin Anda buat. Perilaku default Agen Ilmu Data adalah membuat kode Python menggunakan library open source seperti sklearn untuk menyelesaikan tugas machine learning yang kompleks. Untuk menggunakan alat tertentu, sertakan kata kunci berikut dalam perintah Anda:
- Jika Anda ingin menggunakan BigQuery ML, sertakan kata kunci "SQL".
- Jika Anda ingin menggunakan "BigQuery DataFrames", tentukan kata kunci "BigFrames" atau "BigQuery DataFrames".
Untuk mendapatkan bantuan, lihat contoh perintah.
Periksa hasilnya.
Buka halaman BigQuery.
Di halaman selamat datang BigQuery Studio, di bagian Create new, klik Notebook.
Atau, di panel tab, klik > Notebook kosong.
panah drop-down di samping ikon +, lalu klik NotebookDi toolbar, klik tombol spark Toggle Gemini untuk membuka dialog chat.
Upload file CSV Anda.
Di dialog chat, klik
Tambahkan file.Jika perlu, beri otorisasi Akun Google Anda.
Di panel tindakan, klik
Upload file.Jelajahi lokasi file CSV, lalu klik Buka.
Di samping nama file, klik ikon
Tindakan lainnya, lalu pilih Tambahkan ke Gemini.
Masukkan perintah Anda di jendela chat. Contoh:
Identify trends and anomalies in this file.
Klik
Kirim. Hasilnya akan muncul di jendela chat.Anda dapat meminta agen untuk mengubah rencana, atau Anda dapat menjalankannya dengan mengklik Terima & jalankan. Saat rencana berjalan, kode dan teks yang dihasilkan akan muncul di notebook. Klik Batalkan untuk menghentikan.
Buka halaman BigQuery.
Di halaman selamat datang BigQuery Studio, di bagian Create new, klik Notebook.
Atau, di panel tab, klik > Notebook kosong.
panah drop-down di samping ikon +, lalu klik NotebookDi toolbar, klik tombol spark Toggle Gemini untuk membuka dialog chat.
Masukkan perintah Anda di jendela chat.
Pilih satu atau beberapa tabel menggunakan pemilih tabel:
Klik > Gemini.
Tambahkan ke tabel BigQueryDi jendela BigQuery tables, pilih satu atau beberapa tabel di project Anda. Anda dapat menelusuri tabel di seluruh project dan memfilter tabel menggunakan kotak penelusuran.
Anda juga dapat mereferensikan tabel BigQuery secara langsung dalam perintah. Misalnya: "Bantu saya melakukan analisis data eksploratif dan mendapatkan insight tentang data dalam tabel ini:
project_id:dataset.table
."Ganti kode berikut:
project_id
: project ID Andadataset
: nama set data yang berisi tabel yang Anda analisistable
: nama tabel yang Anda analisis
Klik
Kirim.Hasilnya akan muncul di jendela chat.
Anda dapat meminta agen untuk mengubah rencana, atau Anda dapat menjalankannya dengan mengklik Terima & jalankan. Saat rencana berjalan, kode dan teks yang dihasilkan akan muncul di notebook. Untuk langkah tambahan dalam rencana, Anda mungkin diminta untuk mengklik Setuju & jalankan lagi. Klik Batalkan untuk menghentikan.
- Selidiki dan isi nilai yang hilang menggunakan algoritma machine learning k-Nearest Neighbors (KNN).
- Buat plot gaji menurut tingkat pengalaman. Gunakan kolom
experience_level
untuk mengelompokkan gaji, dan buat diagram kotak untuk setiap kelompok yang menampilkan nilai dari kolomsalary_in_usd
. - Gunakan algoritma XGBoost untuk membuat model guna menentukan variabel
class
dari buah tertentu. Membagi data menjadi set data pelatihan dan pengujian untuk membuat model dan menentukan akurasi model. Buat matriks konfusi untuk menampilkan prediksi di antara setiap class, termasuk semua prediksi yang benar dan salah. - Perkiraan
target_variable
darifilename.csv
untuk enam bulan ke depan. - Buat dan evaluasi model klasifikasi di
bigquery-public-data.ml_datasets.census_adult_income
menggunakan SQL BigQuery. - Dengan menggunakan SQL, perkirakan traffic mendatang situs saya untuk bulan depan berdasarkan
bigquery-public-data.google_analytics_sample.ga_sessions_*
. Kemudian, buat plot nilai historis dan perkiraan. - Kelompokkan pelanggan yang serupa untuk membuat kampanye pemasaran yang menargetkan pasar menggunakan model KMeans. Gunakan tiga fitur untuk pengelompokan. Kemudian, visualisasikan
hasilnya dengan membuat serangkaian diagram sebar 2D. Gunakan tabel
bigquery-public-data.ml_datasets.census_adult_income
. - Buat embedding teks di BigQuery ML menggunakan konten ulasan di
bigquery-public-data.imdb.reviews
. - Buat DataFrame pandas untuk data di
project_id:dataset.table
. Analisis data untuk nilai null, lalu buat grafik distribusi setiap kolom menggunakan jenis grafik. Gunakan plot biola untuk nilai terukur dan plot batang untuk kategori. - Baca
filename.csv
dan buat DataFrame. Jalankan analisis pada DataFrame untuk menentukan apa yang perlu dilakukan dengan nilai. Misalnya, apakah ada nilai yang hilang yang perlu diganti atau dihapus, atau apakah ada baris duplikat yang perlu ditangani. Gunakan file data untuk menentukan distribusi uang yang diinvestasikan dalam USD per lokasi kota. Buat grafik 20 hasil teratas menggunakan grafik batang yang menampilkan hasil dalam urutan menurun sebagai Lokasi versus Jumlah Rata-Rata Investasi (USD). - Membuat dan mengevaluasi model klasifikasi pada
project_id:dataset.table
menggunakan BigQuery DataFrames. - Buat model perkiraan deret waktu di
project_id:dataset.table
menggunakan BigQuery DataFrames, dan visualisasikan evaluasi model. - Memvisualisasikan angka penjualan pada tahun lalu dalam tabel
project_id:dataset.table
BigQuery menggunakan BigQuery DataFrames. - Temukan fitur yang dapat memprediksi spesies penguin dengan paling baik dari
tabel
bigquery-public_data.ml_datasets.penguins
menggunakan BigQuery DataFrames.
Jika Anda baru menggunakan Colab Enterprise di BigQuery, lihat langkah-langkah penyiapan di halaman Membuat notebook.
Batasan
Kapan harus menggunakan Agen Data Science
Agen Data Science membantu Anda dalam berbagai tugas, mulai dari analisis data eksploratif hingga menghasilkan prediksi dan perkiraan machine learning. Anda dapat menggunakan DSA untuk:
Menggunakan Agen Ilmu Data di BigQuery
Langkah-langkah berikut menunjukkan cara menggunakan Agen Ilmu Data di BigQuery.
Menganalisis file CSV
Untuk menganalisis CSV menggunakan Agen Ilmu Data di BigQuery, ikuti langkah-langkah berikut.
Menganalisis tabel BigQuery
Untuk menganalisis tabel BigQuery, pilih satu atau beberapa tabel di pemilih tabel, atau berikan referensi ke tabel dalam perintah Anda.
Contoh perintah
Terlepas dari kompleksitas perintah yang Anda gunakan, Agen Data Science akan membuat rencana yang dapat Anda sesuaikan untuk memenuhi kebutuhan Anda.
Contoh berikut menunjukkan jenis perintah yang dapat Anda gunakan dengan DSA.
Perintah Python
Kode Python dibuat secara default, kecuali jika Anda menggunakan kata kunci tertentu dalam perintah, seperti "BigQuery ML" atau "SQL".
Perintah SQL dan BigQuery ML
Untuk mengetahui daftar model dan tugas machine learning yang didukung, lihat dokumentasi BigQuery ML.
Perintah DataFrame
Menonaktifkan Gemini di BigQuery
Untuk menonaktifkan Gemini di BigQuery untuk project Google Cloud , administrator harus menonaktifkan Gemini API untuk Google Cloud. Lihat Menonaktifkan layanan.
Untuk menonaktifkan Gemini di BigQuery bagi pengguna tertentu, administrator
harus mencabut peran
Pengguna Gemini untuk
Google Cloud (roles/cloudaicompanion.user
) bagi pengguna tersebut. Lihat
Mencabut
satu peran IAM.
Harga
Selama Pratinjau, Anda akan ditagih untuk menjalankan kode di runtime notebook dan untuk slot BigQuery yang Anda gunakan. Untuk mengetahui informasi selengkapnya, lihat Harga Colab Enterprise.
Region yang didukung
Untuk melihat region yang didukung untuk Agen Ilmu Data Colab Enterprise, lihat Lokasi.