Menggunakan Agen Data Science
Panduan ini menjelaskan cara menggunakan Agen Data Science di Colab Enterprise untuk membantu Anda melakukan tugas ilmu data di notebook.
Pelajari cara dan waktu Gemini untuk Google Cloud menggunakan data Anda.
Dokumen ini ditujukan untuk analis data, data scientist, dan developer data yang menggunakan Colab Enterprise. Hal ini mengasumsikan bahwa Anda memiliki pengetahuan tentang cara menulis kode di lingkungan notebook.
Kemampuan Agen Data Science
Agen Data Science dapat membantu Anda menyelesaikan tugas mulai dari analisis data eksploratif hingga membuat prediksi dan perkiraan machine learning. Anda dapat menggunakan Agen Data Science untuk:
- Membuat rencana: Buat dan ubah rencana untuk menyelesaikan tugas tertentu.
- Eksplorasi data: Jelajahi set data untuk memahami struktur, mengidentifikasi potensi masalah seperti nilai yang hilang dan pencilan, serta memeriksa distribusi variabel utama.
- Pembersihan data: Bersihkan data Anda. Misalnya, hapus titik data yang merupakan pencilan.
- Penyiapan data: Mengonversi fitur kategoris menjadi representasi numerik menggunakan teknik seperti encoding one-hot atau encoding label. Buat fitur baru untuk analisis.
- Analisis data: Menganalisis hubungan antara variabel yang berbeda. Menghitung korelasi antara fitur numerik dan menjelajahi distribusi fitur kategoris. Cari pola dan tren dalam data.
- Visualisasi data: Buat visualisasi seperti histogram, diagram kotak, diagram sebar, dan diagram batang yang merepresentasikan distribusi variabel individual dan hubungan di antara variabel tersebut.
- Rekayasa fitur: Merekayasa fitur baru dari set data yang sudah dibersihkan.
- Pemisahan data: Memisahkan set data yang telah direkayasa menjadi set data pelatihan, validasi, dan pengujian.
- Pelatihan model: Latih model menggunakan data pelatihan.
- Pengoptimalan model: Mengoptimalkan model menggunakan set validasi.
Pelajari model alternatif seperti
DecisionTreeRegressor
danRandomForestRegressor
serta bandingkan performanya. - Evaluasi model: Evaluasi model dengan performa terbaik pada set data pengujian.
Batasan
- Agen Ilmu Data mendukung sumber data berikut:
- File CSV
- Tabel BigQuery
- Kode yang dihasilkan oleh Agen Data Science hanya berjalan di runtime notebook Anda.
- Notebook Anda harus berada di region yang didukung oleh Agen Data Science. Lihat Lokasi.
- Agen Data Science tidak didukung di project yang telah mengaktifkan Kontrol Layanan VPC.
- Saat pertama kali menjalankan Agen Data Science, Anda mungkin mengalami beberapa latensi sekitar lima hingga sepuluh menit. Hal ini hanya terjadi sekali per project selama penyiapan awal.
- Penelusuran tabel BigQuery menggunakan fungsi
@mention
terbatas pada project saat ini. Gunakan pemilih tabel untuk menelusuri seluruh project. - Fungsi
@mention
hanya menelusuri tabel BigQuery. Untuk menelusuri file data yang dapat Anda upload, gunakan simbol+
.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Di konsol Google Cloud , buka halaman Notebook saya Colab Enterprise.
-
Di menu Region, pilih region yang berisi notebook Anda.
-
Klik notebook yang ingin Anda buka.
-
Di toolbar, klik tombol
Gemini untuk membuka dialog chat. - Di dialog chat, klik > Upload. Tambahkan file
-
Jika perlu, beri otorisasi Akun Google Anda.
Tunggu beberapa saat hingga Colab Enterprise memulai runtime dan mengaktifkan penjelajahan file.
- Cari lokasi file, lalu klik Buka.
-
Klik OK untuk mengonfirmasi bahwa file runtime ini akan dihapus saat runtime dihapus.
File diupload ke panel File, dan muncul di jendela chat.
-
Di konsol Google Cloud , buka halaman Notebook saya Colab Enterprise.
-
Di menu Region, pilih region yang berisi notebook Anda.
-
Klik notebook yang ingin Anda buka.
-
Di toolbar, klik tombol
Gemini untuk membuka dialog chat. -
Untuk mereferensikan data Anda, lakukan salah satu hal berikut:
-
Pilih satu atau beberapa tabel menggunakan pemilih tabel:
- Klik > Tabel BigQuery. Tambahkan ke Gemini
- Di jendela BigQuery tables, pilih satu atau beberapa tabel di project Anda. Anda dapat menelusuri tabel di seluruh project dan memfilter tabel menggunakan kotak penelusuran.
-
Sertakan nama tabel BigQuery secara langsung dalam perintah Anda. Misalnya: "Bantu saya melakukan analisis data eksploratif dan mendapatkan insight tentang data dalam tabel ini:
PROJECT_ID:DATASET.TABLE
."Ganti kode berikut:
PROJECT_ID
: project ID Anda.DATASET
: nama set data yang berisi tabel yang Anda analisis.TABLE
: nama tabel yang Anda analisis.
-
Ketik
@
untuk menelusuri tabel BigQuery di project saat ini.
-
-
Di dialog chat Gemini, masukkan perintah, lalu klik kemampuan Agen Data Science dan lihat Contoh perintah.
Kirim. Untuk mendapatkan ide perintah, tinjauMisalnya, Anda dapat memasukkan "Berikan analisis data yang telah saya upload."
-
Gemini merespons perintah Anda. Respons dapat mencakup cuplikan kode untuk dijalankan, saran umum untuk project Anda, langkah berikutnya untuk mencapai sasaran Anda, atau informasi tentang masalah tertentu dalam data atau kode Anda.
Setelah mengevaluasi respons, Anda dapat melakukan hal berikut:
- Jika Gemini memberikan kode dalam responsnya, Anda dapat mengklik:
- Terima untuk menambahkan kode ke notebook Anda.
- Terima dan jalankan untuk menambahkan kode ke notebook dan menjalankan kode.
- Batal untuk menghapus kode yang disarankan.
- Ajukan pertanyaan lanjutan dan lanjutkan diskusi sesuai kebutuhan.
- Jika Gemini memberikan kode dalam responsnya, Anda dapat mengklik:
-
Untuk menutup dialog Gemini, klik
Tutup. - Temukan dan isi nilai yang tidak ada menggunakan algoritma machine learning k-Nearest Neighbors (KNN).
- Buat plot gaji berdasarkan tingkat pengalaman. Gunakan kolom
experience_level
untuk mengelompokkan gaji, dan buat diagram kotak untuk setiap grup yang menampilkan nilai dari kolomsalary_in_usd
. - Gunakan algoritma XGBoost untuk membuat model guna menentukan variabel
class
buah tertentu. Pisahkan data menjadi set data pelatihan dan pengujian untuk membuat model, lalu evaluasi akurasi model. Buat matriks konfusi untuk menampilkan prediksi untuk setiap class, termasuk semua prediksi yang benar dan salah. - Buat dataframe pandas untuk data saya. Analisis data untuk nilai null, lalu visualisasikan distribusi setiap kolom menggunakan plot biola untuk nilai terukur dan plot batang untuk kategori.
- Baca file CSV untuk set data dan buat DataFrame, jalankan analisis pada DataFrame untuk menentukan apa yang perlu dilakukan dengan nilai (ganti atau hapus nilai yang hilang, hapus baris duplikat), dan tentukan distribusi jumlah uang yang diinvestasikan dalam USD per lokasi kota. Visualisasikan hasil pada diagram batang dalam urutan menurun sebagai Lokasi versus Jumlah Rata-Rata Investasi (USD), yang hanya menampilkan 20 hasil teratas.
- Perkirakan
target_variable
darifilename.csv
selama enam bulan ke depan. - Membangun dan mengevaluasi model klasifikasi pada
filename.csv
untuktarget_variable
. Untuk mengetahui informasi selengkapnya tentang cara menggunakan Agen Ilmu Data dengan BigQuery, lihat Menggunakan Agen Ilmu Data Colab Enterprise dengan BigQuery.
Untuk mengetahui cara lain menulis dan mengedit kode dengan bantuan Gemini, lihat artikel berikut:
Pelajari cara Gemini untuk Google Cloud menggunakan data Anda.
Peran yang diperlukan
Untuk mendapatkan izin yang diperlukan untuk menggunakan Agen Ilmu Data di Colab Enterprise, minta administrator untuk memberi Anda peran IAM Colab Enterprise User (roles/aiplatform.colabEnterpriseUser
) di project.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran kustom atau peran yang telah ditentukan lainnya.
Mereferensikan data Anda
Untuk mengizinkan Agen Ilmu Data Colab Enterprise mengakses dan memproses data Anda, Anda dapat mengupload file CSV atau merujuk tabel BigQuery.
File CSV
Tabel BigQuery
Menggunakan Agen Data Science
Untuk mulai menggunakan Agen Data Science (DSA) Colab Enterprise, lakukan hal berikut:
Menonaktifkan Gemini di Colab Enterprise
Untuk menonaktifkan Gemini di Colab Enterprise untuk Google Cloud project, administrator harus menonaktifkan Gemini for Google Cloud API. Lihat Menonaktifkan layanan.
Untuk menonaktifkan Gemini di Colab Enterprise bagi pengguna tertentu, administrator harus mencabut peran Pengguna Gemini untuk Google Cloud (roles/cloudaicompanion.user
) bagi pengguna tersebut. Lihat
Mencabut
satu peran IAM.
Contoh perintah
Contoh berikut menunjukkan jenis perintah yang dapat Anda gunakan dengan Agen Ilmu Data.
Region yang didukung
Untuk melihat region yang didukung untuk Agen Data Science Colab Enterprise, lihat Lokasi.
Penagihan
Selama Pratinjau, Anda hanya ditagih untuk menjalankan kode di runtime notebook. Untuk mengetahui informasi selengkapnya, lihat Harga Colab Enterprise.