Mencoba DataFrames BigQuery
Gunakan panduan memulai ini untuk melakukan analisis dan tugas machine learning (ML) berikut menggunakan BigQuery DataFrames API di notebook BigQuery:
- Buat DataFrame melalui set data publik
bigquery-public-data.ml_datasets.penguins
. - Hitung massa tubuh rata-rata penguin.
- Buat model regresi linear.
- Buat DataFrame di atas subset data penguin untuk digunakan sebagai data pelatihan.
- Bersihkan data pelatihan.
- Setel parameter model.
- Sesuaikan modelnya.
- Beri skor modelnya.
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
Pastikan BigQuery API diaktifkan.
Jika Anda membuat project baru, BigQuery API akan otomatis diaktifkan.
Izin yang diperlukan
Untuk membuat dan menjalankan notebook, Anda memerlukan peran Identity and Access Management (IAM) berikut:
- Pengguna BigQuery (
roles/bigquery.user
) - Pengguna Runtime Notebook (
roles/aiplatform.notebookRuntimeUser
) - Pembuat Kode (
roles/dataform.codeCreator
)
Membuat notebook
Ikuti petunjuk di Membuat notebook dari editor BigQuery untuk membuat notebook baru.
Mencoba DataFrames BigQuery
Coba DataFrames BigQuery dengan mengikuti langkah-langkah berikut:
- Buat sel kode baru di notebook.
Salin kode berikut dan tempelkan ke dalam sel kode:
import bigframes.pandas as bpd # Set BigQuery DataFrames options bpd.options.bigquery.project = your_gcp_project_id bpd.options.bigquery.location = "us" # Create a DataFrame from a BigQuery table query_or_table = "bigquery-public-data.ml_datasets.penguins" df = bpd.read_gbq(query_or_table) # Use the DataFrame just as you would a pandas DataFrame, but calculations # happen in the BigQuery query engine instead of the local system. average_body_mass = df["body_mass_g"].mean() print(f"average_body_mass: {average_body_mass}") # Create the Linear Regression model from bigframes.ml.linear_model import LinearRegression # Filter down to the data we want to analyze adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"] # Drop the columns we don't care about adelie_data = adelie_data.drop(columns=["species"]) # Drop rows with nulls to get our training data training_data = adelie_data.dropna() # Pick feature columns and label column X = training_data[ [ "island", "culmen_length_mm", "culmen_depth_mm", "flipper_length_mm", "sex", ] ] y = training_data[["body_mass_g"]] model = LinearRegression(fit_intercept=False) model.fit(X, y) model.score(X, y)
Ubah baris
bpd.options.bigquery.project = your_gcp_project_id
untuk menentukan project Anda, misalnyabpd.options.bigquery.project = "myproject"
.Jalankan sel kode.
Sel kode menampilkan massa tubuh rata-rata untuk penguin dalam set data, lalu menampilkan metrik evaluasi untuk model tersebut.
Pembersihan
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.
Untuk menghapus project:
- Di konsol Google Cloud, buka halaman Manage resource.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Langkah selanjutnya
Coba Memulai Menggunakan notebook BigQuery DataFrames.