Halaman ini diterjemahkan oleh Cloud Translation API.

Menjelajahi hasil kueri di notebook

Anda dapat menjelajahi hasil kueri BigQuery menggunakan notebook Colab Enterprise di BigQuery.

Dalam tutorial ini, Anda akan membuat kueri data dari set data publik BigQuery dan menjelajahi hasil kueri di notebook.

Tujuan

Membuat dan menjalankan kueri di BigQuery.
Menjelajahi hasil kueri di notebook.

Biaya

Tutorial ini menggunakan set data yang tersedia melalui Google Cloud Program Set Data Publik. Google membayar penyimpanan set data ini dan memberikan akses publik ke data tersebut. Anda dikenai biaya untuk kueri yang Anda lakukan pada data. Untuk informasi selengkapnya, lihat harga BigQuery.

Sebelum memulai

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Make sure that billing is enabled for your Google Cloud project.
Enable the BigQuery API.
Enable the API

Untuk project baru, BigQuery diaktifkan secara otomatis.

Mengaktifkan BigQuery Studio

Ikuti petunjuk di artikel Mengaktifkan BigQuery Studio untuk pengelolaan aset untuk menyimpan, membagikan, dan mengelola versi aset kode seperti notebook.

Izin yang diperlukan

Untuk membuat dan menjalankan notebook, Anda memerlukan peran Identity and Access Management (IAM) berikut:

Membuka hasil kueri di notebook

Anda dapat menjalankan kueri SQL, lalu menggunakan notebook untuk menjelajahi data. Pendekatan ini berguna jika Anda ingin mengubah data di BigQuery sebelum menanganinya, atau jika Anda hanya memerlukan subset kolom dalam tabel.

Di Konsol Google Cloud, buka halaman BigQuery.

Buka BigQuery
Di kolom Ketik untuk menelusuri, masukkan bigquery-public-data.

Jika project tidak ditampilkan, masukkan bigquery di kolom penelusuran, lalu klik Telusuri ke semua project untuk mencocokkan string penelusuran dengan project yang ada.
Pilih bigquery-public-data > ml_datasets > penguins.
Untuk tabel penguins, klik View actions, lalu klik Query.
Tambahkan tanda bintang (*) untuk pemilihan kolom ke kueri yang dihasilkan, sehingga kueri tersebut terbaca seperti contoh berikut:
```
SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
```
Klik Run.
Di bagian Hasil kueri, klik Jelajahi data, lalu klik Jelajahi dengan Python notebook.

Menyiapkan notebook untuk digunakan

Siapkan notebook untuk digunakan dengan menghubungkan ke runtime dan menetapkan nilai default aplikasi.

Di header notebook, klik Connect untuk terhubung ke runtime default.
Di blok kode Setup, klik Run cell.

Menjelajahi data

Untuk memuat data penguins ke dalam BigQuery DataFrame dan menampilkan hasilnya, klik Run cell di blok kode di bagian Result set loaded from BigQuery job as a DataFrame.
Untuk mendapatkan metrik deskriptif untuk data, klik Jalankan sel di blok kode di bagian Tampilkan statistik deskriptif menggunakan describe().
Opsional: Gunakan fungsi atau paket Python lainnya untuk menjelajahi dan menganalisis data.

Contoh kode berikut menunjukkan penggunaan bigframes.pandas untuk menganalisis data, dan bigframes.ml untuk membuat model regresi linear dari data penguins di DataFrame BigQuery:

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

Pembersihan

Agar tidak dikenakan biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource-nya.

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project Google Cloud yang Anda buat untuk tutorial ini.

Perhatian: Menghapus project memiliki efek berikut:

Semua hal dalam project akan dihapus. Jika menggunakan project yang sudah ada untuk tugas dalam dokumen ini, saat Anda menghapusnya, pekerjaan lain yang telah Anda lakukan dalam project tersebut juga akan terhapus.
Project ID kustom hilang. Saat membuat project ini, Anda mungkin telah membuat project ID kustom yang ingin digunakan di masa mendatang. Untuk mempertahankan URL yang menggunakan project ID, seperti URL appspot.com, hapus resource yang dipilih di dalam project, bukan menghapus seluruh project.

Jika Anda berencana mempelajari beberapa arsitektur, tutorial atau panduan memulai, dengan menggunakan kembali project dapat membantu Anda agar tidak melampaui batas kuota project.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Langkah berikutnya

Pelajari lebih lanjut cara membuat notebook di BigQuery.
Pelajari lebih lanjut cara menjelajahi data dengan DataFrame BigQuery.