BigQuery DataFrames を試す
このクイックスタートでは、BigQuery ノートブックで BigQuery DataFrames API を使用して、次の分析と機械学習(ML)タスクを行います。
bigquery-public-data.ml_datasets.penguins
一般公開データセット上に DataFrame を作成します。- ペンギンの平均体重を計算します。
- 線形回帰モデルを作成する。
- トレーニング データとして使用するペンギンデータのサブセット上で DataFrame を作成する。
- トレーニング データをクリーンアップする。
- モデル パラメータを設定する。
- モデルを適合する。
- モデルのスコア付けを行う。
始める前に
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
BigQuery API が有効になっていることを確認します。
新しいプロジェクトを作成している場合は、BigQuery API が自動的に有効になっています。
必要な権限
ノートブックを作成して実行するには、次の Identity and Access Management(IAM)ロールが必要です。
- BigQuery ユーザー(
roles/bigquery.user
) - ノートブック ランタイム ユーザー(
roles/aiplatform.notebookRuntimeUser
) - コード作成者(
roles/dataform.codeCreator
)
ノートブックを作成する
BigQuery エディタからノートブックを作成するの手順に沿って、新しいノートブックを作成します。
BigQuery DataFrames を試す
次の手順で BigQuery DataFrame をお試しください。
- ノートブックに新しいコードセルを作成します。
次のコードをコピーして、コードセルに貼り付けます。
import bigframes.pandas as bpd # Set BigQuery DataFrames options bpd.options.bigquery.project = your_gcp_project_id bpd.options.bigquery.location = "us" # Create a DataFrame from a BigQuery table query_or_table = "bigquery-public-data.ml_datasets.penguins" df = bpd.read_gbq(query_or_table) # Use the DataFrame just as you would a pandas DataFrame, but calculations # happen in the BigQuery query engine instead of the local system. average_body_mass = df["body_mass_g"].mean() print(f"average_body_mass: {average_body_mass}") # Create the Linear Regression model from bigframes.ml.linear_model import LinearRegression # Filter down to the data we want to analyze adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"] # Drop the columns we don't care about adelie_data = adelie_data.drop(columns=["species"]) # Drop rows with nulls to get our training data training_data = adelie_data.dropna() # Pick feature columns and label column X = training_data[ [ "island", "culmen_length_mm", "culmen_depth_mm", "flipper_length_mm", "sex", ] ] y = training_data[["body_mass_g"]] model = LinearRegression(fit_intercept=False) model.fit(X, y) model.score(X, y)
bpd.options.bigquery.project = your_gcp_project_id
行を変更してプロジェクトを指定します(例:bpd.options.bigquery.project = "myproject"
)。コードセルを実行します。
コードセルは、データセット内のペンギンの平均体重とモデルの評価指標を返します。
クリーンアップ
課金をなくす最も簡単な方法は、チュートリアル用に作成したプロジェクトを削除することです。
プロジェクトを削除するには:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
次のステップ
BigQuery DataFrames ノートブック スタートガイドを試してみる。