BigQuery DataFrames testen
In dieser Kurzanleitung werden die folgenden Analyse- und ML-Aufgaben mit der BigQuery DataFrames API in einem BigQuery-Notebook ausgeführt:
- DataFrame für das öffentliche Dataset
bigquery-public-data.ml_datasets.penguins
erstellen - Durchschnittliche Körpermasse eines Pinguins berechnen
- Erstellen Sie ein lineares Regressionsmodell.
- DataFrame für eine Teilmenge der Pinguindaten erstellen, die als Trainingsdaten verwendet werden sollen
- Trainingsdaten bereinigen
- Modellparameter festlegen
- Modell anpassen
- Bewerten Sie das Modell.
Vorbereitung
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
Die BigQuery API muss aktiviert sein.
Wenn Sie ein neues Projekt erstellt haben, wird die BigQuery API automatisch aktiviert.
Erforderliche Berechtigungen
Zum Erstellen und Ausführen von Notebooks benötigen Sie die folgenden IAM-Rollen (Identity and Access Management):
- BigQuery-Nutzer (
roles/bigquery.user
) - Notebook Runtime-Nutzer (
roles/aiplatform.notebookRuntimeUser
) - Code Creator (
roles/dataform.codeCreator
)
Notebook erstellen
Folgen Sie der Anleitung unter Notebook mit dem BigQuery-Editor erstellen, um ein neues Notebook zu erstellen.
BigQuery DataFrames testen
So testen Sie BigQuery DataFrames:
- Erstellen Sie im Notebook eine neue Codezelle.
Kopieren Sie den folgenden Code und fügen Sie ihn in die Codezelle ein:
import bigframes.pandas as bpd # Set BigQuery DataFrames options bpd.options.bigquery.project = your_gcp_project_id bpd.options.bigquery.location = "us" # Create a DataFrame from a BigQuery table query_or_table = "bigquery-public-data.ml_datasets.penguins" df = bpd.read_gbq(query_or_table) # Use the DataFrame just as you would a pandas DataFrame, but calculations # happen in the BigQuery query engine instead of the local system. average_body_mass = df["body_mass_g"].mean() print(f"average_body_mass: {average_body_mass}") # Create the Linear Regression model from bigframes.ml.linear_model import LinearRegression # Filter down to the data we want to analyze adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"] # Drop the columns we don't care about adelie_data = adelie_data.drop(columns=["species"]) # Drop rows with nulls to get our training data training_data = adelie_data.dropna() # Pick feature columns and label column X = training_data[ [ "island", "culmen_length_mm", "culmen_depth_mm", "flipper_length_mm", "sex", ] ] y = training_data[["body_mass_g"]] model = LinearRegression(fit_intercept=False) model.fit(X, y) model.score(X, y)
Ändern Sie die Zeile
bpd.options.bigquery.project = your_gcp_project_id
, um Ihr Projekt anzugeben, z. B. inbpd.options.bigquery.project = "myproject"
.Führen Sie die Codezelle aus.
Die Codezelle gibt die durchschnittliche Textmasse der Pinguine im Dataset und dann die Bewertungsmesswerte für das Modell zurück.
Bereinigen
Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.
So löschen Sie das Projekt:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Nächste Schritte
Notebook "Erste Schritte mit BigQuery DataFrames" testen