BigQuery DataFrames testen

In dieser Kurzanleitung werden die folgenden Analyse- und ML-Aufgaben mit der BigQuery DataFrames API in einem BigQuery-Notebook ausgeführt:

  • DataFrame für das öffentliche Dataset bigquery-public-data.ml_datasets.penguins erstellen
  • Durchschnittliche Körpermasse eines Pinguins berechnen
  • Lineares Regressionsmodell erstellen
  • DataFrame für eine Teilmenge der Pinguindaten erstellen, die als Trainingsdaten verwendet werden sollen
  • Trainingsdaten bereinigen
  • Modellparameter festlegen
  • Modell anpassen
  • Modell bewerten

Hinweise

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  4. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  5. Die BigQuery API muss aktiviert sein.

    API aktivieren

    Wenn Sie ein neues Projekt erstellt haben, wird die BigQuery API automatisch aktiviert.

Erforderliche Berechtigungen

Zum Erstellen und Ausführen von Notebooks benötigen Sie die folgenden IAM-Rollen (Identity and Access Management):

Notebook erstellen

Folgen Sie der Anleitung unter Notebook mit dem BigQuery-Editor erstellen, um ein neues Notebook zu erstellen.

BigQuery DataFrames testen

Führen Sie die folgenden Schritte aus, um BigQuery DataFrames zu testen:

  1. Erstellen Sie eine neue Codezelle im Notebook.
  2. Kopieren Sie den folgenden Code und fügen Sie ihn in die Codezelle ein:

    import bigframes.pandas as bpd
    
    # Set BigQuery DataFrames options
    bpd.options.bigquery.project = your_gcp_project_id
    bpd.options.bigquery.location = "us"
    
    # Create a DataFrame from a BigQuery table
    query_or_table = "bigquery-public-data.ml_datasets.penguins"
    df = bpd.read_gbq(query_or_table)
    
    # Use the DataFrame just as you would a pandas DataFrame, but calculations
    # happen in the BigQuery query engine instead of the local system.
    average_body_mass = df["body_mass_g"].mean()
    print(f"average_body_mass: {average_body_mass}")
    
    # Create the Linear Regression model
    from bigframes.ml.linear_model import LinearRegression
    
    # Filter down to the data we want to analyze
    adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"]
    
    # Drop the columns we don't care about
    adelie_data = adelie_data.drop(columns=["species"])
    
    # Drop rows with nulls to get our training data
    training_data = adelie_data.dropna()
    
    # Pick feature columns and label column
    X = training_data[
        [
            "island",
            "culmen_length_mm",
            "culmen_depth_mm",
            "flipper_length_mm",
            "sex",
        ]
    ]
    y = training_data[["body_mass_g"]]
    
    model = LinearRegression(fit_intercept=False)
    model.fit(X, y)
    model.score(X, y)
    
  3. Ändern Sie die Zeile bpd.options.bigquery.project = your_gcp_project_id, um Ihr Projekt anzugeben, z. B. bpd.options.bigquery.project = "myproject".

  4. Führen Sie die Codezelle aus.

    Die Codezelle gibt die durchschnittliche Textmasse der Pinguine im Dataset und dann die Bewertungsmesswerte für das Modell zurück.

Bereinigen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte

Notebooks: Erste Schritte mit BigQuery DataFrames