Essayer BigQuery DataFrames

Utilisez ce guide de démarrage rapide pour effectuer les tâches d'analyse et de machine learning (ML) suivantes à l'aide de l'API BigQuery DataFrames dans un notebook BigQuery:

  • Créer un DataFrame sur l'ensemble de données public bigquery-public-data.ml_datasets.penguins.
  • Calculer la masse moyenne d'un pingouin.
  • Créer un modèle de régression linéaire.
  • Créer un DataFrame sur un sous-ensemble de données "penguin" à utiliser comme données d'entraînement.
  • Nettoyer les données d'entraînement.
  • Définir les paramètres du modèle.
  • Ajuster au modèle.
  • Attribuer des scores au modèle.

Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  4. Make sure that billing is enabled for your Google Cloud project.

  5. Vérifiez que l'API BigQuery est activée.

    Activer l'API

    Si vous avez créé un nouveau projet, l'API BigQuery est automatiquement activée.

Autorisations requises

Pour créer et exécuter des notebooks, vous avez besoin des rôles IAM (Identity and Access Management) suivants :

Créer un notebook

Suivez les instructions de la section Créer un notebook à partir de l'éditeur BigQuery pour créer un notebook.

Essayer BigQuery DataFrames

Essayez BigQuery DataFrames en procédant comme suit :

  1. Créez une nouvelle cellule de code dans le notebook.
  2. Copiez le code suivant et collez-le dans la cellule de code :

    import bigframes.pandas as bpd
    
    # Set BigQuery DataFrames options
    bpd.options.bigquery.project = your_gcp_project_id
    bpd.options.bigquery.location = "us"
    
    # Create a DataFrame from a BigQuery table
    query_or_table = "bigquery-public-data.ml_datasets.penguins"
    df = bpd.read_gbq(query_or_table)
    
    # Use the DataFrame just as you would a pandas DataFrame, but calculations
    # happen in the BigQuery query engine instead of the local system.
    average_body_mass = df["body_mass_g"].mean()
    print(f"average_body_mass: {average_body_mass}")
    
    # Create the Linear Regression model
    from bigframes.ml.linear_model import LinearRegression
    
    # Filter down to the data we want to analyze
    adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"]
    
    # Drop the columns we don't care about
    adelie_data = adelie_data.drop(columns=["species"])
    
    # Drop rows with nulls to get our training data
    training_data = adelie_data.dropna()
    
    # Pick feature columns and label column
    X = training_data[
        [
            "island",
            "culmen_length_mm",
            "culmen_depth_mm",
            "flipper_length_mm",
            "sex",
        ]
    ]
    y = training_data[["body_mass_g"]]
    
    model = LinearRegression(fit_intercept=False)
    model.fit(X, y)
    model.score(X, y)
    
  3. Modifiez la ligne bpd.options.bigquery.project = your_gcp_project_id pour spécifier votre projet, par exemple bpd.options.bigquery.project = "myproject".

  4. Exécutez la cellule de code.

    La cellule de code renvoie la masse moyenne du pingouin dans l'ensemble de données, puis renvoie les métriques d'évaluation du modèle.

Effectuer un nettoyage

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Étapes suivantes

Consultez le notebook Premiers pas avec BigQuery DataFrames.