Usa BigQuery ML per prevedere il peso dei pinguini


In questo tutorial utilizzerai un modello di regressione lineare in BigQuery ML per prevedere il peso di un pinguino in base alle sue informazioni demografiche. Una regressione lineare è un tipo di regressione che genera un valore continuo da una combinazione lineare di input le funzionalità di machine learning.

Questo tutorial utilizza bigquery-public-data.ml_datasets.penguins del set di dati.

Obiettivi

In questo tutorial, imparerai a:

  • Creare un modello di regressione lineare.
  • Valutare il modello.
  • Fai previsioni utilizzando il modello.

Costi

Questo tutorial utilizza componenti fatturabili di Google Cloud, tra cui:

  • BigQuery
  • BigQuery ML

Per ulteriori informazioni sui costi di BigQuery, consulta Prezzi di BigQuery.

Per ulteriori informazioni sui costi di BigQuery ML, consulta Prezzi di BigQuery ML.

Prima di iniziare

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Enable the BigQuery API.

    Enable the API

Autorizzazioni obbligatorie

Per creare il modello utilizzando BigQuery ML, è necessario quanto segue Autorizzazioni IAM:

  • bigquery.jobs.create
  • bigquery.models.create
  • bigquery.models.getData
  • bigquery.models.updateData
  • bigquery.models.updateMetadata

Per eseguire l'inferenza, devi disporre delle seguenti autorizzazioni:

  • bigquery.models.getData sul modello
  • bigquery.jobs.create

Crea un set di dati

Crea un set di dati BigQuery per archiviare il tuo modello ML:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai alla pagina di BigQuery

  2. Nel riquadro Explorer, fai clic sul nome del progetto.

  3. Fai clic su Visualizza azioni > Crea set di dati.

    Crea il set di dati.

  4. Nella pagina Crea set di dati:

    • In ID set di dati, inserisci bqml_tutorial.

    • Per Tipo di località, seleziona Più regioni e poi Stati Uniti (più regioni negli Stati Uniti).

      I set di dati pubblici sono archiviati nella US multiregione. Per semplicità, archivia il set di dati nella stessa posizione.

    • Lascia invariate le restanti impostazioni predefinite e fai clic su Crea set di dati.

      Pagina Crea set di dati.

Crea il modello

Crea un modello di regressione lineare utilizzando il set di dati di esempio di Analytics per BigQuery.

SQL

Puoi creare un modello di regressione lineare utilizzando l'istruzione CREATE MODEL e specificando LINEAR_REG per il tipo di modello. La creazione del modello include anche la sua addestramento.

Di seguito sono riportate informazioni utili in merito all'istruzione CREATE MODEL:

  • La input_label_cols specifica quale colonna dell'istruzione SELECT da utilizzare come colonna dell'etichetta. In questo caso, la colonna dell'etichetta è body_mass_g. Per i modelli di regressione lineare, la colonna dell'etichetta deve avere valori reali, ovvero i valori della colonna devono essere numeri reali.
  • L'istruzione SELECT di questa query utilizza le seguenti colonne della tabella bigquery-public-data.ml_datasets.penguins per prevedere il peso di un pinguino:

    • species: la specie del pinguino.
    • island: l'isola su cui risiede il pinguino.
    • culmen_length_mm: la lunghezza in millimetri del culmen del pinguino.
    • culmen_depth_mm: la profondità del culmen del pinguino in millimetri.
    • flipper_length_mm: la lunghezza delle pinne del pinguino in millimetri.
    • sex: il sesso del pinguino.
  • La clausola WHERE nell'istruzione SELECT di questa query, WHERE body_mass_g IS NOT NULL, esclude le righe in cui la colonna body_mass_g è NULL.

Esegui la query che crea il modello di regressione lineare:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nell'editor query, esegui questa query:

    CREATE OR REPLACE MODEL `bqml_tutorial.penguins_model`
    OPTIONS
      (model_type='linear_reg',
      input_label_cols=['body_mass_g']) AS
    SELECT
      *
    FROM
      `bigquery-public-data.ml_datasets.penguins`
    WHERE
      body_mass_g IS NOT NULL;
  3. La creazione del modello penguins_model richiede circa 30 secondi. Per vedere le apri il riquadro Explorer, espandi il set di dati bqml_tutorial e ed espandi la cartella Modelli.

DataFrame BigQuery

Prima di provare questo esempio, segui le istruzioni di configurazione di BigQuery DataFrames riportate nella guida introduttiva di BigQuery che utilizza BigQuery DataFrames. Per ulteriori informazioni, consulta Documentazione di riferimento di BigQuery DataFrames.

Per autenticarti a BigQuery, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Impostare l'autenticazione per un ambiente di sviluppo locale.

from bigframes.ml.linear_model import LinearRegression
import bigframes.pandas as bpd

# Load data from BigQuery
bq_df = bpd.read_gbq("bigquery-public-data.ml_datasets.penguins")

# Drop rows with nulls to get training data
training_data = bq_df.dropna(subset=["body_mass_g"])

# Specify your feature (or input) columns and the label (or output) column:
feature_columns = training_data.drop(columns=["body_mass_g"])
label_columns = training_data[["body_mass_g"]]

# Create the linear model
model = LinearRegression()
model.fit(feature_columns, label_columns)
model.to_gbq(
    your_model_id,  # For example: "bqml_tutorial.penguins_model"
    replace=True,
)

Per creare il modello sono necessari circa 30 secondi. Per visualizzare il modello, vai su Explorer ed espandi il set di dati bqml_tutorial, quindi espandi la cartella Modelli.

Ottieni le statistiche di addestramento

Per visualizzare i risultati dell'addestramento del modello, puoi utilizzare la funzione ML.TRAINING_INFO o visualizzare le statistiche nella console Google Cloud. In questo usi la console Google Cloud.

Un algoritmo di machine learning crea un modello esaminando molti esempi e cercando di trovare un modello che minimizzi la perdita. Questo processo è noto come minimizzazione empirica del rischio.

La perdita è la penalità per una previsione errata. È un numero che indica la qualità della previsione del modello su un singolo esempio. Se la previsione del modello è perfetta, la perdita è zero; in caso contrario, la perdita è maggiore. L'obiettivo dell'addestramento di un modello è trovare un insieme di ponderazioni e bias che presentino, in media, una perdita lieve in tutti gli esempi.

Visualizza le statistiche di addestramento del modello generate durante l'esecuzione della queryCREATE MODEL:

  1. Nel riquadro Explorer, espandi il set di dati bqml_tutorial e quindi la cartella Modelli. Fai clic su penguins_model per aprire il riquadro delle informazioni sul modello.

  2. Fai clic sulla scheda Addestramento e quindi su Tabella. I risultati dovrebbero essere simili ai seguenti:

    Output ML.TRAINING_INFO

    La colonna Perdita di dati di addestramento rappresenta la metrica relativa alla perdita calcolata dopo che il modello è stato addestrato sul set di dati di addestramento. Dato che hai eseguito un regressione lineare, questa colonna mostra errore quadratico medio valore. Per questo addestramento viene utilizzata automaticamente una strategia di ottimizzazione normal_equation, pertanto è necessaria una sola iterazione per convergere al modello finale. Per ulteriori informazioni su come impostare la strategia di ottimizzazione del modello, consulta optimize_strategy.

Valuta il modello

Dopo aver creato il modello, valuta le sue prestazioni utilizzando la funzione ML.EVALUATE. La funzione ML.EVALUATE valuta i valori previsti generati dal modello rispetto ai dati effettivi.

Per l'input, la funzione ML.EVALUATE prende il modello addestrato e un set di dati che corrisponde allo schema dei dati utilizzati per addestrare il modello. In un ambiente di produzione, devi valutare il modello su dati diversi da quelli utilizzati per addestrarlo. Se esegui ML.EVALUATE senza fornire dati di input, la funzione recupera le metriche di valutazione calcolate durante l'addestramento. Queste metriche vengono calcolate utilizzando il set di dati di valutazione riservato automaticamente:

SELECT
  *
FROM
  ML.EVALUATE(MODEL `bqml_tutorial.penguins_model`);

Esegui la query ML.EVALUATE:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nell'editor query, esegui questa query:

    SELECT
      *
    FROM
      ML.EVALUATE(MODEL `bqml_tutorial.penguins_model`,
        (
        SELECT
          *
        FROM
          `bigquery-public-data.ml_datasets.penguins`
        WHERE
          body_mass_g IS NOT NULL));
  3. I risultati dovrebbero essere simili ai seguenti:

    Output di ML.EVALUATE

    Poiché hai eseguito una regressione lineare, i risultati includono le seguenti colonne:

    • mean_absolute_error
    • mean_squared_error
    • mean_squared_log_error
    • median_absolute_error
    • r2_score
    • explained_variance

Una metrica importante nei risultati della valutazione è il coefficiente R2. Il coefficiente R2 è una misura statistica che determina se le previsioni della regressione lineare si avvicinano ai dati effettivi. Un valore pari a 0 indica che il modello non spiega nessuna delle variabilità dei dati di risposta attorno alla media. Un valore 1 indica che il modello spiega tutta la variabilità degli dati di risposta attorno alla media.

Puoi anche esaminare il riquadro delle informazioni del modello nella console Google Cloud per visualizzare le metriche di valutazione:

Output ML.EVALUATE

Utilizza il modello per prevedere i risultati

Ora che hai valutato il modello, il passaggio successivo consiste nell'utilizzarlo per prevedere un risultato. Puoi eseguire Funzione ML.PREDICT del modello per prevedere la massa corporea in grammi di tutti i pinguini che vivono Isole Biscoe.

Per l'input, la funzione ML.PREDICT prende il modello addestrato e un set di dati che corrisponda allo schema dei dati utilizzati per addestrare il modello, tranne .

Esegui la query ML.PREDICT:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nell'editor query, esegui questa query:

    SELECT
      *
    FROM
      ML.PREDICT(MODEL `bqml_tutorial.penguins_model`,
        (
        SELECT
          *
        FROM
          `bigquery-public-data.ml_datasets.penguins`
        WHERE island = 'Biscoe'));
  3. I risultati dovrebbero essere simili ai seguenti:

    Output ML.PREDICT

Spiega i risultati della previsione

Per capire perché il modello sta generando questi risultati di previsione, puoi utilizzare la funzione ML.EXPLAIN_PREDICT.

ML.EXPLAIN_PREDICT è una versione estesa della funzione ML.PREDICT. ML.EXPLAIN_PREDICT non solo restituisce i risultati della previsione, ma anche colonne aggiuntive per spiegarli. In pratica, puoi eseguire ML.EXPLAIN_PREDICT anziché ML.PREDICT. Per ulteriori informazioni, vedi Panoramica di BigQuery ML Explainable AI.

Esegui la query ML.EXPLAIN_PREDICT:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nell'editor di query, esegui la seguente query:

    SELECT
    *
    FROM
    ML.EXPLAIN_PREDICT(MODEL `bqml_tutorial.penguins_model`,
      (
      SELECT
        *
      FROM
        `bigquery-public-data.ml_datasets.penguins`
      WHERE island = 'Biscoe'),
      STRUCT(3 as top_k_features));
  3. I risultati dovrebbero essere simili ai seguenti:

    Output di ML.EXPLAIN_PREDICT

Per i modelli di regressione lineare, vengono utilizzati i valori di Shapley per generare caratteristiche i valori di attribuzione per ogni caratteristica del modello. ML.EXPLAIN_PREDICT restituisce le tre attribuzioni di caratteristiche principali per riga della tabella penguins perché top_k_features è stato impostato su 3 nella query. Queste attribuzioni sono ordinate in base al valore assoluto dell'attribuzione in ordine decrescente. In tutti gli esempi, il valore la caratteristica sex ha contribuito maggiormente alla previsione complessiva.

Spiega il modello a livello globale

Per sapere quali caratteristiche sono generalmente le più importanti per l'individuazione dei pinguini puoi utilizzare Funzione ML.GLOBAL_EXPLAIN. Per utilizzare ML.GLOBAL_EXPLAIN, devi riaddestrare il modello con Opzione ENABLE_GLOBAL_EXPLAIN impostata su TRUE.

Reimposta il modello e ottieni spiegazioni globali:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nell'editor di query, esegui la seguente query per addestrare nuovamente il modello:

    #standardSQL
    CREATE OR REPLACE MODEL `bqml_tutorial.penguins_model`
      OPTIONS (
        model_type = 'linear_reg',
        input_label_cols = ['body_mass_g'],
        enable_global_explain = TRUE)
    AS
    SELECT
      *
    FROM
      `bigquery-public-data.ml_datasets.penguins`
    WHERE
      body_mass_g IS NOT NULL;
  3. Nell'editor query, esegui questa query per ottenere spiegazioni globali:

    SELECT
      *
    FROM
      ML.GLOBAL_EXPLAIN(MODEL `bqml_tutorial.penguins_model`)
  4. I risultati dovrebbero essere simili ai seguenti:

    Output di ML.GLOBAL_EXPLAIN

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

  • Puoi eliminare il progetto che hai creato.
  • In alternativa, puoi conservare il progetto ed eliminare il set di dati.

Elimina il set di dati

L'eliminazione del progetto rimuove tutti i set di dati e tutte le tabelle nel progetto. Se preferisci riutilizzare il progetto, puoi eliminare il set di dati creato in questo tutorial:

  1. Se necessario, apri la pagina BigQuery nel nella console Google Cloud.

    Vai alla pagina di BigQuery

  2. Nel menu di navigazione, fai clic sul set di dati bqml_tutorial che hai creato.

  3. Fai clic su Elimina set di dati sul lato destro della finestra. Questa azione elimina il set di dati, la tabella e tutti i dati.

  4. Nella finestra di dialogo Elimina set di dati, conferma il comando di eliminazione digitando il nome del set di dati (bqml_tutorial) e fai clic su Elimina.

Elimina il progetto

Per eliminare il progetto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Passaggi successivi