Prova BigQuery DataFrames

Utilizza questa guida rapida per eseguire le seguenti attività di analisi e machine learning (ML) utilizzando l'API BigQuery DataFrames in un blocco note di BigQuery:

  • Crea un DataFrame sul set di dati pubblico bigquery-public-data.ml_datasets.penguins.
  • Calcola la media della massa corporea di un pinguino.
  • Crea un modello di regressione lineare.
  • Crea un DataFrame su un sottoinsieme dei dati del pinguino da utilizzare come dati di addestramento.
  • Ripulisci i dati di addestramento.
  • Imposta i parametri del modello.
  • Adatta il modello.
  • Assegna un punteggio al modello.

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  4. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  5. Assicurati che l'API BigQuery sia abilitata.

    Abilita l'API

    Se hai creato un nuovo progetto, l'API BigQuery viene abilitata automaticamente.

Autorizzazioni obbligatorie

Per creare ed eseguire blocchi note, devi disporre dei seguenti ruoli Identity and Access Management (IAM):

Crea un blocco note

Per creare un nuovo blocco note, segui le istruzioni riportate in Creare un blocco note dall'editor BigQuery.

Prova BigQuery DataFrames

Per provare BigQuery DataFrames, segui questi passaggi:

  1. Crea una nuova cella di codice nel blocco note.
  2. Copia il seguente codice e incollalo nella cella di codice:

    import bigframes.pandas as bpd
    
    # Set BigQuery DataFrames options
    bpd.options.bigquery.project = your_gcp_project_id
    bpd.options.bigquery.location = "us"
    
    # Create a DataFrame from a BigQuery table
    query_or_table = "bigquery-public-data.ml_datasets.penguins"
    df = bpd.read_gbq(query_or_table)
    
    # Use the DataFrame just as you would a pandas DataFrame, but calculations
    # happen in the BigQuery query engine instead of the local system.
    average_body_mass = df["body_mass_g"].mean()
    print(f"average_body_mass: {average_body_mass}")
    
    # Create the Linear Regression model
    from bigframes.ml.linear_model import LinearRegression
    
    # Filter down to the data we want to analyze
    adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"]
    
    # Drop the columns we don't care about
    adelie_data = adelie_data.drop(columns=["species"])
    
    # Drop rows with nulls to get our training data
    training_data = adelie_data.dropna()
    
    # Pick feature columns and label column
    X = training_data[
        [
            "island",
            "culmen_length_mm",
            "culmen_depth_mm",
            "flipper_length_mm",
            "sex",
        ]
    ]
    y = training_data[["body_mass_g"]]
    
    model = LinearRegression(fit_intercept=False)
    model.fit(X, y)
    model.score(X, y)
    
  3. Modifica la riga bpd.options.bigquery.project = your_gcp_project_id per specificare il tuo progetto, ad esempio bpd.options.bigquery.project = "myproject".

  4. Esegui la cella di codice.

    La cella di codice restituisce la massa corporea media dei pinguini nel set di dati e poi restituisce le metriche di valutazione per il modello.

Esegui la pulizia

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi

Prova il blocco note Introduzione a BigQuery DataFrames.