Prova BigQuery DataFrames
Usa questa guida rapida per eseguire le seguenti analisi e machine learning (ML) delle attività utilizzando API BigQuery DataFrames in un Blocco note BigQuery:
- Crea un DataFrame su
bigquery-public-data.ml_datasets.penguins
un set di dati pubblico. - Calcolare la massa corporea media di un pinguino.
- Crea un modello di regressione lineare.
- Creare un DataFrame su un sottoinsieme dei dati penguin da utilizzare come dati di addestramento.
- Pulire i dati di addestramento.
- Imposta i parametri del modello.
- Adatta il modello.
- Assegna un punteggio al modello.
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
Assicurati che l'API BigQuery sia abilitata.
Se hai creato un nuovo progetto, l'API BigQuery viene automaticamente in un bucket in cui è abilitato il controllo delle versioni.
Autorizzazioni obbligatorie
Per creare ed eseguire blocchi note, è necessario quanto segue Identity and Access Management (IAM) ruoli:
- Utente BigQuery (
roles/bigquery.user
) - Utente runtime blocco note (
roles/aiplatform.notebookRuntimeUser
) - Creatore di codice (
roles/dataform.codeCreator
)
Crea un blocco note
Per creare un nuovo blocco note, segui le istruzioni riportate in Creare un blocco note dall'editor di BigQuery.
Prova BigQuery DataFrames
Per provare BigQuery DataFrames:
- Crea una nuova cella di codice nel blocco note.
Copia il seguente codice e incollalo nella cella del codice:
import bigframes.pandas as bpd # Set BigQuery DataFrames options bpd.options.bigquery.project = your_gcp_project_id bpd.options.bigquery.location = "us" # Create a DataFrame from a BigQuery table query_or_table = "bigquery-public-data.ml_datasets.penguins" df = bpd.read_gbq(query_or_table) # Use the DataFrame just as you would a pandas DataFrame, but calculations # happen in the BigQuery query engine instead of the local system. average_body_mass = df["body_mass_g"].mean() print(f"average_body_mass: {average_body_mass}") # Create the Linear Regression model from bigframes.ml.linear_model import LinearRegression # Filter down to the data we want to analyze adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"] # Drop the columns we don't care about adelie_data = adelie_data.drop(columns=["species"]) # Drop rows with nulls to get our training data training_data = adelie_data.dropna() # Pick feature columns and label column X = training_data[ [ "island", "culmen_length_mm", "culmen_depth_mm", "flipper_length_mm", "sex", ] ] y = training_data[["body_mass_g"]] model = LinearRegression(fit_intercept=False) model.fit(X, y) model.score(X, y)
Modifica la riga
bpd.options.bigquery.project = your_gcp_project_id
in e specificare il progetto, ad esempiobpd.options.bigquery.project = "myproject"
.Esegui la cella di codice.
La cella di codice restituisce la massa corporea media per i pinguini nel set di dati, restituisce le metriche di valutazione del modello.
Esegui la pulizia
Il modo più semplice per eliminare la fatturazione creato per il tutorial.
Per eliminare il progetto:
- Nella console Google Cloud, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.
Passaggi successivi
Prova il blocco note Introduzione a BigQuery DataFrames.