Esplora i risultati delle query nei blocchi note


Puoi esplorare i risultati delle query di BigQuery utilizzando i blocchi note di Colab Enterprise in BigQuery.

In questo tutorial, eseguirai query sui dati di un set di dati pubblico BigQuery ed esplorerai i risultati della query in un blocco note.

Obiettivi

  • Crea ed esegui una query in BigQuery.
  • Esplora i risultati della query in un blocco note.

Costi

Questo tutorial utilizza un set di dati disponibile tramite il programma per i set di dati pubblici di Google Cloud. Google paga per l'archiviazione di questi set di dati e fornisce l'accesso pubblico ai dati. Ti vengono addebitati dei costi per le query eseguite sui dati. Per ulteriori informazioni, consulta la pagina relativa ai prezzi di BigQuery.

Prima di iniziare

  1. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  2. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  3. Attiva BigQuery API.

    Abilita l'API

    Per i nuovi progetti, BigQuery viene abilitato automaticamente.

Abilita BigQuery Studio

Segui le istruzioni in Abilitare BigQuery Studio per la gestione degli asset per salvare, condividere e gestire le versioni di asset di codice come i blocchi note.

Autorizzazioni obbligatorie

Per creare ed eseguire blocchi note, devi disporre dei seguenti ruoli Identity and Access Management (IAM):

Apri i risultati della query in un blocco note

Puoi eseguire una query SQL e poi utilizzare un blocco note per esplorare i dati. Questo approccio è utile se vuoi modificare i dati in BigQuery prima di utilizzarli o se ti serve solo un sottoinsieme dei campi della tabella.

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel campo Digita per effettuare la ricerca, inserisci bigquery-public-data.

    Se il progetto non viene visualizzato, inserisci bigquery nel campo di ricerca, quindi fai clic su Cerca in tutti i progetti per associare la stringa di ricerca ai progetti esistenti.

  3. Seleziona bigquery-public-data > ml_ dataset > pinguini.

  4. Per la tabella dei pinguini, fai clic su Visualizza azioni e poi su Query.

  5. Aggiungi un asterisco (*) per la selezione dei campi alla query generata, in modo che risulti come l'esempio seguente:

    SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
    
  6. Fai clic su Esegui.

  7. Nella sezione Risultati delle query, fai clic su Esplora i dati e poi su Esplora con blocco note Python.

Prepara il blocco note per l'utilizzo

Prepara il blocco note per l'uso connettendoti a un runtime e impostando i valori predefiniti dell'applicazione.

  1. Nell'intestazione del blocco note, fai clic su Connetti per connetterti al runtime predefinito.
  2. Nel blocco di codice Configura, fai clic su Esegui cella.

esplora i dati

  1. Per caricare i dati dei penguins in un DataFrame BigQuery e visualizzare i risultati, fai clic su Esegui cella nel blocco di codice nella sezione Set di risultati caricato dal job BigQuery come DataFrame.
  2. Per ottenere metriche descrittive per i dati, fai clic su Esegui cella nel blocco di codice nella sezione Mostra statistiche descrittive utilizzando describe().
  3. (Facoltativo) Utilizza altre funzioni o pacchetti Python per esplorare e analizzare i dati.

Il seguente esempio di codice mostra l'uso di bigframes.pandas per analizzare i dati e bigframes.ml per creare un modello di regressione lineare a partire dai dati di pinguini in un DataFrame BigQuery:

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

Esegui la pulizia

Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Il modo più semplice per eliminare la fatturazione è eliminare il progetto Google Cloud che hai creato per questo tutorial.

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi