Explora los resultados de las consultas en los notebooks


Puedes explorar los resultados de consultas de BigQuery con los notebooks de Colab Enterprise en BigQuery.

En este instructivo, consultarás datos de un conjunto de datos públicos de BigQuery y explorarás los resultados de las consultas en un notebook.

Objetivos

  • Crear y ejecutar una consulta en BigQuery.
  • Explora los resultados de las consultas en un notebook.

Costos

En este instructivo se usa un conjunto de datos disponible a través del Programa de conjuntos de datos públicos de Google Cloud. Google cubre los costos de almacenamiento de estos conjuntos de datos y proporciona acceso público a los datos. Se generarán cargos por las consultas que realices en los datos. Para obtener más información, consulta los Precios de BigQuery.

Antes de comenzar

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Enable the BigQuery API.

    Enable the API

    En los proyectos nuevos, BigQuery se habilita de forma automática.

Habilita BigQuery Studio

Sigue las instrucciones en Habilita BigQuery Studio para la administración de elementos a fin de guardar, compartir y administrar versiones de recursos de código, como los notebooks.

Permisos necesarios

Para crear y ejecutar notebooks, necesitas los siguientes roles de Identity and Access Management (IAM):

Abre los resultados de una consulta en un notebook

Puedes ejecutar una consulta en SQL y, luego, usar un notebook para explorar los datos. Este enfoque es útil si deseas modificar los datos en BigQuery antes de trabajar con ellos, o si solo necesitas un subconjunto de los campos de la tabla.

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el campo Comienza a escribir para buscar, ingresa bigquery-public-data.

    Si no se muestra el proyecto, ingresa bigquery en el campo de búsqueda y, luego, haz clic en Ampliar la búsqueda a todos los proyectos para que la string de búsqueda coincida con los conjuntos de datos existentes.

  3. Selecciona bigquery-public-data > ml_datasets > pingüinos.

  4. Para la tabla pingüinos, haz clic en Ver acciones y, luego, en Consultar.

  5. Agrega un asterisco (*) para la selección de campos a la consulta generada, de modo que se lea como el siguiente ejemplo:

    SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
    
  6. Haz clic en Ejecutar.

  7. En la sección Resultados de la consulta, haz clic en Explorar datos y, luego, en Explorar con el notebook de Python.

Prepara el notebook para usarlo

Prepara el notebook para usarlo a través de la conexión a un entorno de ejecución y la configuración de valores predeterminados de la aplicación.

  1. En el encabezado del notebook, haz clic en Conectar para conectarte al entorno de ejecución predeterminado.
  2. En el bloque de código Configuración, haz clic en Ejecutar celda.

Explore los datos

  1. Para cargar los datos de los pingüinos en un DataFrame de BigQuery y mostrar los resultados, haz clic en Ejecutar celda en la bloque de código en la sección Conjunto de resultados cargado desde un trabajo de BigQuery como un DataFrame.
  2. Para obtener métricas descriptivas de los datos, haz clic en Ejecutar celda en el bloque de código de la sección Mostrar estadísticas descriptivas mediante describe().
  3. Opcional: Usa otras funciones o paquetes de Python para explorar y analizar los datos.

En el siguiente ejemplo de código, se muestra cómo usar bigframes.pandas para analizar datos y bigframes.ml a fin de crear un modelo de regresión lineal de pingüinos en un DataFrame de BigQuery:

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

La manera más fácil de eliminar la facturación es borrar el proyecto de Google Cloud que creaste para este instructivo.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

¿Qué sigue?