Se usó la API de Cloud Translation para traducir esta página.

Explora los resultados de las consultas en los notebooks

Puedes explorar los resultados de consultas de BigQuery con los notebooks de Colab Enterprise en BigQuery.

En este instructivo, consultarás datos de un conjunto de datos públicos de BigQuery y explorarás los resultados de las consultas en un notebook.

Objetivos

Crear y ejecutar una consulta en BigQuery.
Explora los resultados de las consultas en un notebook.

Costos

En este instructivo, se usa un conjunto de datos disponible a través del Google Cloud Programa de conjuntos de datos públicos. Google cubre los costos de almacenamiento de estos conjuntos de datos y proporciona acceso público a los datos. Se generarán cargos por las consultas que realices en los datos. Para obtener más información, consulta los precios de BigQuery.

Antes de comenzar

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Make sure that billing is enabled for your Google Cloud project.
Enable the BigQuery API.
Enable the API

En los proyectos nuevos, BigQuery se habilita de forma automática.

Habilita BigQuery Studio

Sigue las instrucciones en Habilita BigQuery Studio para la administración de elementos a fin de guardar, compartir y administrar versiones de recursos de código, como los notebooks.

Permisos necesarios

Para crear y ejecutar notebooks, necesitas los siguientes roles de Identity and Access Management (IAM):

Abre los resultados de una consulta en un notebook

Puedes ejecutar una consulta en SQL y, luego, usar un notebook para explorar los datos. Este enfoque es útil si deseas modificar los datos en BigQuery antes de trabajar con ellos, o si solo necesitas un subconjunto de los campos de la tabla.

En la consola de Google Cloud, ve a la página de BigQuery.

Ir a BigQuery
En el campo Comienza a escribir para buscar, ingresa bigquery-public-data.

Si no se muestra el proyecto, ingresa bigquery en el campo de búsqueda y, luego, haz clic en Ampliar la búsqueda a todos los proyectos para que la string de búsqueda coincida con los conjuntos de datos existentes.
Selecciona bigquery-public-data > ml_datasets > pingüinos.
Para la tabla pingüinos, haz clic en Ver acciones y, luego, en Consultar.
Agrega un asterisco (*) para la selección de campos a la consulta generada, de modo que se lea como el siguiente ejemplo:
```
SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
```
Haz clic en Ejecutar.
En la sección Resultados de la consulta, haz clic en Explorar datos y, luego, en Explorar con el notebook de Python.

Prepara el notebook para usarlo

Prepara el notebook para usarlo a través de la conexión a un entorno de ejecución y la configuración de valores predeterminados de la aplicación.

En el encabezado del notebook, haz clic en Conectar para conectarte al entorno de ejecución predeterminado.
En el bloque de código Configuración, haz clic en Ejecutar celda.

Explore los datos

Para cargar los datos de los pingüinos en un DataFrame de BigQuery y mostrar los resultados, haz clic en Ejecutar celda en la bloque de código en la sección Conjunto de resultados cargado desde un trabajo de BigQuery como un DataFrame.
Para obtener métricas descriptivas de los datos, haz clic en Ejecutar celda en el bloque de código de la sección Mostrar estadísticas descriptivas mediante describe().
Opcional: Usa otras funciones o paquetes de Python para explorar y analizar los datos.

En el siguiente ejemplo de código, se muestra cómo usar bigframes.pandas para analizar datos y bigframes.ml a fin de crear un modelo de regresión lineal de pingüinos en un DataFrame de BigQuery:

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

La manera más fácil de eliminar la facturación es borrar el proyecto de Google Cloud que creaste para este instructivo.

Precaución: Borrar un proyecto tiene las siguientes consecuencias:

Se borra todo en el proyecto. Si usaste un proyecto existente para las tareas de este documento, cuando lo borres, también se borrará cualquier otro trabajo que hayas realizado en el proyecto.
Se pierden los ID personalizados de proyectos. Cuando creaste este proyecto, es posible que hayas creado un ID del proyecto personalizado que desees utilizar en el futuro. Para conservar las URL que utilizan el ID del proyecto, como una URL appspot.com, borra los recursos seleccionados dentro del proyecto en lugar de borrar todo el proyecto.

Si planeas explorar varias infraestructuras, instructivos y guías de inicio rápido la reutilización de proyectos puede ayudarte a evitar exceder los límites de las cuotas del proyecto.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

¿Qué sigue?

Obtén más información sobre la creación de notebooks en BigQuery.
Obtén más información sobre cómo explorar datos con BigQuery DataFrames.