Puedes explorar los resultados de consultas de BigQuery con los notebooks de Colab Enterprise en BigQuery.
En este instructivo, debes consultar datos de un conjunto de datos públicos de BigQuery y explorar los resultados de las consultas en un notebook.
Objetivos
- Crea y ejecuta una consulta en BigQuery.
- Explora los resultados de las consultas en un notebook.
Costos
En este instructivo se usa un conjunto de datos disponible a través del Programa de conjuntos de datos públicos de Google Cloud. Google cubre los costos de almacenamiento de estos conjuntos de datos y proporciona acceso público a los datos. Se generarán cargos por las consultas que realices en los datos. Para obtener más información, consulta los Precios de BigQuery.
Antes de comenzar
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Habilita BigQuery API.
En los proyectos nuevos, BigQuery se habilita de forma automática.
Habilita BigQuery Studio
Sigue las instrucciones en Habilita BigQuery Studio para la administración de elementos a fin de guardar, compartir y administrar versiones de recursos de código, como los notebooks.
Permisos necesarios
Para crear y ejecutar notebooks, necesitas los siguientes roles de Identity and Access Management (IAM):
- Usuario de BigQuery (
roles/bigquery.user
) - Usuario del entorno de ejecución del notebook (
roles/aiplatform.notebookRuntimeUser
) - Creador de código (
roles/dataform.codeCreator
)
Abre los resultados de una consulta en un notebook
Puedes ejecutar una consulta de SQL y, luego, usar un notebook para explorar los datos. Este enfoque es útil si deseas modificar los datos en BigQuery antes de trabajar con ellos o si solo necesitas un subconjunto de los campos de la tabla.
En la consola de Google Cloud, ve a la página de BigQuery.
En el campo Comienza a escribir para buscar, ingresa
bigquery-public-data
.Si no se muestra el proyecto, ingresa
bigquery
en el campo de búsqueda y, luego, haz clic en Ampliar la búsqueda a todos los proyectos para que la string de búsqueda coincida con los conjuntos de datos existentes.Selecciona bigquery-public-data > ml_datasets > pingüinos.
Para la tabla pingüinos, haz clic en
Ver acciones y, luego, en Consultar.Agrega un asterisco (
*
) para la selección del campo a la consulta generada, de modo que se lea como el siguiente ejemplo:SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
Haz clic en
Ejecutar.En la sección Resultados de la consulta, haz clic en Explorar datos y, luego, en Explorar con el notebook de Python.
Prepara el notebook para usarlo
Para preparar el notebook a fin de usarlo, conéctate a un entorno de ejecución y configura los valores predeterminados de la aplicación.
- En el encabezado del notebook, haz clic en Conectar para conectarte al entorno de ejecución predeterminado.
- En el bloque de código Configuración, haz clic en Ejecutar celda.
Explore los datos
- Para cargar los datos de los pingüinos en un DataFrame de BigQuery y mostrar los resultados, haz clic en Ejecutar celda en la bloque de código en la sección Conjunto de resultados cargado desde un trabajo de BigQuery como un DataFrame.
- Para obtener métricas descriptivas de los datos, haz clic en Ejecutar celda en el bloque de código de la sección Mostrar estadísticas descriptivas mediante describe().
- Opcional: Usa otras funciones o paquetes de Python para explorar y analizar los datos.
En el siguiente ejemplo de código, se muestra cómo usar bigframes.pandas
para analizar datos y bigframes.ml
a fin de crear un modelo de regresión lineal de pingüinos en un DataFrame de BigQuery:
Limpia
Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.
La manera más fácil de eliminar la facturación es borrar el proyecto de Google Cloud que creaste para este instructivo.
- En la consola de Google Cloud, ve a la página Administrar recursos.
- En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
- En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.
¿Qué sigue?
- Obtén más información sobre la creación de notebooks en BigQuery.
- Obtén más información sobre cómo explorar datos con BigQuery DataFrames.