Puedes explorar los resultados de consultas de BigQuery con los notebooks de Colab Enterprise en BigQuery.
En este instructivo, consultarás datos de un conjunto de datos públicos de BigQuery y explorarás los resultados de las consultas en un notebook.
Objetivos
- Crear y ejecutar una consulta en BigQuery.
- Explora los resultados de las consultas en un notebook.
Costos
En este instructivo se usa un conjunto de datos disponible a través del Programa de conjuntos de datos públicos de Google Cloud. Google cubre los costos de almacenamiento de estos conjuntos de datos y proporciona acceso público a los datos. Se generarán cargos por las consultas que realices en los datos. Para obtener más información, consulta los Precios de BigQuery.
Antes de comenzar
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
En los proyectos nuevos, BigQuery se habilita de forma automática.
Habilita BigQuery Studio
Sigue las instrucciones en Habilita BigQuery Studio para la administración de elementos a fin de guardar, compartir y administrar versiones de recursos de código, como los notebooks.
Permisos necesarios
Para crear y ejecutar notebooks, necesitas los siguientes roles de Identity and Access Management (IAM):
- Usuario de BigQuery (
roles/bigquery.user
) - Usuario del entorno de ejecución del notebook (
roles/aiplatform.notebookRuntimeUser
) - Creador de código (
roles/dataform.codeCreator
)
Abre los resultados de una consulta en un notebook
Puedes ejecutar una consulta en SQL y, luego, usar un notebook para explorar los datos. Este enfoque es útil si deseas modificar los datos en BigQuery antes de trabajar con ellos, o si solo necesitas un subconjunto de los campos de la tabla.
En la consola de Google Cloud, ve a la página de BigQuery.
En el campo Comienza a escribir para buscar, ingresa
bigquery-public-data
.Si no se muestra el proyecto, ingresa
bigquery
en el campo de búsqueda y, luego, haz clic en Ampliar la búsqueda a todos los proyectos para que la string de búsqueda coincida con los conjuntos de datos existentes.Selecciona bigquery-public-data > ml_datasets > pingüinos.
Para la tabla pingüinos, haz clic en
Ver acciones y, luego, en Consultar.Agrega un asterisco (
*
) para la selección de campos a la consulta generada, de modo que se lea como el siguiente ejemplo:SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
Haz clic en
Ejecutar.En la sección Resultados de la consulta, haz clic en Explorar datos y, luego, en Explorar con el notebook de Python.
Prepara el notebook para usarlo
Prepara el notebook para usarlo a través de la conexión a un entorno de ejecución y la configuración de valores predeterminados de la aplicación.
- En el encabezado del notebook, haz clic en Conectar para conectarte al entorno de ejecución predeterminado.
- En el bloque de código Configuración, haz clic en Ejecutar celda.
Explore los datos
- Para cargar los datos de los pingüinos en un DataFrame de BigQuery y mostrar los resultados, haz clic en Ejecutar celda en la bloque de código en la sección Conjunto de resultados cargado desde un trabajo de BigQuery como un DataFrame.
- Para obtener métricas descriptivas de los datos, haz clic en Ejecutar celda en el bloque de código de la sección Mostrar estadísticas descriptivas mediante describe().
- Opcional: Usa otras funciones o paquetes de Python para explorar y analizar los datos.
En el siguiente ejemplo de código, se muestra cómo usar bigframes.pandas
para analizar datos y bigframes.ml
a fin de crear un modelo de regresión lineal de pingüinos en un DataFrame de BigQuery:
Limpia
Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.
La manera más fácil de eliminar la facturación es borrar el proyecto de Google Cloud que creaste para este instructivo.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
¿Qué sigue?
- Obtén más información sobre la creación de notebooks en BigQuery.
- Obtén más información sobre cómo explorar datos con BigQuery DataFrames.