Usa BigQuery DataFrames
Para obtener asistencia durante la vista previa, envía un correo electrónico a bigframes-feedback@google.com.
En este documento, se describe cómo puedes usar los BigQuery DataFrames para analizar y manipular datos en un notebook de BigQuery.
BigQuery DataFrames es una biblioteca cliente de Python que puedes usar para analizar datos y realizar tareas de aprendizaje automático en notebooks de BigQuery.
BigQuery DataFrames consta de las siguientes partes:
bigframes.pandas
implementa una API similar a Pandas sobre BigQuery.bigframes.ml
implementa una API similar a scikit-learn sobre BigQuery ML.
Antes de comenzar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
Asegúrate de que la API de BigQuery esté habilitada.
Si creaste un proyecto nuevo, la API de BigQuery se habilita automáticamente.
Permisos necesarios
Para usar BigQuery DataFrames en un notebook de BigQuery, necesitas las siguientes funciones de Identity and Access Management (IAM):
- Usuario de BigQuery (
roles/bigquery.user
) - Usuario del entorno de ejecución del notebook (
roles/aiplatform.notebookRuntimeUser
) - Creador de código (
roles/dataform.codeCreator
)
Crea un notebook
Sigue las instrucciones en Crea un notebook desde el editor de BigQuery para crear un notebook nuevo.
Configura las opciones de BigQuery DataFrames
Después de la instalación, debes especificarubicación yproyecto en la que desea usar BigQuery DataFrames.
Puedes definir la ubicación y el proyecto en el notebook de la siguiente manera:
Usa bigframes.pandas
La API de bigframes.pandas
proporciona una API similar a pandas
que puedes usar para analizar y manipular datos en BigQuery. La API de bigframes.pandas
es escalable para admitir el procesamiento de terabytes de datos de BigQuery y usa el motor de consulta de BigQuery para realizar cálculos.
La API de bigframes.pandas
proporciona las siguientes funciones:
- INPUT y OUTPUT
- Puedes acceder a los datos de una variedad de fuentes, incluidos los archivos CSV locales, los archivos de Cloud Storage, los DataFrames
pandas
, los modelos de BigQuery y las funciones de BigQuery, y cargarlos en DataFrame de BigQuery. También puedes crear tablas de BigQuery DataFrames de BigQuery. - Manipulación de datos
- Puedes usar Python en lugar de SQL para el desarrollo.
Puedes desarrollar todas las manipulaciones de datos de BigQuery en Python, lo que elimina la necesidad de cambiar entre lenguajes y de capturar instrucciones de SQL como cadenas de texto. La API
bigframes.pandas
ofrece más de 250 funcionespandas
. - Ecosistema y visualizaciones de Python
- La API de
bigframes.pandas
es una puerta de enlace al ecosistema completo de herramientas de Python. La API es compatible con operaciones estadísticas avanzadas, y puedes visualizar las agregaciones generadas a partir de BigQuery DataFrames. También puedes cambiar de un DataFrame de BigQuery a un DataFrame depandas
con operaciones de muestreo integradas. - Funciones personalizadas de Python
- Puedes usar funciones y paquetes personalizados de Python. Con
bigframes.pandas
, puedes implementar funciones remotas que ejecutan funciones escalares de Python a escala de BigQuery. Puedes conservar estas funciones en BigQuery como rutinas de SQL y usarlas como funciones de SQL.
Carga datos desde una tabla o consulta de BigQuery
Puedes crear un DataFrame a partir de una consulta o tabla de BigQuery de la siguiente manera:
Carga datos de un archivo CSV
Puedes crear un DataFrame a partir de un archivo CSV local o de Cloud Storage de la siguiente manera:
Inspecciona y manipula datos
Puedes usar bigframes.pandas
para realizar operaciones de inspección y cálculo de datos.
En la siguiente muestra de código, se usa bigframes.pandas
para inspeccionar la columna body_mass_g
, calcular la media body_mass
y calcular la media body_mass
por species
:
Usa bigframes.ml
La API de scikit-learn similar a bigframes.ml
te permite crear varios tipos de modelos de aprendizaje automático.
Regresión
En la siguiente muestra de código, se usa bigframes.ml
para hacer lo siguiente:
- Carga datos de BigQuery
- Limpia y prepara los datos de entrenamiento
- Crea y aplica un modelo de regresión
bigframes.ml.LinearRegression
Agrupamiento en clústeres
Puedes usar el módulo bigframes.ml.cluster
para crear estimadores para los modelos de agrupamiento en clústeres.
En la siguiente muestra de código, se usa la clase bigframes.ml.cluster
KMeans
para crear un modelo de agrupamiento en clústeres de k-means para la segmentación de datos:
Modelos remotos de LLM
Puedes usar el módulo bigframes.ml.llm
para crear estimadores para modelos remotos grandes de lenguaje (LLM).
En la siguiente muestra de código, se usa la clase bigframes.ml.llm
PaLM2TextGenerator
para crear un modelo de generador de texto de PaLM2 para la generación de texto:
Precios
BigQuery DataFrames es una biblioteca de código abierto de Python. El código fuente está disponible para verlo y descargarlo mediante GitHub. Puedes instalar la biblioteca desde PyPI. Es posible que la biblioteca también esté disponible en otros administradores de paquetes administrados por la comunidad.
BigQuery DataFrames utiliza BigQuery, Cloud Functions, Vertex AI y otros servicios de Google Cloud, que generan sus propios costos. Durante el uso regular, la biblioteca almacena datos en tablas intermedias de BigQuery, que tienen una duración de siete días de forma predeterminada.
¿Qué sigue?
Para aprender a realizar tareas de análisis y aprendizaje automático a través de DataFrames de BigQuery en un notebook de BigQuery, consulta la guía de inicio rápido de BigQuery DataFrames.
Para explorar los BigQuery DataFrames, consulta los documentos de referencia de la biblioteca de DataFrames de BigQuery.
Para explorar el código fuente, consulta código fuente de BigQuery DataFrames en GitHub.