Introducción a BigQuery DataFrames
BigQuery DataFrames es un conjunto de bibliotecas de Python de código abierto que te permiten aprovechar el procesamiento de datos de BigQuery mediante APIs de Python conocidas. BigQuery DataFrames implementa las APIs de Pandas y scikit-learn mediante el envío del procesamiento a BigQuery a través de la conversión de SQL. Esto te permite usar BigQuery para explorar y procesar terabytes de datos y, también, entrenar modelos de aprendizaje automático (AA), todo con las APIs de Python.
BigQuery DataFrames ofrece los siguientes beneficios:
- Más de 750 APIs de Pandas y scikit-learn implementadas a través de la conversión de SQL transparente a las APIs de BigQuery y BigQuery ML.
- Aplazamiento de la ejecución de las consultas para mejorar el rendimiento
- Extensión de las transformaciones de datos con funciones de Python definidas por el usuario para que puedas procesar datos en la nube. Estas funciones se implementan de forma automática como funciones remotas de BigQuery.
- Integración en Vertex AI para permitirte usar modelos de Gemini para la generación de texto.
Licencias
BigQuery DataFrames se distribuye con la licencia de Apache 2.0. También contiene código derivado de los siguientes paquetes de terceros:
Para obtener más detalles, consulta el
directorio third_party/bigframes_vendored
en el repositorio de GitHub de BigQuery DataFrames.
Cuotas y límites
- Las cuotas de BigQuery se aplican a BigQuery DataFrames, incluidos los componentes de hardware, software y red.
- Se admite un subconjunto de las APIs de Pandas y scikit-learn. Para obtener más información, consulta APIs de Pandas compatibles.
- Debes limpiar de manera explícita cualquier función de Cloud Functions creada de forma automática como parte de la limpieza de la sesión. Para obtener más información, consulta APIs de Pandas compatibles.
Precios
- BigQuery DataFrames es un conjunto de bibliotecas de Python de código abierto disponibles para descargar sin costo adicional.
- BigQuery DataFrames utiliza BigQuery, Cloud Functions, Vertex AI y otros servicios de Google Cloud, que generan sus propios costos.
- Durante el uso regular, los DataFrames de BigQuery almacenan datos temporales,
como resultados intermedios, en tablas de BigQuery. Estas
tablas persisten durante siete días de forma predeterminada, y se te cobra por los datos
almacenados en ellas. Las tablas se crean en el conjunto de datos
_anonymous_
del proyecto que especificas en la opciónbf.options.bigquery.project
.
¿Qué sigue?
- Usa BigQuery DataFrames
- Prueba la Guía de inicio rápido de BigQuery DataFrames
- Referencia de la API de BigQuery DataFrames
- Notebooks de muestra de BigQuery DataFrames
- Código fuente de BigQuery DataFrames (GitHub)