BigQuery DataFrames 简介
BigQuery DataFrames 是一组开源 Python 库,可让您通过熟悉的 Python API 来充分利用 BigQuery 数据处理。BigQuery DataFrames 提供由 BigQuery 引擎提供支持的 Pythonic DataFrame,并通过 SQL 转换将处理下推至 BigQuery,从而实现 Pandas 和 scikit-learn API。这样,您就可以使用 BigQuery 探索和处理 TB 级的数据,以及训练机器学习 (ML) 模型,所有这些操作都通过 Python API 来完成。
下图描述了 BigQuery DataFrames 的工作流:
BigQuery DataFrames 的好处
BigQuery DataFrames 可执行以下操作:
- 提供 750 多个 Pandas 和 scikit-learn API,这些 API 是通过 SQL 到 BigQuery 和 BigQuery ML API 的透明转换实现的。
- 延迟查询执行以提升性能。
- 使用用户定义的 Python 函数扩展数据转换,使您可以在 Google Cloud 中处理数据。这些函数会自动部署为 BigQuery 远程函数。
- 与 Vertex AI 集成,使您可以使用 Gemini 模型生成文本。
许可
BigQuery DataFrames 使用 Apache-2.0 许可进行分发。
BigQuery DataFrames 还包含派生自以下第三方软件包的代码:
如需了解详情,请参阅 BigQuery DataFrames GitHub 代码库中的 third_party/bigframes_vendored
目录。
配额和限制
- BigQuery 配额适用于 BigQuery DataFrames,包括硬件、软件和网络组件。
- 支持部分 Pandas 和 scikit-learn API。如需了解详情,请参阅支持的 Pandas API。
- 在会话清理过程中,您必须明确清理所有自动创建的 Cloud Run functions。如需了解详情,请参阅支持的 Pandas API。
价格
- BigQuery DataFrames 是一组无需额外付费即可下载的开源 Python 库。
- BigQuery DataFrames 使用 BigQuery、Cloud Run functions、Vertex AI 和其他 Google Cloud 服务,这些服务会产生各自的费用。
- 在常规使用期间,BigQuery DataFrames 会将临时数据(如中间结果)存储在 BigQuery 表中。这些表默认保留七天,您需要为其中存储的数据付费。这些表在相应 Google Cloud 项目(在
bf.options.bigquery.project
选项中指定)的_anonymous_
数据集中创建。
后续步骤
- 使用 BigQuery DataFrames
- 试用 BigQuery DataFrames
- BigQuery DataFrames API 参考文档
- BigQuery DataFrames 示例笔记本
- BigQuery DataFrames 源代码 (GitHub)