BigQuery DataFrames 简介

BigQuery DataFrames 是一组开源 Python 库,可让您通过熟悉的 Python API 来充分利用 BigQuery 数据处理。BigQuery DataFrames 提供由 BigQuery 引擎提供支持的 Pythonic DataFrame,并通过 SQL 转换将处理下推至 BigQuery,从而实现 Pandas 和 scikit-learn API。这样,您就可以使用 BigQuery 探索和处理 TB 级的数据,以及训练机器学习 (ML) 模型,所有这些操作都通过 Python API 来完成。

下图描述了 BigQuery DataFrames 的工作流:

BigQuery DataFrames 工作流

BigQuery DataFrames 的好处

BigQuery DataFrames 可执行以下操作:

  • 提供 750 多个 Pandas 和 scikit-learn API,这些 API 是通过 SQL 到 BigQuery 和 BigQuery ML API 的透明转换实现的。
  • 延迟查询执行以提升性能。
  • 使用用户定义的 Python 函数扩展数据转换,使您可以在 Google Cloud 中处理数据。这些函数会自动部署为 BigQuery 远程函数
  • 与 Vertex AI 集成,使您可以使用 Gemini 模型生成文本。

许可

BigQuery DataFrames 使用 Apache-2.0 许可进行分发。

BigQuery DataFrames 还包含派生自以下第三方软件包的代码:

如需了解详情,请参阅 BigQuery DataFrames GitHub 代码库中的 third_party/bigframes_vendored 目录。

配额和限制

  • BigQuery 配额适用于 BigQuery DataFrames,包括硬件、软件和网络组件。
  • 支持部分 Pandas 和 scikit-learn API。如需了解详情,请参阅支持的 Pandas API
  • 在会话清理过程中,您必须明确清理所有自动创建的 Cloud Run functions。如需了解详情,请参阅支持的 Pandas API

价格

  • BigQuery DataFrames 是一组无需额外付费即可下载的开源 Python 库。
  • BigQuery DataFrames 使用 BigQuery、Cloud Run functions、Vertex AI 和其他 Google Cloud 服务,这些服务会产生各自的费用。
  • 在常规使用期间,BigQuery DataFrames 会将临时数据(如中间结果)存储在 BigQuery 表中。这些表默认保留七天,您需要为其中存储的数据付费。这些表在相应 Google Cloud 项目(在 bf.options.bigquery.project 选项中指定)的 _anonymous_ 数据集中创建。

后续步骤