试用 BigQuery DataFrames

在本快速入门中,您可以使用 BigQuery 笔记本中的 BigQuery DataFrames API 执行以下分析和机器学习 (ML) 任务:

  • 创建基于 bigquery-public-data.ml_datasets.penguins 公共数据集的 DataFrame。
  • 计算企鹅的平均身体质量。
  • 创建一个线性回归模型
  • 基于企鹅数据的一部分创建 DataFrame,以将其用作训练数据。
  • 清理训练数据。
  • 设置模型参数。
  • 拟合模型。
  • 对模型进行评分


  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  4. 确保您的 Google Cloud 项目已启用结算功能

  5. 确保已启用 BigQuery API。

    启用 API

    如果您创建了一个新项目,则系统会自动启用 BigQuery API。


如需创建和运行笔记本,您需要以下 Identity and Access Management (IAM) 角色:


按照通过 BigQuery 编辑器创建笔记本中的说明创建新的笔记本。

试用 BigQuery DataFrames

请按照以下步骤试用 BigQuery DataFrames:

  1. 在笔记本中创建新的代码单元。
  2. 复制以下代码并粘贴到代码单元中:

    import bigframes.pandas as bpd
    # Set BigQuery DataFrames options
    bpd.options.bigquery.project = your_gcp_project_id
    bpd.options.bigquery.location = "us"
    # Create a DataFrame from a BigQuery table
    query_or_table = "bigquery-public-data.ml_datasets.penguins"
    df = bpd.read_gbq(query_or_table)
    # Use the DataFrame just as you would a pandas DataFrame, but calculations
    # happen in the BigQuery query engine instead of the local system.
    average_body_mass = df["body_mass_g"].mean()
    print(f"average_body_mass: {average_body_mass}")
    # Create the Linear Regression model
    from bigframes.ml.linear_model import LinearRegression
    # Filter down to the data we want to analyze
    adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"]
    # Drop the columns we don't care about
    adelie_data = adelie_data.drop(columns=["species"])
    # Drop rows with nulls to get our training data
    training_data = adelie_data.dropna()
    # Pick feature columns and label column
    X = training_data[
    y = training_data[["body_mass_g"]]
    model = LinearRegression(fit_intercept=False)
    model.fit(X, y)
    model.score(X, y)
  3. 修改 bpd.options.bigquery.project = your_gcp_project_id 行以指定您的项目,例如 bpd.options.bigquery.project = "myproject"

  4. 运行该代码单元。





  1. 在 Google Cloud 控制台中,进入管理资源页面。


  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。


尝试 BigQuery DataFrames 使用入门笔记本