基于人口普查数据构建和使用分类模型


在本教程中,您将在 BigQuery ML 中使用二元逻辑回归模型,根据个人的人口统计学特征数据预测个人收入范围。二元逻辑回归模型可预测某个值是否属于两类之一,在本示例中,即个人年收入是高于还是低于 50,000 美元。

本教程使用 bigquery-public-data.ml_datasets.census_adult_income 数据集。该数据集包含 2000 年和 2010 年美国居民的人口统计学特征和收入信息。

目标

在本教程中,您将执行以下任务:

  • 创建逻辑回归模型。
  • 评估此模型。
  • 使用此模型进行预测。
  • 说明此模型产生的结果。

费用

本教程使用 Google Cloud 的收费组件,包括以下组件:

  • BigQuery
  • BigQuery ML

如需了解有关 BigQuery 费用的更多信息,请参阅 BigQuery 价格页面。

如需详细了解 BigQuery ML 费用,请参阅 BigQuery ML 价格

准备工作

  1. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  2. 确保您的 Google Cloud 项目已启用结算功能

  3. 启用 BigQuery API。

    启用 API

所需权限

如需使用 BigQuery ML 创建模型,您需要以下 IAM 权限:

  • bigquery.jobs.create
  • bigquery.models.create
  • bigquery.models.getData
  • bigquery.models.updateData
  • bigquery.models.updateMetadata

如需运行推理,您需要以下权限:

  • 模型的 bigquery.models.getData 权限
  • bigquery.jobs.create

简介

机器学习中的一个常见问题是如何将数据归入两个类型(称为标签)之一。例如,某零售商可能想要根据有关给定客户的其他信息,预测该客户是否会购买新产品。在这种情况下,这两个标签可能是 will buywon't buy。零售商可以构建一个数据集,使一列同时代表两个标签,还包含客户信息,例如客户的位置、他们之前的购买记录及其反馈的偏好。然后,零售商可以使用这样一个二元逻辑回归模型,该模型使用这些客户信息预测哪个标签最能代表每位客户。

在本教程中,您将创建一个二元逻辑回归模型,以根据美国人口普查受访者的人口统计学特征特性来预测受访者的收入属于两个范围中的哪个范围。

创建数据集

创建 BigQuery 数据集来存储您的模型:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,点击您的项目名称。

  3. 点击 查看操作 > 创建数据集

    创建数据集。

  4. 创建数据集页面上,执行以下操作:

    • 数据集 ID 部分,输入 census

    • 位置类型部分,选择多区域,然后选择 US (multiple regions in United States)(美国[美国的多个区域])。

      公共数据集存储在 US 多区域中。为简单起见,请将数据集存储在同一位置。

    • 保持其余默认设置不变,然后点击创建数据集

检查数据

检查数据集,并确定将哪些列用作逻辑回归模型的训练数据。运行 GoogleSQL 查询以从 census_adult_income 表中返回 100 行:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 在查询编辑器中,运行以下查询:

    SELECT
      age,
      workclass,
      marital_status,
      education_num,
      occupation,
      hours_per_week,
      income_bracket,
      functional_weight
    FROM
      `bigquery-public-data.ml_datasets.census_adult_income`
    LIMIT
      100;
    
  3. 结果应如下所示:

    人口普查数据

查询结果显示,census_adult_income 表中的 income_bracket 列只有两个值中的其中一个:<=50K>50Kfunctional_weight 列是人口普查组织认为某个特定行所代表的个体数量。针对特定行,此列的值似乎与 income_bracket 的值无关。

准备示例数据

在本教程中,您根据以下特性预测人口普查受访者收入:

  • 年龄
  • 从事的工作类型
  • 婚姻状况
  • 受教育程度
  • 职业
  • 每周工作小时数

为此,您需要创建一个视图,以包含用于训练和评估模型以及进行预测的数据。本教程后面的 CREATE MODEL 语句将使用此视图。

创建视图的查询会提取人口普查受访者的数据,包括 education_num(代表受访者的受教育程度)和 workclass(代表受访者从事的工作类型)。此查询排除多个数据重复的列:例如,census_adult_income 表中的 educationeducation_num 列以不同格式表示相同的数据,因此该查询不包括 education 列。其中创建了一个新的 dataframe 列,该列使用 census_adult_income 表的 functional_weight 列标记了 80% 的数据源以用于训练模型,并保留剩余数据以用于评估和预测。

运行准备示例数据的查询:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 在查询编辑器中,运行以下查询:

    CREATE OR REPLACE VIEW
      `census.input_data` AS
    SELECT
      age,
      workclass,
      marital_status,
      education_num,
      occupation,
      hours_per_week,
      income_bracket,
      CASE
        WHEN MOD(functional_weight, 10) < 8 THEN 'training'
        WHEN MOD(functional_weight, 10) = 8 THEN 'evaluation'
        WHEN MOD(functional_weight, 10) = 9 THEN 'prediction'
      END AS dataframe
    FROM
      `bigquery-public-data.ml_datasets.census_adult_income`
    
  3. 探索器窗格中,展开 census 数据集并找到 input_data 视图。

  4. 点击视图名称以打开信息窗格。视图架构会显示在架构标签页中。

    查询结果

创建逻辑回归模型

您可以使用 CREATE MODEL 语句并为模型类型指定 LOGISTIC_REG,来创建逻辑回归模型。创建模型的一部分工作包括使用您在上一部分中标记的训练数据来训练模型。

以下是有关 CREATE MODEL 语句的实用信息:

  • input_label_cols 选项指定 SELECT 语句中的哪个列将用作标签列。在这里,标签列是 income_bracket,因此模型会根据相应行中的其他值学习得出 income_bracket 的两个值中的哪一个值最有可能。

  • 无需指定逻辑回归模型是二元分类模型还是多类别模型。BigQuery 可以根据标签列中唯一值的数量确定要训练的模型类型。

  • auto_class_weights 选项设置为 TRUE,以平衡训练数据中的类别标签。默认情况下,训练数据未加权。如果训练数据中的标签不平衡,则模型可能会更频繁地学习预测最热门的标签类别。在此示例中,数据集中的大多数受访者属于较低收入等级。这可能会导致模型过于频繁地预测较低收入等级。类别权重通过计算与其频率成反比的每个类别的权重,来平衡类别标签。

  • SELECT 语句会查询包含训练数据的 input_data 视图。WHERE 子句过滤 input_data 中的行,以便只使用标记为训练数据的行来训练模型。

运行可创建逻辑回归模型的查询:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 在查询编辑器中,运行以下查询:

    CREATE OR REPLACE MODEL
      `census.census_model`
    OPTIONS
      ( model_type='LOGISTIC_REG',
        auto_class_weights=TRUE,
        data_split_method='NO_SPLIT',
        input_label_cols=['income_bracket'],
        max_iterations=15) AS
    SELECT * EXCEPT(dataframe)
    FROM
      `census.input_data`
    WHERE
      dataframe = 'training'
    
  3. 探索器窗格中,展开 census 数据集,然后展开模型文件夹。

  4. 点击 census_model 模型,打开信息窗格。

  5. 点击架构标签页。模型架构列出了 BigQuery ML 用于执行逻辑回归的特性。架构应类似如下所示:

    聚类架构信息

使用 ML.EVALUATE 函数评估模型

创建模型后,您可以使用 ML.EVALUATE 函数评估模型的性能。ML.EVALUATE 函数根据实际数据评估模型生成的预测值。

对于输入,ML.EVALUATE 函数采用经过训练的模型以及 input_data 视图中将 evaluation 作为 dataframe 列值的行。此函数会返回有关模型的一行统计信息。

运行 ML.EVALUATE 查询:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 在查询编辑器中,运行以下查询:

    SELECT
      *
    FROM
      ML.EVALUATE (MODEL `census.census_model`,
        (
        SELECT
          *
        FROM
          `census.input_data`
        WHERE
          dataframe = 'evaluation'
        )
      )
    
  3. 结果应如下所示:

    ML.EVALUATE 输出

您还可以在 Google Cloud 控制台中查看模型的信息窗格,以查看训练期间计算得出的评估指标:

ML.EVALUATE 输出

使用 ML.PREDICT 函数预测收入等级

使用 ML.PREDICT 函数来识别某个特定受访者所属的收入等级。

对于输入,ML.PREDICT 函数采用经过训练的模型以及 input_data 视图中将 prediction 作为 dataframe 列值的行。

运行 ML.PREDICT 查询:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 在查询编辑器中,运行以下查询:

    SELECT
      *
    FROM
      ML.PREDICT (MODEL `census.census_model`,
        (
        SELECT
          *
        FROM
          `census.input_data`
        WHERE
          dataframe = 'prediction'
        )
      )
    
  3. 结果应如下所示:

    ML.PREDICT 结果

    predicted_income_bracketincome_bracket 的预测值。

解释预测结果

如需了解您的模型为何生成这些预测结果,您可以使用 ML.EXPLAIN_PREDICT 函数

ML.EXPLAIN_PREDICTML.PREDICT 函数的扩展版本。ML.EXPLAIN_PREDICT 不仅输出预测结果,还会输出其他列来解释预测结果。实际上,您可以运行 ML.EXPLAIN_PREDICT 而不是 ML.PREDICT。如需了解详情,请参阅 BigQuery ML Explainable AI 概览

运行 ML.EXPLAIN_PREDICT 查询:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 在查询编辑器中,运行以下查询:

    SELECT
    *
    FROM
    ML.EXPLAIN_PREDICT(MODEL `census.census_model`,
      (
      SELECT
        *
      FROM
        `census.input_data`
      WHERE
        dataframe = 'evaluation'),
      STRUCT(3 as top_k_features))
    
  3. 结果应如下所示:

    ML.EXPLAIN_PREDICT 输出

对于逻辑回归模型,Shapley 值用于为模型中的每个特征生成特征归因值。ML.EXPLAIN_PREDICT 会输出 input_data 视图中每行的前三个特征归因,因为在查询中 top_k_features 被设置为 3。这些归因按照归因的绝对值降序排列。在此示例中,第 1 行中的特征 hours_per_week 对整体预测的贡献最大,但在第 2 行中,occupation 对整体预测的贡献最大。

对模型进行全局说明

如需了解哪些特征通常对确定收入等级最为重要,您可以使用 ML.GLOBAL_EXPLAIN 函数。为了使用 ML.GLOBAL_EXPLAIN,您必须将 ENABLE_GLOBAL_EXPLAIN 选项设置为 TRUE 来重新训练模型。

重新训练模型并获取模型的全局说明:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 在查询编辑器中,运行以下查询来重新训练模型:

    CREATE OR REPLACE MODEL `census.census_model`
    OPTIONS
      ( model_type='LOGISTIC_REG',
        auto_class_weights=TRUE,
        enable_global_explain=TRUE,
        input_label_cols=['income_bracket']
      ) AS
    SELECT * EXCEPT(dataframe)
    FROM
      `census.input_data`
    WHERE
      dataframe = 'training'
    
  3. 在查询编辑器中,运行以下查询来获取全局说明:

    SELECT
      *
    FROM
      ML.GLOBAL_EXPLAIN(MODEL `census.census_model`)
    
  4. 结果应如下所示:

    ML.GLOBAL_EXPLAIN 输出

清除数据

为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。

删除数据集

删除项目也将删除项目中的所有数据集和所有表。如果您希望重复使用该项目,则可以删除在本教程中创建的数据集:

  1. 如有必要,请在 Google Cloud 控制台中打开 BigQuery 页面。

    转到 BigQuery 页面

  2. 在导航窗格中,点击您创建的 census 数据集。

  3. 点击窗口右侧的删除数据集。此操作会删除数据集和模型。

  4. 删除数据集对话框中,输入您的数据集的名称 (census),然后点击删除以确认删除命令。

删除项目

要删除项目,请执行以下操作:

  1. 在 Google Cloud 控制台中,进入管理资源页面。

    转到“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

后续步骤