表格数据概览

利用 Vertex AI,您可以通过简单的流程和界面使用表格数据执行机器学习。您可以为表格数据问题创建以下模型类型:

  • 二元分类模型可预测二元结果(二者选一)。此模型类型用于是非问题。例如,您可能想要构建一个二元分类模型来预测客户是否会购买订阅。一般而言,二元分类问题所需的数据比其他模型类型少。
  • 多类别分类模型可从三个或更多个互不关联的类别中预测一个类别。使用此模型类型进行分类。例如,作为零售商,您可能希望构建一个多类别分类模型来将客户划分为不同的角色。
  • 回归模型可预测连续值。例如,作为零售商,您可能希望构建一个回归模型来预测客户下个月的支出。
  • 预测模型可预测一系列值。例如,作为零售商,您可能希望预测未来 3 个月的产品每日需求,以便提前备妥适当数量的商品库存。

如需简要了解表格数据,请参阅表格数据简介。如需详细了解 Vertex AI 解决方案,请参阅用于分类和回归的 Vertex AI 解决方案用于预测的 Vertex AI 解决方案

有关公平性的说明

Google 致力于在遵循负责任的 AI 做法方面取得进展。 为此,我们的机器学习产品(包括 AutoML)围绕公平性以人为本的机器学习等核心原则进行设计。如需详细了解在构建自己的机器学习系统时消除偏见的最佳实践,请参阅包容性机器学习指南 - AutoML

用于分类和回归的 Vertex AI 解决方案

Vertex AI 提供以下用于分类和回归的解决方案:

端到端 AutoML 表格工作流

端到端 AutoML 的表格工作流是用于分类和回归任务的完整 AutoML 流水线。它与 AutoML API 类似,但允许您选择要控制的内容及自动化的内容。您可以控制流水线中的每个步骤,而不是控制整个流水线。这些流水线控制包括:

  • 数据拆分
  • 特征工程
  • 架构搜索
  • 模型训练
  • 模型集成学习
  • 模型提炼

优势

  • 支持大小超过 1 TB 且最多包含 1000 列的大型数据集
  • 使您能够通过限制架构类型的搜索空间或跳过架构搜索来提高稳定性并缩短训练时间
  • 允许您通过手动选择用于训练和架构搜索的硬件来提高训练速度
  • 允许您通过精馏或更改集成学习规模来缩减模型规模并缩短延迟时间
  • 每个 AutoML 组件都可以在强大的流水线图界面中进行检查,使您可以查看转换后的数据表、评估的模型架构以及更多详细信息。
  • 每个 AutoML 组件都可提供更高的灵活性和透明度,例如能够自定义参数、硬件,查看进程状态、日志等。

如需详细了解表格工作流,请参阅 Vertex AI 上的表格工作流。如需详细了解端到端 AutoML 的表格工作流,请参阅端到端 AutoML 的表格工作流

TabNet 的表格工作流

TabNet 的表格工作流是可用于训练分类或回归模型的流水线。TabNet 使用顺序注意力来选择每个决策步骤要推理的特征。这提高了可解释性和学习效率,因为学习容量用于最显著的特征。

优势

  • 根据数据集大小、预测类型和训练预算自动选择适当的超参数搜索空间。
  • 与 Vertex AI 集成。经过训练的模型是 Vertex AI 模型。您可以运行批量预测或部署模型以立即进行在线预测。
  • 提供固有的模型可解释性。您可以深入了解 TabNet 使用哪些功能来做出决定。
  • 支持 GPU 训练。

如需详细了解表格工作流,请参阅 Vertex AI 上的表格工作流。如需详细了解 TabNet 的表格工作流,请参阅 TabNet 的表格工作流

Wide & Deep 的表格工作流

Wide & Deep 的表格工作流是可用于训练分类或回归模型的流水线。Wide & Deep 会联合广度线性模型和深度神经网络进行训练。它结合了记忆和泛化的优势。一些在线实验还表明,与仅涉及广度和仅涉及深度的模型相比,Wide & Deep 显著提高了 Google 商店应用的流量获取。

优势

  • 与 Vertex AI 集成。经过训练的模型是 Vertex AI 模型。您可以运行批量预测或部署模型以立即进行在线预测。

如需详细了解表格工作流,请参阅 Vertex AI 上的表格工作流。如需详细了解 Wide & Deep 的表格工作流,请参阅 Wide & Deep 的表格工作流

使用 AutoML 进行分类和回归

Vertex AI 提供集成式、全代管式流水线来处理端到端分类或回归任务。Vertex AI 会搜索最佳超参数集,使用多组超参数训练多个模型,然后根据热门模型的集成学习创建一个最终模型。Vertex AI 会考虑模型类型的神经网络和提升树。

优势

  • 易于使用:系统会为您选择模型类型、模型参数和硬件。

如需了解详情,请参阅分类和回归概览

用于预测的 Vertex AI 解决方案

Vertex AI 提供以下预测解决方案:

用于预测的表格工作流

用于预测的表格工作流是预测任务的完整流水线。它与 AutoML API 类似,但允许您选择要控制的内容及自动化的内容。您可以控制流水线中的每个步骤,而不是控制整个流水线。这些流水线控制包括:

  • 数据拆分
  • 特征工程
  • 架构搜索
  • 模型训练
  • 模型集成学习

优势

  • 支持大小不超过 1TB 且最多包含 200 列的大型数据集
  • 使您能够通过限制架构类型的搜索空间或跳过架构搜索来提高稳定性并缩短训练时间
  • 允许您通过手动选择用于训练和架构搜索的硬件来提高训练速度
  • 对于某些模型训练方法,您可以通过更改集成学习规模来缩减模型规模并缩短延迟时间
  • 每个组件都可以在强大的流水线图界面中进行检查,使您可以查看转换后的数据表、评估的模型架构以及更多详细信息。
  • 每个组件都可提供更高的灵活性和透明度,例如能够自定义参数、硬件,查看进程状态、日志等。

如需详细了解表格工作流,请参阅 Vertex AI 上的表格工作流。如需详细了解用于预测的表格工作流,请参阅用于预测的表格工作流

使用 AutoML 进行预测

Vertex AI 提供了集成式、全代管式流水线用于处理全代管式预测任务。Vertex AI 会搜索最佳超参数集,使用多组超参数训练多个模型,然后根据热门模型的集成学习创建一个最终模型。您可以选择时序密集编码器 (TiDE)时间融合转换器 (TFT)AutoML (L2L) 和 Seq2Seq+ 用于模型训练方法。Vertex AI 仅考虑模型类型的神经网络

优势

  • 易于使用:系统会为您选择模型参数和硬件。

如需了解详情,请参阅预测概览

使用 BigQuery ML ARIMA_PLUS 进行预测

BigQuery ML ARIMA_PLUS 是一种单变量预测模型。作为统计模型,训练速度比基于神经网络的模型更快。 如果您需要对模型训练进行多次快速迭代,或者需要以低成本的基准来衡量其他模型,则建议您训练 BigQuery ML ARIMA_PLUS 模型。

Prophet 一样,BigQuery ML ARIMA_PLUS 会尝试将每个时序分解为趋势、季节和节假日,并使用这些模型的预测聚合来生成预测。但是,其中一个区别在于 BQML ARIMA+ 使用 ARIMA 对趋势组件进行建模,而 Prophet 尝试使用分段的逻辑或线性模型拟合曲线。

Google Cloud 提供用于训练 BigQuery ML ARIMA_PLUS 模型的流水线,以及从 BigQuery ML ARIMA_PLUS 模型获取批量预测结果的流水线。两个流水线都是 Google Cloud 流水线组件 (GCPC) 中的 Vertex AI Pipelines 实例。

优势

  • 易于使用:系统会为您选择模型参数和硬件。
  • 快速:模型训练提供了低成本的基准来与其他模型进行比较。

如需了解详情,请参阅使用 ARIMA+ 进行预测

使用 Prophet 进行预测

Prophet 是由 Meta 维护的预测模型。如需了解算法详情,请参阅 Prophet 论文;如需详细了解该库,请参阅文档

BigQuery ML ARIMA_PLUS 一样,Prophet 会尝试将每个时序分解为趋势、季节和节假日,并使用这些模型的预测聚合来生成预测。但是,一个重要的区别在于,BQML ARIMA+ 使用 ARIMA 对趋势组件进行建模,而 Prophet 尝试使用分段的逻辑或线性模型拟合曲线。

Google Cloud 提供了用于训练 Prophet 模型的流水线,以及用于从 Prophet 模型获取批量预测结果的流水线。两个流水线都是 Google Cloud 流水线组件 (GCPC) 中的 Vertex AI Pipelines 实例。

集成 Prophet 与 Vertex AI 意味着您可以执行以下操作:

虽然 Prophet 是多变量模型,但 Vertex AI 仅支持它的单变量版本。

优势

  • 灵活:您可以选择用于训练的硬件来提高训练速度

如需了解详情,请参阅使用 Prophet 进行预测

后续步骤