此页面介绍 AutoML Tables 如何帮助您和您的团队利用表格数据构建高性能模型。
如需了解当前已知问题、如何避免这些问题或者发生此类问题时如何恢复,请参阅我们的已知问题页面。
AutoML Tables 是数据处理和安全条款中规定的 Google 义务所涵盖的一项服务。
数据支持
AutoML Tables 通过提供关于每个特征的缺失数据、相关性、基数和分布情况的信息,帮助您创建干净有效的训练数据。由于导入数据和查看数据相关信息是免费的,因此在开始训练模型之前您无需为 AutoML Tables 付费。
特征工程
当您开始训练时,AutoML Tables 会自动为您执行常见的特征工程任务,包括:
- 对数值特征进行归一化和分区。
- 为分类特征创建独热编码和嵌入。
- 执行文本特征的基本处理。
- 从时间戳列中提取与日期和时间相关的特征。
如需了解详情,请参阅 AutoML Tables 为您进行的数据准备工作。
模型训练
并行模型测试
当您开始训练模型时,AutoML Tables 会获取您的数据集并同时使用多个模型架构进行训练。 通过这种方式,AutoML 可以确定数据的最佳模型架构,而无需先后依次遍历众多可能的模型架构。AutoML Tables 测试的模型架构包括:
- 线性
- 前馈深度神经网络
- 梯度提升决策树
- AdaNet
- 各种模型架构的集成
如果研发社区推出新的模型架构,我们也将加入这些架构。
模型评估和最终模型创建
我们使用您的训练集和验证集来确定最适合您数据的模型架构。然后,我们使用在并行测试阶段确定的参数和架构再训练两个模型:
使用您的训练集和验证集训练的模型。
我们使用您的测试集来提供此模型的模型评估。
使用您的训练集、验证集和测试集训练的模型。
这是我们提供给您的用于进行预测的模型。
在 AutoML Tables 和 BigQuery ML 之间进行选择
如果您更注重针对要包含在模型中的数据进行快速实验或迭代,并因此而希望使用较简单的模型类型(例如逻辑回归),则可以使用 BigQuery ML。
如果您已经最终确定了数据并符合以下情况,则可以直接使用 AutoML Tables 界面:
正在进行优化以获得最佳的模型质量(准确率、低 RMSE 等),并且无需手动进行特征工程、模型选择、集成学习等。
愿意等待较长时间以求提高模型质量。AutoML Tables 使用大量建模选项进行实验,因此需要至少一个小时来训练模型。BigQuery ML 仅使用您设置的模型架构和参数值以及范围,因此可能会在几分钟内返回模型。
有大量可能会受益于 AutoML Tables 提供的其它自动化特征工程的特征输入(不仅仅是数字和类别)。
模型透明度和 Cloud Logging
您可以使用 Cloud Logging 查看 AutoML Tables 模型的结构。在 Logging 中,您可以查看最终模型超参数以及模型验证过程中使用的超参数和目标值。
如需了解详情,请参阅 Logging。
可解释性
我们知道您需要能够解释您的数据与最终模型及其预测结果之间的相关性。我们为您提供了两种主要方式来深入了解模型及其运行方式:
测试数据导出
您可以导出测试集以及您的模型作出的预测。借助此功能,您可以深入分析您的模型在各行训练数据上的效果。检查测试集及其结果有助于您了解您的模型在哪类预测上表现不佳,且可以提供与改善数据以提高模型质量相关的建议。