此页面由 Cloud Translation API 翻译。

AutoML 新手指南

简介

此新手指南是 AutoML 的简介。如需了解 AutoML 和自定义训练之间的主要区别，请参阅选择训练方法。

假设：

您是足球队的教练。
您在一家数字零售商的营销部门工作。
您要处理可识别建筑类型的建筑项目。
您的公司在网站上设置了一张联系表单。

手动处理视频、图片、文本和表格的工作既繁琐又耗时。教机器自动识别和标记内容不是会更加简单吗？

图片

您正在与建筑保护委员会合作，尝试发现您所在城市里建筑风格一致的街区。有数十万张的房屋快照需要仔细筛查。然而，在尝试手动分类所有这些图片时，这将是一项单调乏味且容易出错的工作。几个月前，一名实习生为其中的几百张图片添加了标签，但其他人都没有查看过数据。如果您可以教计算机来代您完成这项审核工作，一定会非常有用！

表格

您在一家数字零售商的营销部门工作。您和您的团队正在根据客户角色创建个性化的电子邮件程序。您已经创建了角色和营销电子邮件。现在，您必须创建这样一个系统，即使是新客户，也可以根据零售偏好和消费行为将其划分为相应角色。为了最大限度地提高客户互动度，您还需要预测其消费习惯，以便优化发送电子邮件时间。
表格简介

因为您是数字零售商，所以您拥有有关客户及其购买的数据。但新客户呢？传统方法能够为具有较长消费历史的现有客户计算这些值，但面对历史数据很少的客户时则表现不佳。如果能创建一个系统来预测这些值，加快对所有客户开展个性化营销的速度该有多好？

幸运的是，机器学习和 Vertex AI 可以很好地解决这些问题。

文本

您的公司在网站上设置了一张联系表单。公司每天都会通过该表单收到大量消息，其中很多建议在某方面都是具有可操作性的。因为它们全部一起涌入，就很容易造成处理不及时。而不同的消息类型由不同的员工进行处理。如果能有一个自动化系统对它们进行分类，让处理人员看到由自己负责的评论，那就太好了。

您需要利用某种系统来查看评论，然后确定它们是投诉还是对过去服务的赞扬，是想要详细了解您的业务、请求安排预约还是想要建立关系。

视频

假设您有一个想用于分析的庞大的游戏视频库。但要查看的视频达数百个小时。您需要观看每个视频并手动标记片段以突显每个动作，这既枯燥又耗时。而每个赛季都需要您重复这项工作。现在，假设计算机模型能够在视频中出现时自动识别并标记这些操作。

以下是一些与目标相关的具体场景。

操作识别：查找对目标进行评分、导致违规、进行处罚等操作。有助于教练研究团队的优势和弱势。
分类：将每个视频分类为半场、游戏视图、观众视图或教练视图。这可帮助教授仅浏览感兴趣的视频片段。
对象跟踪：跟踪足球或球员。可协助教练获得球员的统计数据，例如现场热图、成功通过率。

本指南将引导您逐步了解如何将 Vertex AI 用于 AutoML 数据集和模型，并说明 Vertex AI 旨在解决的问题类型。

有关公平性的说明

Google 致力于在遵循负责任的 AI 做法方面取得进展。为此，我们的机器学习产品（包括 AutoML）围绕公平性和以人为本的机器学习等核心原则进行设计。如需详细了解在构建自己的机器学习系统时消除偏见的最佳实践，请参阅包容性机器学习指南 - AutoML。

为什么说 Vertex AI 是最适合解决这类问题的工具？

传统编程要求程序员指定分步说明，以使计算机按照这些说明操作。但我们来设想一下识别足球比赛中特定动作的用例。颜色、角度、分辨率和光线千变万化，需要编写大量规则来告知机器如何做出正确决策。甚至难以想象应该从哪里开始入手。客户评论使用的词汇和结构各种各样，变化多端，以致于无法通过一套简单的规则来捕获如果您尝试构建手动过滤器，很快就会发现，您无法对大多数客户评论进行分类。您需要一个可以通用于各种评论的系统。在一系列特定规则必然会以指数级扩展的使用场景下，您需要一个能够通过样本学习的系统。

幸运的是，机器学习应该能够解决这些问题。

Vertex AI 的工作原理是什么？

简单神经网络的图形表示 Vertex AI 涉及监管式学习任务来实现所选结果。算法和训练方法的具体细节因数据类型和用例而异。机器学习有许多不同的子类别，所有子类别均用于解决不同的问题，并具有不同的限制条件。

图片

您可以使用示例图像训练，测试和验证机器学习模型，这些示例图像带有用于分类的标签，或者带有标签和用于对象检测的边界框。通过监督式学习，您可以训练模型来识别图片中您需要关注的模式和内容。

表格

您使用示例数据训练机器学习模型。Vertex AI 使用表格（结构化）数据来训练机器学习模型，以便对新数据进行预测。数据集中的一列（称为目标）是您的模型将学习预测的内容。其他一些数据列是模型将从中学习模式的输入（称为特征）。只需更改目标列和训练选项，即可使用同一些输入特征构建多种模型。在电子邮件营销的示例中，这意味着您可以利用相同的输入特征但不同的目标预测结果来构建模型。一个模型可以预测客户的角色（分类目标），另一个模型可以预测客户的每月支出（数值目标），再一个模型可以预测未来 3 个月产品的每日需求（多个数值目标）。
automl 表格的工作原理

文本

Vertex AI 允许您执行监督式学习。这涉及训练计算机来识别已加标签的数据的模式。通过监督式学习，您可以训练 AutoML 模型来识别文本中您关注的内容。

视频

您可以使用已标记的视频来训练、测试和验证机器学习模型。通过经过训练的模型，您可以向模型输入新视频，然后输出带有标签的视频片段。视频片段可定义视频中的开始时间和结束时间偏移量。片段可以是整个视频、用户定义的时间细分、自动检测的视频片段，或只是开始时间与结束时间相同的时间戳。标签是通过模型预测的“答案”。例如，在上述足球用例中，为每个新足球视频，根据模型类型执行以下操作：

经过训练的操作识别模型会输出视频时间偏移值，并采用描述“射门”“个人犯规”等动作镜头的标签。
经过训练的分类模型自动输出检测到的带有用户定义标签（例如“游戏视图”“观众视图”）的镜头细分。
经过训练的对象跟踪模型通过对象出现在屏幕内的边界框来输出足球或玩家的轨迹。

Vertex AI 工作流

Vertex AI 使用标准机器学习工作流：

收集数据：根据您想要实现的结果，确定训练和测试模型所需的数据。
准备数据：确保您的数据格式正确且已加标签。
训练：设置参数并构建模型。
评估：审核模型指标。
部署和预测：使您的模型可供使用

但是，在开始收集数据之前，您需要思考您要尝试解决的问题，从而了解您的数据要求。

数据准备

评估您的用例

从您的问题着手：您想要实现什么结果？

图片

在整合数据集时，应始终以用例为基础。您可以从以下问题入手：

您想要实现什么样的结果？
为了实现这个结果，您需要识别哪些种类的类别或对象？
人类能否识别这些类别？尽管 Vertex AI 可以处理比人类在任何时候都无法记住和分配的类别更大的类别，但是如果人类无法识别特定类别，那么 Vertex AI 也会遇到困难。
哪些种类的样本最能反映您的系统将看到并尝试分类的数据类型和范围？

表格

目标列是什么类型的数据？您可以访问多少数据？根据您的答案，Vertex AI 会创建必要的模型来解析您的用例：

二元分类模型可预测二元结果（二者选一）。该模型适合用于是非问题，例如预测客户是否会购买订阅。在其他条件相同的情况下，二元分类问题所需的数据比其他模型类型少。
多类别分类模型可从三个或更多个互不关联的类别中预测一个类别，可用于对事物进行分类。对于零售示例，您需要构建一个多类别分类模型，以将客户细分为不同的角色。
预测模型可预测一系列值。例如，作为零售商，您可能希望预测未来 3 个月的产品每日需求，以便提前备妥适当数量的商品库存。
回归模型可预测连续值。对于零售示例，您需要构建一个回归模型来预测客户下个月的支出。

文本

在整合数据集时，应始终以用例为基础。您可以从以下问题入手：

您想要实现什么结果？
为了实现这个结果，您需要识别哪些种类的类别？
人类能否识别这些类别？虽然 Vertex AI 可以处理的类别比人类在任何时候都无法记住和分配的类别要多，但是如果人类无法识别特定类别，那么 Vertex AI 也会遇到困难。
哪些种类的样本最能反映您的系统要分类的数据类型和范围？

视频

根据您想要实现的结果，选择合适的模型目标：

要检测视频中的动作时刻，例如识别进球得分、导致违规或进行罚球，请使用操作识别目标。
如需将电视节目镜头分成以下类别（商业、新闻、电视节目等），请使用分类目标。
要定位和跟踪视频中的对象，请使用对象跟踪目标。

如需了解准备数据集的最佳实践，请分别参阅操作识别、分类和对象跟踪目标对应的页面。

收集数据

建立用例后，您需要收集用于创建所需模型的数据。

Image

收集足够的数据确定了所需的数据后，您必须找到一种方法来获取数据。首先，您可以考虑使用组织收集的所有数据。您可能会发现自己已经在收集训练模型所需的相关数据。如果您没有该数据，可以手动获取或将其外包给第三方提供商。

在每个类别中添加足够的加标签样本

包括足够的数据 Vertex AI Training 所需的最低要求是每个类别/标签分类 100 个图片示例。每个标签的高质量样本数量越多，成功识别标签的可能性就越大；一般而言，您带入训练过程的已加标签数据越多，模型的表现就会越出众。每个标签至少有 1000 个样本。

在所有类别中平均分配样本

每个类别获取数量大致相同的训练样本非常重要。即使某一个标签有大量的数据，最好还是为每个标签分配数量大致相等的数据。为了说明原因，我们假设您用于构建模型的图片中有 80％都是现代风格的单户式住宅照片。由于标签的分配如此不均衡，您的模型很可能会发现，总是将照片预测为现代风格的单户式住宅非常安全，而尝试预测它是一个不那么常见的标签则会有风险。这就像是编写一份单选题试卷，其中几乎所有正确答案都是“C”；在这种情况下，聪明的应试者很快就会发现，每次都可以回答“C”，甚至都不需要看题。
均匀分配

我们理解，并不总是可以为每个标签找到数量大致相同的样本。某些类别的高质量、无偏见样本可能更难获取。在这些情况下，您可以遵循一个经验法则，即样本数量最少的标签所具有的样本数应至少达到样本数最多的标签的 10%，因此，如果最大的标签有 10000 个样本，则最小的标签应至少有 1000 个样本。

捕获问题空间中的各种变化

出于类似的原因，请尝试确保您的数据能够捕获问题空间的变化和多样性。模型在训练过程中看到的选择项越广泛，就越容易泛化新的样本。例如，如果您尝试将消费类电子产品的照片进行分类，则模型在训练中接触到的各种消费类电子产品越多，它就越有可能区分出新型平板电脑、手机或笔记本电脑，即使之前从未见过这种特定型号也是如此。
捕获差异

将数据与模型的预期输出相匹配

将数据与预期输出相匹配
您所搜集的图片在视觉上应与您计划进行预测的图片类似。如果您正在尝试对在冬季多雪天气条件下拍摄的房屋图片进行分类，而您的模型仅使用了在阳光明媚天气条件下拍摄的房屋图片进行训练，那么您可能无法从中获得出色的结果，即使您已经使用自己所需的类别标记了这些图片也是如此，因为光线和背景的差异可能足以影响模型的表现。理想情况下，您的训练样本是从您计划使用模型进行分类的数据集中提取的真实数据。

表格

测试集确定用例后，您需要收集数据来训练模型。数据搜寻和准备是构建机器学习模型的关键步骤。可用的数据会决定您能够解决什么类型的问题。您有多少可用数据？您的数据是否与您要回答的问题相关？在收集数据时，请牢记以下关键注意事项。

选择相关特征

特征是用于模型训练的输入属性。特征帮助模型识别模式以进行预测，因此它们需要与您的问题相关。例如，要构建一个预测信用卡交易是否属于欺诈的模型，您需要构建一个包含交易详细信息（如买方、卖方、金额、日期和时间以及购买的商品）的数据集。其他有用的特征包括买方和卖方的相关历史信息，以及购买的商品涉及欺诈的频率。还有哪些可能相关的其他特征？

请考虑简介中提到的零售商电子邮件营销用例。以下是您可能需要的一些特征列：

购买的商品清单（包括品牌、类别、价格、折扣）
购买的商品数量（前一天、过去一周、过去一个月、过去一年）
消费金额（前一天、过去一周、过去一个月、过去一年）
每件商品每天的售出总数
每件商品每天的库存总数
是否针对特定日期开展促销活动
已知的购物者统计学特征概况

包括足够的数据

包括足够的数据一般而言，您拥有的训练样本越多，得到的结果就越好。所需的样本数据量也会随着您试图解决的问题的复杂性而变化。与多类别模型相比，生成一个精确的二元分类模型所需的数据更少，因为从两个类别中预测一个比从多个类别中预测一个来得简单。

完美的公式是不存在的，但我们建议至少具有以下示例数据：

分类问题：50 行 x 特征数量
预测问题：

5000 行 x 特征数
时序标识符列中的 10 个唯一值 x 特征数量

回归问题：200 x 特征数量

捕获差异

您的数据集应捕获问题空间的多样性。模型在训练过程中看到的样本越多样，就越容易对新的或较不常见的样本具备普适性。设想一下，如果您仅使用冬季的购买数据来训练零售模型，那么模型是否能够成功预测夏季服装偏好或购买行为？