使用 Google Cloud 控制台创建表格数据集并训练分类模型。
创建表格数据集
在 Google Cloud 控制台的 Vertex AI 部分中,转到数据集页面。
点击按钮栏中的创建以创建新数据集。
输入
Structured_AutoML_Tutorial
作为数据集名称,然后选择表格标签页。选择回归/分类目标。
将区域设置为 us-central1。
点击创建以创建数据集。
在本教程中,您将使用托管在 Cloud Storage 上的公开提供的银行数据集。
在选择数据源部分,点击从 Cloud Storage 中选择 CSV 文件。
在导入文件路径中,输入
cloud-ml-tables-data/bank-marketing.csv
。点击继续。
分析数据集
在“分析”部分中,您可以查看有关数据集的更多信息,例如缺失值或 NULL 值。
由于我们的数据集已经针对本教程进行了正确的格式化,因此您无需在此页面上执行任何操作,并且可以跳过本部分。
可选。点击生成统计信息,查看数据集中缺失值或 NULL 值的数量。此过程可能需要 10 分钟或更长时间。
可选。点击任一特征列可详细了解数据值。
训练 AutoML 分类模型
点击训练新模型。
选择其他。
在训练方法窗格中,确认为数据集字段选择了先前创建的数据集。
在目标字段,选择分类。
确认已选择 AutoML 训练方法。
点击继续。
在模型详情窗格中,选择存款作为目标列,然后点击继续。
目标列是我们正在训练模型进行预测的内容。对于
bank-marketing.csv
数据集,Deposit
列表明客户是否购买了定期存款(2 = 是,1 = 否)。在训练选项窗格中,您可以添加特征并转换列数据。如果未选择任何列,则默认情况下,所有非目标列都将用作训练的特征。此数据集已可供使用,因此无需进行任何转换。
点击继续。
在计算和价格窗格中,输入
1
作为训练预算。训练预算决定了实际训练时间,但完成训练的时间包括其他活动,因此整个过程可能需要一个多小时。模型完成训练后,其在模型标签页中显示为实时链接,带有绿色对勾标记状态图标。
点击开始训练。
后续步骤
您的模型目前正在接受训练,这可能需要一个小时或更长的时间才能完成。训练完成后,您将收到一封电子邮件。当您的模型完成训练后,请按照本教程的下一页部署您的模型并请求预测。
本教程使用针对 AutoML 训练进行了清理和格式化的数据集,但大部分数据需要在进行一些处理之后才能投入使用。训练数据的质量会影响所创建的模型的效果。详细了解如何准备数据。
数据的收集和准备过程对于确保机器学习模型的准确性而言至关重要。详细了解最佳做法。
详细了解如何创建表格数据集。
Vertex AI 提供了两种模型训练方法:AutoML 和自定义训练。借助 AutoML,您只需极少的工作量和机器学习经验即可进行训练;而借助自定义训练,您可以完全控制训练功能。详细了解训练方法。
Vertex AI 会检查源数据类型和特征值,并推断它将在模型训练中如何使用该特征。建议您查看每一列的数据类型,验证其是否已被正确解读。如果需要,您可以为任何特征指定其他支持的转换。详细了解转换。
详细了解如何针对分类或回归模型训练 AutoML。