使用 AutoML Natural Language 创建机器学习模型
本快速入门介绍如何使用 AutoML Natural Language 创建自定义机器学习模型。您可以创建模型来对文档进行分类、识别文档中的实体或分析文档中的主导性情绪态度。
如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示:
准备工作
设置项目
您必须先创建 Google Cloud 项目并为该项目启用 AutoML Natural Language,然后才能使用 AutoML Natural Language。
- 登录您的 Google Cloud 帐号。如果您是 Google Cloud 新手,请创建一个帐号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
确保您的 Google Cloud 项目已启用结算功能。了解如何检查项目是否已启用结算功能。
-
启用 Cloud AutoML and Storage API。
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
确保您的 Google Cloud 项目已启用结算功能。了解如何检查项目是否已启用结算功能。
-
启用 Cloud AutoML and Storage API。
模型目标
AutoML Natural Language 可以针对四种不同的任务(称为模型目标)来训练自定义模型:
- 单标签分类通过为文档分配标签来对文档进行分类
- 多标签分类可以为某个文档分配多个标签
- 实体提取识别文档中的实体
- 情感分析可以分析文档中的态度
对于此快速入门,您可以通过选择公共 Cloud Storage 存储分区中托管的三个样本数据集之一来选择要创建的模型类型:
如需创建单标签分类模型,请使用从 Kaggle 开源数据集 HappyDB 派生的“幸福时刻”数据集。由此产生的模型将幸福时刻分成反映幸福原因的不同类别。
该数据通过知识共享 CCO:公共领域许可提供。
如需创建实体提取模型,请使用提及数百种疾病和概念的生物医学研究摘要语料库。由此产生的模型可以识别其他文档中的这些医学实体。
作为“美国政府的一项工作成果”,此数据集位于公共领域中,受美国版权法条款保护。
如需创建情感分析模型,请使用 FigureEight 的开放数据集,该数据集分析了 Twitter 上有关氯雷他定(治疗过敏的药品)的内容。
创建数据集
打开 AutoML Natural Language 界面,然后在与您计划训练的模型类型对应的框中选择开始使用。
点击标题栏中的新建数据集按钮。
输入数据集的名称,然后选择与您选定的示例数据集匹配的模型目标。
将位置保留设置为全球。
在导入文本项部分,选择选择 Cloud Storage 上的 CSV 文件,然后在文本框中输入要使用的数据集的路径。
- 对于“幸福时刻”数据集,请输入
cloud-ml-data/NL-classification/happiness.csv
- 对于生物医学研究数据集,请输入
cloud-ml-data/NL-entity/dataset.csv
- 对于氯雷他定情感数据集,请输入
cloud-ml-data/NL-sentiment/crowdflower-twitter-claritin-80-10-10.csv
(系统会自动添加
gs://
前缀。)或者,您可以点击浏览,然后导航到 CSV 文件。如果您选择情感数据集,则 AutoML Natural Language 会要求您提供最大的情感值。此数据集的最大值为 4。
- 对于“幸福时刻”数据集,请输入
点击创建数据集。
此时,您将被转至数据集页面;您的数据集会在文档导入期间显示一个进行中动画。此过程所需的时间大约为每 1000 份文档 10 分钟,但有可能更长或更短。
成功创建数据集后,我们会向您的项目关联的电子邮件地址发送一封邮件。
训练模型
成功导入训练数据后,从数据集列表页面中选择相应数据集以查看其相关详细信息。所选数据集的名称会显示在标题栏中,该页面还会列出数据集中的各个文档及其标签。左侧导航栏汇总了已加标签和未加标签的文档数,使您可以按标签过滤文档列表。
查看完数据集后,点击标题栏正下方的训练标签。
点击开始训练。
输入新模型的名称,然后选中训练完成后部署模型复选框。
点击开始训练。
训练模型可能需要几个小时才能完成。成功训练模型后,我们会向您的项目关联的电子邮件地址发送一封邮件。
训练之后,训练页面的底部会显示模型的一些高级层指标,例如精确率和召回率。如需查看更多详细信息,请点击评估标签页。
使用自定义模型
成功训练模型后,您可以使用它来分析其他文档。点击标题栏正下方的测试和使用标签页。在输入文本框中输入文本,或在 Cloud Storage 存储分区中输入 PDF 或 TIFF 文件的网址,然后单击预测。AutoML Natural Language 会使用您的模型分析文本并显示注释。
清理
为避免因本页中使用的资源导致您的 Google Cloud 帐号产生费用,请按照以下步骤操作。
为避免产生不必要的 Google Cloud Platform 费用,请使用 Google Cloud 控制台删除您不需要的项目。