使用 AutoML Natural Language 创建机器学习模型

本快速入门介绍如何使用 AutoML Natural Language 创建自定义机器学习模型。您可以创建模型来对文档进行分类、识别文档中的实体或分析文档中的主导性情绪态度。

准备工作

设置项目

您必须先创建 Google Cloud 项目并为该项目启用 AutoML Natural Language,然后才能使用 AutoML Natural Language。

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. 启用 Cloud AutoML and Storage API。

    启用 API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. 确保您的 Google Cloud 项目已启用结算功能

  7. 启用 Cloud AutoML and Storage API。

    启用 API

模型目标

AutoML Natural Language 可以针对四种不同的任务(称为模型目标)来训练自定义模型:

  • 单标签分类通过为文档分配标签来对文档进行分类
  • 多标签分类可以为某个文档分配多个标签
  • 实体提取识别文档中的实体
  • 情感分析可以分析文档中的态度

对于此快速入门,您可以通过选择公共 Cloud Storage 存储桶中托管的三个样本数据集之一来选择要创建的模型类型:

  • 如需创建单标签分类模型,请使用从 Kaggle 开源数据集 HappyDB 派生的“幸福时刻”数据集。由此产生的模型将幸福时刻分成反映幸福原因的不同类别。

    该数据通过知识共享 CCO:公共领域许可提供。

  • 如需创建实体提取模型,请使用提及数百种疾病和概念的生物医学研究摘要语料库。由此产生的模型可以识别其他文档中的这些医学实体。

    作为“美国政府的一项工作成果”,此数据集位于公共领域中,受美国版权法条款保护。

  • 如需创建情感分析模型,请使用 FigureEight 的开放数据集,该数据集分析了 Twitter 上有关氯雷他定(治疗过敏的药品)的内容。

创建数据集

  1. 打开 AutoML Natural Language 界面,然后在与您计划训练的模型类型对应的框中选择开始使用

  2. 点击标题栏中的新建数据集按钮。

  3. 输入数据集的名称,然后选择与您选定的示例数据集匹配的模型目标。

    位置保留设置为全球

  4. 导入文本项部分,选择选择 Cloud Storage 上的 CSV 文件,然后在文本框中输入要使用的数据集的路径。

    • 对于“幸福时刻”数据集,请输入 cloud-ml-data/NL-classification/happiness.csv
    • 对于生物医学研究数据集,请输入 cloud-ml-data/NL-entity/dataset.csv
    • 对于氯雷他定情感数据集,请输入 cloud-ml-data/NL-sentiment/crowdflower-twitter-claritin-80-10-10.csv

    (系统会自动添加 gs:// 前缀。)或者,您可以点击浏览,然后导航到 CSV 文件。

    如果您选择情感数据集,则 AutoML Natural Language 会要求您提供最大的情感值。此数据集的最大值为 4

  5. 点击创建数据集

    此时,您将被转至数据集页面;您的数据集会在文档导入期间显示一个进行中动画。此过程所需的时间大约为每 1000 份文档 10 分钟,但有可能更长或更短。

    成功创建数据集后,我们会向您的项目关联的电子邮件地址发送一封邮件。

训练模型

成功导入训练数据后,从数据集列表页面中选择相应数据集以查看其相关详细信息。所选数据集的名称会显示在标题栏中,该页面还会列出数据集中的各个文档及其标签。左侧导航栏汇总了已加标签和未加标签的文档数,使您可以按标签过滤文档列表。

文本项页面

  1. 查看完数据集后,点击标题栏正下方的训练标签。

  2. 点击开始训练

  3. 输入新模型的名称,然后选中训练完成后部署模型复选框。

  4. 点击开始训练

训练模型可能需要几个小时才能完成。成功训练模型后,我们会向您的项目关联的电子邮件地址发送一封邮件。

训练之后,训练页面的底部会显示模型的一些高级层指标,例如精确率和召回率。如需查看更多详细信息,请点击评估标签页。

使用自定义模型

成功训练模型后,您可以使用它来分析其他文档。点击标题栏正下方的测试和使用标签页。在输入文本框中输入文本,或在 Cloud Storage 存储桶中输入 PDF 或 TIFF 文件的网址,然后单击预测。AutoML Natural Language 会使用您的模型分析文本并显示注释。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

为避免产生不必要的 Google Cloud Platform 费用,请使用 Google Cloud 控制台删除您不需要的项目。

后续步骤