快速入门

本快速入门介绍如何使用 AutoML Natural Language 创建自定义机器学习模型。您可以创建模型来对文档进行分类、识别文档中的实体或分析文档中的主导性情绪态度。

设置项目

您必须先创建 Google Cloud 项目并为该项目启用 AutoML Natural Language,然后才能使用 AutoML Natural Language。

  1. 登录您的 Google Cloud 帐号。如果您是 Google Cloud 新手,请创建一个帐号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 的项目选择器页面上,选择或创建一个 Google Cloud 项目。

    转到“项目选择器”

  3. 确保您的 Cloud 项目已启用结算功能。 了解如何确认您的项目是否已启用结算功能

  4. 启用 Cloud AutoML and Storage API。

    启用 API

模型目标

AutoML Natural Language 可以针对四种不同的任务(称为模型目标)来训练自定义模型:

  • 单标签分类通过为文档分配标签来对文档进行分类
  • 多标签分类可以为某个文档分配多个标签
  • 实体提取识别文档中的实体
  • 情感分析可以分析文档中的态度

对于此快速入门,您可以通过选择公共 Cloud Storage 存储分区中托管的三个样本数据集之一来选择要创建的模型类型:

  • 如需创建单标签分类模型,请使用从 Kaggle 开源数据集 HappyDB 派生的“幸福时刻”数据集。由此产生的模型将幸福时刻分成反映幸福原因的不同类别。

    该数据通过知识共享 CCO:公共领域许可提供。

  • 如需创建实体提取模型,请使用提及数百种疾病和概念的生物医学研究摘要语料库。由此产生的模型可以识别其他文档中的这些医学实体。

    作为“美国政府的一项工作成果”,此数据集位于公共领域中,受美国版权法条款保护。

  • 如需创建情感分析模型,请使用 FigureEight 的开放数据集,该数据集分析了 Twitter 上有关氯雷他定(治疗过敏的药品)的内容。

创建数据集

  1. 打开 AutoML Natural Language 界面,然后在与您计划训练的模型类型对应的框中选择开始使用

  2. 点击标题栏中的新建数据集按钮。

  3. 输入数据集的名称,然后选择与您选定的示例数据集匹配的模型目标。

    位置保留设置为全球

  4. 导入文本项部分,选择选择 Cloud Storage 上的 CSV 文件,然后在文本框中输入要使用的数据集的路径。

    • 对于“幸福时刻”数据集,请输入 cloud-ml-data/NL-classification/happiness.csv
    • 对于生物医学研究数据集,请输入 cloud-ml-data/NL-entity/dataset.csv
    • 对于氯雷他定情感数据集,请输入 cloud-ml-data/NL-sentiment/crowdflower-twitter-claritin-80-10-10.csv

    (系统会自动添加 gs:// 前缀。)或者,您可以点击浏览,然后导航到 CSV 文件。

    如果您选择情感数据集,则 AutoML Natural Language 会要求您提供最大的情感值。此数据集的最大值为 4

  5. 点击创建数据集

    此时,您将被转至数据集页面;您的数据集会在文档导入期间显示一个进行中动画。此过程所需的时间大约为每 1000 份文档 10 分钟,但有可能更长或更短。

    成功创建数据集后,我们会向您的项目关联的电子邮件地址发送一封邮件。

训练模型

成功导入训练数据后,从数据集列表页面中选择相应数据集以查看其相关详细信息。所选数据集的名称会显示在标题栏中,该页面还会列出数据集中的各个文档及其标签。左侧导航栏汇总了已加标签和未加标签的文档数,使您可以按标签过滤文档列表。

文本项页面

  1. 查看完数据集后,点击标题栏正下方的训练标签。

  2. 点击开始训练

  3. 输入新模型的名称,然后选中训练完成后部署模型复选框。

  4. 点击开始训练

训练模型可能需要几个小时才能完成。成功训练模型后,我们会向您的项目关联的电子邮件地址发送一封邮件。

训练之后,训练页面的底部会显示模型的一些高级层指标,例如精确率和召回率。如需查看更多详细信息,请点击评估标签页。

使用自定义模型

成功训练模型后,您可以使用它来分析其他文档。点击标题栏正下方的测试和使用标签页。在输入文本框中输入文本,或在 Cloud Storage 存储分区中输入 PDF 或 TIFF 文件的网址,然后单击预测。AutoML Natural Language 会使用您的模型分析文本并显示注释。

清理

为避免产生不必要的 Google Cloud Platform 费用,请使用 Cloud Console 删除您不需要的项目。