此旧版 AI Platform Data Labeling 已弃用，2024 年 1 月 23 日之后将不再在 Google Cloud 上提供。旧版 AI Platform Data Labeling 的所有功能以及新功能均在 Vertex AI 平台上提供。请参阅迁移到 Vertex AI，了解如何迁移资源。

此页面由 Cloud Translation API 翻译。

创建数据集

数据集是您希望人工标签添加者为其加标签的数据项的集合。它包含您要分类或分析的代表性样本。准确添加了标签的数据集可用于训练自定义模型。

构建数据集的主要步骤如下：

将数据项上传到 Cloud Storage 存储分区。
创建一个逗号分隔值 (CSV) 文件以便为数据项编制目录，然后将它上传到同一 Cloud Storage 存储分区。
创建数据集资源。
将数据项导入到数据集资源中。

一个项目可以有多个数据集，每个数据集用于不同的 AI Platform Data Labeling Service 请求。您可以获取可用数据集列表，也可以删除不再需要的数据集。如需了解详情，请参阅数据集资源页面。

暂存未加标签的数据

创建数据集的第一步是将数据项上传到 Cloud Storage 存储分区以便加标签。如需了解如何创建存储分区，请参阅准备工作。

Data Labeling Service 支持为三种类型的数据加标签。您可以展开以下各部分，详细了解如何为每种类型提供优质的数据项。目前，只有英文数据集支持添加标签。

图片

图片必须采用受支持的文件类型：

JPEG
PNG

在除图片分割之外的所有图片加标签场景中，文件大小上限为 30MB。在图片分割加标签场景中，文件大小上限为 10MB。

图片的最大尺寸为 1920X1080。

训练数据应尽可能接近要作为预测依据的数据。例如，如果您的用例涉及模糊的低分辨率图片（例如，来自监控摄像头的图片），那么您的训练数据应由模糊的低分辨率图片组成。一般来说，您还应该考虑为训练图片提供多种角度、分辨率和背景。

如果最常见标签下的图片数量不超过最罕见标签下图片数量的 100 倍，则训练模型的效果最佳。建议移除出现频率极低的标签。

视频

视频必须采用 H.264、H.265 和 MPEG4 编解码器生成的 MP4 格式。视频大小上限为 2GB。

训练数据应尽可能接近要作为预测依据的数据。例如，如果您的用例涉及模糊的低分辨率视频（例如，来自监控摄像头的视频），那么您的训练数据应由模糊的低分辨率视频组成。一般来说，您还应该考虑为训练视频提供多种角度、分辨率和背景。

我们建议在每个标签下提供大约 1000 个训练视频。每个标签至少应有 10 个训练视频；对于高级模型，则应至少有 50 个训练视频。一般来说，每个标签下需要有更多示例，才能训练可为每个视频添加多个标签的模型，这种情况下得分也更难以解读。

如果最常见标签下的视频数量不超过最不常见标签下视频数量的 100 倍，则模型效果最佳。建议移除出现频率极低的标签。

文本

文本文件必须采用 UTF-8 文本文件编码格式。

每个文档都必须是单独的文本文件。您不能在一个文本文件中提供多个文档；例如，您不能将文本文件的每一行视为其自己的文档。

每个文本文件的字符数上限为 10 万。

尽量使您的训练数据与作为预测依据的数据一样多样。数据集需包含不同长度的文档、由不同人员撰写的文档、使用不同措辞或风格的文档等等。

我们建议为每个标签提供至少 1000 个训练文档。每个标签的文档数下限为 10。但是，您可以每个标签使用更多样本，从而提高模型的置信度分数。如果模型返回多个标签来对文档进行分类，提高置信度分数尤其有用。

如果最常见标签下的文档数量不超过最罕见标签下文档数量的 100 倍，则模型效果最佳。建议移除出现频率极低的标签。

创建输入 CSV 文件

除了样本数据项以外，您还需要创建一个为所有数据编制目录的英文逗号分隔值 (CSV) 文件。该 CSV 文件可以采用任何文件名，但必须使用 UTF-8 编码，并且文件名必须以 .csv 扩展名结尾。

对于图片和视频数据，CSV 文件中的每一行都是一个图片或视频的位置（在项目的 Google Cloud Storage 存储分区中）。例如：

gs://my_project_bucket/image1.png
gs://my_project_bucket/image2.png
gs://my_project_bucket/image3.png
gs://my_project_bucket/image4.png

对于文本数据，CSV 文件中的每一行都是文本文件的存储位置。例如：

gs://my_project_bucket/file1.txt
gs://my_project_bucket/file2.txt
gs://my_project_bucket/file3.txt
gs://my_project_bucket/file4.txt

每个数据文件都应包含您要标记的数据。每个数据文件的内容将作为一个标签问题显示给标签添加者。

创建为数据项编制目录的 CSV 文件后，将其上传到数据项所在的 Cloud Storage 存储分区。