方法:projects.locations.datasets.importData

将数据导入数据集。

您只能针对空数据集调用此方法。

如需了解详情,请参阅将数据项导入数据集

HTTP 请求

POST https://automl.googleapis.com/v1beta1/{name}:importData

路径参数

参数
name

string

必填。数据集名称。数据集必须是当前存在的数据集。系统会添加所有导入的注释和示例。

如要获得授权,必须具有指定资源 name 的以下 Google IAM 权限:

  • automl.datasets.import

请求正文

请求正文中包含结构如下的数据:

JSON 表示法

{
  "inputConfig": {
    object(InputConfig)
  }
}
字段
inputConfig

object(InputConfig)

必填。目标输入位置及其网域特定语义(如果有)。

响应正文

如果成功,响应正文将包含一个 Operation 实例。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

InputConfig

datasets.importData 操作的输入配置。

输入格式取决于正在发生导入操作的数据集所具有的 dataset_metadata。对于输入源,除非另有说明,否则应为 gcsSource。如果多次提到具有相同内容(即使它具有不同的 GCS_FILE_PATH)的文件,则会附加其标签、边界框等等。应始终为同一文件提供相同的 ML_USEGCS_FILE_PATH,否则无法从给定的值中确切地选择这些值。

格式以 EBNF 表示,其中逗号作为字面量,并在该注释末尾附近定义非终结符号。格式如下:

如需了解详情,请参阅准备训练数据

CSV 文件,每行的格式为:

ML_USE,GCS_FILE_PATH
  • ML_USE - 标识当前行(文件)适用的数据集。这个值可以是以下值之一:

    • TRAIN - 此文件中的行用于训练模型。
    • TEST - 此文件中的行用于在训练期间测试模型。
    • UNASSIGNED - 此文件中的行未分类。它们会自动划分为训练数据和测试数据。80% 用于训练,20% 用于测试。
  • GCS_FILE_PATH - 标识在 Google Cloud Storage 中存储的文件,其中包含模型训练信息。

TRAINUNASSIGNED CSV 文件中确定训练数据集之后,训练数据被划分为训练数据集和验证数据集。70% 用于训练,30% 用于验证。

使用 GCS_FILE_PATH 字段指定的每个 CSV 文件都采用以下格式:

GCS_FILE_PATH,LABEL,TIME_SEGMENT_START,TIME_SEGMENT_END
  • GCS_FILE_PATH - 在 Google Cloud Storage 中存储的视频的路径。视频时长不得超过 1 小时。支持的扩展名:.MOV、.MPEG4、.MP4、.AVI 以及 ffmpeg 支持的任何文件格式。

  • LABEL - 标识视频片段对象的标签。

  • TIME_SEGMENT_STARTTIME_SEGMENT_END - 要添加注释的视频片段的开始和结束时间戳(以秒为单位)。这些值必须在视频的时长范围内,TIME_SEGMENT_END 必须晚于 TIME_SEGMENT_START

视频的任意帧具有一个或多个标签,则会被视为所有其他标签的难分样本。默认情况下,没有标签的帧被视为未知(可以通过 is_exhaustively_labeled 参数进行替换)。特殊标签“-”可用于表示给定时间段是所有标签的难分样本,标有“-”的片段不能与任何其他标签的片段重叠。

样本文件:

TRAIN,gs:folder/train_videos.csv
TEST,gs:folder/test_videos.csv
UNASSIGNED,gs:folder/other_videos.csv

以下是 gcsSource“顶级”文件标识的一个 CSV 文件的格式样本。

 gs:folder/video1.avi,car,120,180.000021
 gs:folder/video1.avi,bike,150,180.000023
 gs:folder/video1.avi,-,180.000024,300.000999
 gs:folder/vid2.avi,car,0,60.5

错误:

如果无法解析提供的任何 CSV 文件,或者如果无法处理超过特定百分比的 CSV 行,则操作失败,并且不会导入任何内容。无论总体成功还是失败,每行失败率(不超过特定计数上限)将列在 Operation.metadata.partial_failures 中。

JSON 表示法

{
  "gcsSource": {
    object(GcsSource)
  }
}
字段
gcsSource

object(GcsSource)

输入内容所在的 Google Cloud Storage 位置。