创建和管理数据集

数据集包含要翻译的内容类型的代表性样本,即源语言和目标语言的匹配句对。数据集用作训练模型的输入。

一个项目可以有多个数据集;每个数据集可用于训练一个单独的模型。

创建数据集

创建一个数据集并添加模型训练数据。创建数据集时,请指定训练数据的源语言和目标语言。如需详细了解支持的语言和变体,请参阅自定义模型的语言支持

网页界面

在 AutoML Translation 控制台中,您可以创建新数据集并将训练项导入其中。
  1. 进入 AutoML Translation 控制台。

    进入“翻译”页面

  2. 在导航窗格中,点击数据集

  3. 数据集页面上,点击创建数据集

  4. 创建数据集对话框中,指定数据集的详细信息:

    • 输入数据集的名称。
    • 从下拉列表中选择源语言和目标语言。
    • 点击创建

REST

以下示例演示了如何向 project.locations.datasets/create 方法发送 POST 请求。

在使用任何请求数据之前,请先进行以下替换:

  • PROJECT_ID:您的 Google Cloud 项目 ID。
  • LOCATION:数据集所在的区域,例如 us-central1
  • DATASET_NAME:数据集的名称。
  • SOURCE_LANG_CODE:用以指定数据集源语言的语言代码
  • TARGET_LANG_CODE:用以指定数据集目标语言的语言代码

HTTP 方法和网址:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

请求 JSON 正文:

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

如需发送您的请求,请展开以下选项之一:

您应该收到类似以下内容的 JSON 响应:

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

其他语言

C#:请按照客户端库页面上的 C# 设置说明操作,然后访问 .NET 版 Cloud Translation 参考文档

PHP:请按照客户端库页面上的 PHP 设置说明操作,然后访问 PHP 版 Cloud Translation 参考文档

Ruby:请按照客户端库页面上的 Ruby 设置说明操作,然后访问 Ruby 版 Cloud Translation 参考文档

将句段导入数据集

创建数据集后,您可以将句对导入数据集。如需详细了解如何准备源数据,请参阅准备训练数据

对于每个文件,Google Cloud 控制台都允许您使用一个或多个键值对来标记导入的句对。通过标记,您可以轻松地按来源查找和过滤句段。例如,键值对可以是 Domain:costmeticsYear:2020

通过 Google Cloud 控制台导入句段时,可以添加标记;API 不支持标记。此外,您无法修改标记或向已导入的句段添加标记。

网页界面

以下步骤会将句对项导入现有数据集。

  1. 进入 AutoML Translation 控制台。

    进入“翻译”页面

  2. 在导航窗格中,点击数据集

  3. 在数据集列表中,点击要向其添加训练数据的数据集的名称。

  4. 点击导入标签页。

  5. 添加文件以导入句段对以进行模型训练。

    将文件从本地计算机上传到 Cloud Storage 存储桶,或从 Cloud Storage 中选择现有文件。

    默认情况下,Cloud Translation 会自动将数据拆分为训练集、验证集和测试集。如果要为每组数据上传单独的文件,请选择使用单独的文件进行训练、验证和测试(高级)。如果您的数据集包含超过 10 万句对,请使用此选项,以避免超出验证集和测试集的句对数上限(1 万)。

  6. 如需向句对添加标记,请展开标记(可选)

    1. 在文件列表中,点击 修改,向给定文件的所有句对添加一个或多个标记。

    2. 标记窗格中,点击添加标记

    3. 输入键和值。您可以按此键值对过滤句段。

    4. 如需添加更多标记,请点击添加标记

    5. 添加完代码后,点击继续

  7. 点击继续以导入句对。

    导入完成后,您可以在数据集的句段标签页中查看导入的句对。您可以通过拆分(训练、验证或测试)或通过一个或多个标记过滤句段。

REST

使用 projects.locations.datasets.importData 方法将数据项导入数据集。

在使用任何请求数据之前,请先进行以下替换:

  • PROJECT_ID:您的 Google Cloud 项目 ID。
  • LOCATION:数据集所在的区域,例如 us-central1
  • DATASET_ID:要向其添加数据的数据集的 ID。
  • FILE_DISPLAY_NAME:包含要导入的数据的文件的名称。
  • USAGE:指定这些句对的数据拆分(TRAINVALIDATIONTEST)。
  • FILE_PATH:Cloud Storage 中源数据文件的路径。

HTTP 方法和网址:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

请求 JSON 正文:

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

如需发送您的请求,请展开以下选项之一:

您应该收到类似以下内容的 JSON 响应:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

其他语言

C#:请按照客户端库页面上的 C# 设置说明操作,然后访问 .NET 版 Cloud Translation 参考文档

PHP:请按照客户端库页面上的 PHP 设置说明操作,然后访问 PHP 版 Cloud Translation 参考文档

Ruby:请按照客户端库页面上的 Ruby 设置说明操作,然后访问 Ruby 版 Cloud Translation 参考文档

创建并填充数据集后,您便可以开始训练模型。如需了解详情,请参阅创建和管理模型

导入问题:

创建数据集时,如果句段过长、源语言和目标语言句段内容相同(即未翻译)或是存在重复句段(即多个句段包含相同的源语言文本),AutoML Translation 便可能会丢弃相关句对。

对于过长的句对,建议将句段拆分为包含大约 200 字或更少,然后重新创建数据集。这里 200 字上限是预估的最大长度。在处理数据时,AutoML Translation 会使用内部流程对输入数据进行令牌化,这可能会增加句段的大小。AutoML Translation 可使用此令牌化数据测量数据大小。

从数据集中移除相同的句对。如果您不想翻译部分句段,可使用术语表资源构建自定义字典。

导出数据

您可以将句对从现有数据集导出到 Cloud Storage 存储桶。

网页界面

  1. 进入 AutoML Translation 控制台。

    进入“翻译”页面

  2. 在导航窗格中,点击数据集以查看数据集列表。

  3. 点击要为其导出数据的数据集的名称。

  4. 在数据集详细信息页面上,点击导出数据

  5. 选择用于保存导出的 TSV 文件的 Cloud Storage 目标位置。

  6. 点击导出

    AutoML Translation 会输出这些 TSV 文件,这些文件会按其对应的数据集(训练、验证和测试)进行命名。

REST

使用 projects.locations.datasets.exportData 方法以 TSV 文件的形式将数据导出到 Cloud Storage。

在使用任何请求数据之前,请先进行以下替换:

  • PROJECT_ID:您的 Google Cloud 项目 ID。
  • LOCATION:要导出的数据集所在的区域,例如 us-central1
  • DATASET_ID:要导出的数据集的 ID。
  • DESTINATION_DIRECTORY:输出将被发送到的 Cloud Storage 路径。

HTTP 方法和网址:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

请求 JSON 正文:

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

如需发送您的请求,请展开以下选项之一:

您应该收到类似以下内容的 JSON 响应:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

其他语言

C#:请按照客户端库页面上的 C# 设置说明操作,然后访问 .NET 版 Cloud Translation 参考文档

PHP:请按照客户端库页面上的 PHP 设置说明操作,然后访问 PHP 版 Cloud Translation 参考文档

Ruby:请按照客户端库页面上的 Ruby 设置说明操作,然后访问 Ruby 版 Cloud Translation 参考文档

列出数据集

列出项目中的可用数据集。

网页界面

如需使用 AutoML Translation 控制台查看可用数据集的列表,请在导航窗格中点击数据集

如需查看其他项目的数据集,请从标题栏右上角的下拉列表中选择该项目。

REST

在使用任何请求数据之前,请先进行以下替换:

  • PROJECT_ID:您的 Google Cloud 项目 ID。
  • LOCATION:要列出的数据集所在的区域,例如 us-central1

HTTP 方法和网址:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

如需发送您的请求,请展开以下选项之一:

您应该收到类似以下内容的 JSON 响应:

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

其他语言

C#:请按照客户端库页面上的 C# 设置说明操作,然后访问 .NET 版 Cloud Translation 参考文档

PHP:请按照客户端库页面上的 PHP 设置说明操作,然后访问 PHP 版 Cloud Translation 参考文档

Ruby:请按照客户端库页面上的 Ruby 设置说明操作,然后访问 Ruby 版 Cloud Translation 参考文档

删除数据集

网页界面

  1. AutoML Translation 控制台中,点击导航窗格中的数据集,以显示可用数据集的列表。

  2. 对于要删除的数据集,选择 更多 > 删除

  3. 在确认对话框中点击确认

REST

在使用任何请求数据之前,请先进行以下替换:

  • PROJECT_ID:您的 Google Cloud 项目 ID。
  • LOCATION:要列出的数据集所在的区域,例如 us-central1
  • DATASET_ID:要删除的数据集的 ID。

HTTP 方法和网址:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

如需发送您的请求,请展开以下选项之一:

您应该收到类似以下内容的 JSON 响应:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

其他语言

C#:请按照客户端库页面上的 C# 设置说明操作,然后访问 .NET 版 Cloud Translation 参考文档

PHP:请按照客户端库页面上的 PHP 设置说明操作,然后访问 PHP 版 Cloud Translation 参考文档

Ruby:请按照客户端库页面上的 Ruby 设置说明操作,然后访问 Ruby 版 Cloud Translation 参考文档