从 Data Catalog 转换到 Dataplex Catalog

如果您使用的是 Data Catalog,可以按照本文档中所述的步骤将 Data Catalog 内容和使用情况转移到 Dataplex Catalog。

如果您刚开始使用目录,建议您先将 Dataplex Catalog 配置为默认目录体验,然后再开始使用。

本文档面向数据管理员和数据管理员。

Dataplex Catalog 采用了新的网页界面和 API。改用 Dataplex Catalog 后,您的现有和未来的工作负载以及用户将受益于其增强的功能和特性。如需了解详情,请参阅 Dataplex Catalog 概览

如需比较 Dataplex Catalog 和 Data Catalog,请参阅 Dataplex Catalog 与 Data Catalog

在开始转换之前,请查看 Dataplex Catalog 不支持的功能

改用概览

Google Cloud 控制台中的管理向 Dataplex 的过渡页面提供了一个集中位置来管理过渡。

本部分介绍了各种转换场景,并概述了每种场景的转换流程。

如果您在 Data Catalog 中没有自定义元数据,或者您从未使用过 Data Catalog

如果您使用的是 Data Catalog,并且没有自定义元数据(例如标记、标记模板、自定义条目或条目组),或者您从未使用过 Data Catalog,则可以通过将默认目录界面体验设置为 Dataplex Catalog 来完成转换。

如果您有 Data Catalog 自定义元数据或程序化工作负载

如果您将 Data Catalog 与自定义元数据(例如标记、标记模板、自定义条目或条目组)搭配使用,Dataplex 可以自动将这些自定义元数据作为 read-only 导入 Dataplex Catalog。如需启用此功能,需要进行配置更改,如准备阶段中所述。

第二阶段是转移阶段,在此阶段,自定义元数据的有效状态 (read-write) 会移至 Dataplex Catalog。在此阶段,您还必须更新任何程序化工作负载(例如 API、客户端库、Terraform 模块和 Google Cloud CLI 命令),以便与 Dataplex Catalog 进行交互。

以下详细介绍了转换流程的各个阶段:

  1. 准备阶段:执行必要的配置任务,以便 Data Catalog 内容同时以 read-only 的形式显示在 Dataplex Catalog 中。在此阶段,Data Catalog 仍是元数据内容的权威来源。

    准备阶段包括以下任务:

    1. 将 Data Catalog 专用标记模板更新为公开标记模板。
    2. 选择启用标记模板和标记,以便在 Dataplex Catalog 中同时提供元数据。
    3. 为自定义元数据配置 Dataplex Catalog IAM 权限。

    如需了解详情,请参阅准备阶段

  2. 转移阶段:将目录使用情况和自定义元数据的有效状态 (read-write) 移至 Dataplex Catalog。

    转移阶段包括以下任务:

    1. 将默认目录界面体验设为 Dataplex Catalog。
    2. 将 Data Catalog 自定义元数据转移到 Dataplex Catalog。
    3. 更新程序化工作负载。

    完成转移阶段后,Dataplex Catalog 将成为所有元数据的权威来源,您无需使用 Data Catalog。

    如需了解详情,请参阅转移阶段

所需的角色

如需获得从 Data Catalog 转换为 Dataplex Catalog 所需的权限,请向资源授予以下 IAM 角色:

  • 将专用标记模板更新为公开标记模板: Data Catalog TagTemplate Owner (roles/datacatalog.tagTemplateOwner)

    此预定义角色包含 datacatalog.tagTemplates.update 权限,该权限是将非公开标记模板更新为公开标记所必需的。

  • 选择启用公开标记模板和标记,以便在 Dataplex Catalog 中同时提供元数据: DataCatalog Migration Config Admin (roles/datacatalog.migrationConfigAdmin)

    此预定义角色包含 datacatalog.migrationConfig.set 权限,该权限是启用代码模板和代码所必需的。

  • 将默认目录界面体验设为 Dataplex Catalog: DataCatalog Migration Config Admin (roles/datacatalog.migrationConfigAdmin)

    此预定义角色包含 datacatalog.migrationConfig.set 权限,该权限是设置默认目录界面体验所必需的。

  • 将 Data Catalog 公开标记模板转移到 Dataplex Catalog:Data Catalog TagTemplate Owner (roles/datacatalog.tagTemplateOwner)

    此预定义角色包含 datacatalog.tagTemplates.update 权限,该权限是转移公开代码模板所必需的。

  • 将数据目录条目组转移到 Dataplex 目录:DataCatalog EntryGroup Owner (roles/datacatalog.entryGroupOwner)

    此预定义角色包含 datacatalog.entryGroups.update 权限,转移条目组需要该权限。

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以使用自定义角色或其他预定义角色来获取所需的权限。

准备阶段

此阶段涉及的任务是使 Data Catalog 元数据内容在 read-only 模式下同时在 Dataplex Catalog 中提供。

以下是准备阶段需要注意的要点:

  • Data Catalog 仍然是自定义元数据的权威来源。
  • Dataplex 搜索页面默认指向 Data Catalog 搜索,该搜索仅包含 Data Catalog 元数据,不包含 Dataplex Catalog 元数据。
  • 在您完成准备阶段之前,Dataplex Catalog 搜索功能可能不涵盖所有 Data Catalog 公开标记模板和标记。

Data Catalog 自定义条目组及其条目已作为 read-only 同时在 Dataplex Catalog 中提供。在准备阶段选择启用公开标记模板和标记后,其内容将同时作为 read-only 同步到 Dataplex Catalog 中。

下表显示了在 Data Catalog 资源同时在 Dataplex Catalog 中提供时,Data Catalog 资源与 Dataplex Catalog 资源之间的映射:

Data Catalog 和 Dataplex Catalog 之间的映射
Data Catalog 资源 相应的 Dataplex Catalog 资源 说明
标记模板 切面类型(全局)

Data Catalog 中的标记模板是区域性资源。选择启用标记模板后,其内容会同时作为全局切面类型在 Dataplex Catalog 中提供。这是为了保留标记和标记模板之间的跨区域引用。全局切面类型的定义将会复制到所有 Google Cloud 区域。

Schema 等标准概念由 Dataplex 提供的系统切面类型表示。如需了解详情,请参阅方面类型的类别

标记 可选切面 当您选择启用标记模板后,其标记会同时作为可选切面在 Dataplex Catalog 中提供。如需了解详情,请参阅方面类别
条目组 条目组 在 Dataplex Catalog 中,系统条目的条目组是按项目和区域建立的。在 Data Catalog 中创建的条目组会同时在 Dataplex Catalog 中提供。
自定义条目 自定义条目 Data Catalog 中的所有自定义条目都会同时作为 Dataplex Catalog 中的 GenericEntryType 条目提供。如需了解详情,请参阅条目类型的类别
系统条目(Google Cloud) 系统条目必填方面 系统定义的切面类型的必需切面中会捕获描述系统条目的元数据,例如 BigQuery 表的 Schema

将 Data Catalog 专用标记模板更新为公开标记模板

Dataplex Catalog 不支持专用切面的概念(与专用标记相对应)。因此,专用标记模板和标记都不会同步到 Dataplex Catalog 中。如需在 Dataplex Catalog 中传播专用标记模板和标记,您必须将其更新为公开标记。

在继续操作之前,请检查专用标记模板的结构,确保其结构和元数据与公开标记的公开范围一致。

如需将不公开的标记模板和标记更新为公开,请按以下步骤操作:

控制台

  1. 在 Google Cloud 控制台中,前往 Dataplex 目录页面。

    前往目录

  2. 点击管理到 Dataplex 的转换

  3. 点击不公开的代码模板标签页。

  4. 点击管理代码模板

  5. 代码模板页面上,点击要更新的专用代码模板。

  6. 模板详情页面上,点击修改

  7. 公开范围部分,选择公开

  8. 点击更新

REST

如需将专用标记模板更新为公开标记模板,请使用 tagTemplates.patch 方法。

启用公开标记模板和标记,以便在 Dataplex Catalog 中同时提供元数据

选择启用标记模板迁移后, Google Cloud 组织或项目(不属于组织)中的 Data Catalog 公开标记模板和标记的内容会自动连续传播到 Dataplex Catalog 中。Data Catalog 公开标记模板和标记会分别作为公开的切面类型和切面传播到 Dataplex Catalog。全局切面类型的定义将会复制到所有 Google Cloud 区域。

如需启用公开标记模板和标记,请按以下步骤操作:

控制台

  1. 在 Google Cloud 控制台中,前往 Dataplex 目录页面。

    前往目录

  2. 点击管理到 Dataplex 的转换

  3. 点击选择启用标签页。

  4. 点击选择启用

  5. 在确认对话框中,输入显示的文字,然后点击确认

REST

如需选择启用代码模板和代码,请使用 setConfig 方法。

对于 Google Cloud 组织以及不属于任何组织的项目,您都可以点击撤消选择启用,撤消之前提供的选择启用设置。停用标记模板迁移后,系统会停止将 Data Catalog 标记模板和标记传播到 Dataplex Catalog。通过选择启用流程创建但未转移到 Dataplex Catalog 的 Dataplex Catalog 切面类型和切面将被删除。删除过程最长可能需要 12 小时。

为自定义元数据配置 Dataplex Catalog IAM 权限

代表 Data Catalog 中的标记模板和条目组的 Dataplex Catalog 切面类型和自定义条目组不会继承原始 Data Catalog IAM 权限。您必须手动为这些切面类型和自定义条目组配置 Dataplex IAM 权限。

例如,如果您想使用传播的切面类型(表示 Data Catalog 标记模板)创建切面,则必须为该切面类型配置必要的 IAM 权限。同样,在注入自定义元数据时,如需在传播的自定义条目组中创建自定义条目,您必须为该条目组配置必要的 IAM 权限。

如需详细了解 Data Catalog 中的 IAM 权限与 Dataplex Catalog 中的 IAM 权限之间的对应关系,请参阅 Data Catalog 与 Dataplex Catalog 之间的 IAM 权限映射

如需为切面类型和自定义条目组配置必要的 Dataplex IAM 权限,请按以下步骤操作:

控制台

  1. 在 Google Cloud 控制台中,前往 Dataplex 目录页面。

    前往目录

  2. 点击管理到 Dataplex 的转换

  3. 点击 Dataplex 权限标签页。

  4. 如需为切面类型配置 Dataplex IAM 权限,请点击切面类型和标记模板

    1. 对于从 Data Catalog 传播的代码模板,请依次点击 > 权限

    2. 点击添加主账号

    3. 添加新主账号,并分配所需角色。

    4. 点击保存

  5. 如需为条目组配置 Dataplex IAM 权限,请点击条目组

    1. 对于从 Data Catalog 传播的条目组,请依次点击 > 权限

    2. 点击添加主账号

    3. 添加新主账号,并分配所需角色。

    4. 点击保存

REST

如需为切面类型配置 Dataplex IAM 权限,请使用 aspectTypes.setIamPolicy 方法。

如需为条目组配置 Dataplex IAM 权限,请使用 entryGroups.setIamPolicy 方法。

转移阶段

此阶段涉及将 Data Catalog 自定义元数据的有效状态 (read-write) 移至 Dataplex Catalog 的任务。

以下是转移阶段需要注意的要点:

  • Dataplex 搜索页面默认指向 Dataplex Catalog 搜索。
  • 您可以在 Dataplex Catalog 中发现和读取 Data Catalog 和 Dataplex Catalog 元数据。
  • 如需在 Google Cloud 控制台中更新元数据,系统会将您重定向到其来源。例如,如果您要更新 Data Catalog 标记模板,系统会将您重定向到 Data Catalog 中的标记模板页面。

将默认目录界面体验设为 Dataplex Catalog

将默认目录界面体验设为 Dataplex Catalog 意味着:

  • 当您前往Google Cloud 控制台中的 Dataplex 搜索页面时,系统会默认显示 Dataplex Catalog 搜索。Dataplex Catalog 搜索功能可在 Dataplex Catalog 中运行,并查找您的所有元数据内容,包括在 Dataplex Catalog 中创建的内容和从 Data Catalog 中引入的内容。

    Data Catalog 搜索功能仅会查找 Data Catalog 内容,而不会查找 Dataplex Catalog 内容。因此,我们建议使用 Dataplex Catalog 搜索功能。

  • 网页界面会提示您在 Dataplex Catalog 中创建新资源。例如,它默认会显示创建切面类型,而不是创建标记模板,以及创建条目组 (Dataplex Catalog),而不是创建条目组 (Data Catalog)

  • 将默认目录界面体验设为 Dataplex Catalog 通常是单向操作。不过,在特殊情况下,您可以使用 Dataplex 还原更改,例如,当您想将默认目录界面体验切换回 Data Catalog 时。如果您还原更改,将无法在 Data Catalog 网页界面中访问在 Dataplex Catalog 中创建的任何内容。

如需将默认目录界面体验设为 Dataplex Catalog,请按以下步骤操作:

控制台

  1. 在 Google Cloud 控制台中,前往 Dataplex 目录页面。

    前往目录

  2. 点击管理到 Dataplex 的转换

  3. 点击 Dataplex Search 标签页。

  4. 点击将默认目录界面体验设为 Dataplex Catalog

REST

如需将默认目录界面体验设为 Dataplex Catalog,请使用 setConfig 方法。

将 Data Catalog 自定义元数据转移到 Dataplex Catalog

您可以将 Data Catalog 公开标记模板(您已选择启用)和自定义条目组转移到 Dataplex Catalog。请务必单独转移每个标记模板和自定义条目组。

以下总结了转移过程:

  • 效果

    • 将资源的有效状态从 Data Catalog 转移到 Dataplex Catalog。转移后,若要修改资源或访问其当前状态,您必须使用 Dataplex Catalog。
  • 数据内容和数据流的更改

    • 在 Data Catalog 中将资源标记为 read-only
    • 在 Dataplex Catalog 中将资源标记为 read-write
    • 停止同时提供此资源。
  • 依赖项

    • 转移标记模板时,使用该模板的所有标记也会一并转移。
    • 转移条目组时,条目组中的所有条目也会一并转移。
    • 转移条目不会影响其标记和相应标记模板的转移状态。

在转移之前,若要修改条目(例如 overviewcontacts)的业务情境,您可以同时使用 Data Catalog API 和 Dataplex API。转移后,您必须仅使用 Dataplex API。

下文介绍了可以对已标记的自定义 Data Catalog 条目执行哪些操作,具体取决于相关自定义条目组和标记模板的转移状态:

  • 当标记模板在 Data Catalog 中处于有效状态时,您可以使用该标记模板创建标记。将标记模板转移到 Dataplex Catalog 后,您将无法再使用该模板在 Data Catalog 中创建标记。
  • 只有在转移标记模板后,您才能使用从 Data Catalog 标记模板传播的切面类型创建切面。

如需将 Data Catalog 标记模板和自定义条目组转移到 Dataplex Catalog,请按以下步骤操作:

控制台

  1. 在 Google Cloud 控制台中,前往 Dataplex 目录页面。

    前往目录

  2. 点击管理到 Dataplex 的转换

  3. 点击转移到 Dataplex 标签页。

  4. 如需将 Data Catalog 标记模板转移到 Dataplex Catalog,请点击查看切面类型和标记模板

    1. 选择要转移的代码模板。

    2. 点击转移

    3. 在确认对话框中,点击确认

  5. 如需将 Data Catalog 自定义条目组转移到 Dataplex Catalog,请点击查看条目组

    1. 选择要转移的条目组。

    2. 点击转移

    3. 在确认对话框中,点击确认

REST

如需将 Data Catalog 标记模板和自定义条目组转移到 Dataplex Catalog,请使用 tagTemplates.patch 方法。

完成转移阶段后,Dataplex Catalog 将成为所有元数据的权威来源,您无需使用 Data Catalog。

更新程序化工作负载

Dataplex 目录附带新的 API、客户端库、Terraform 模块和 Google Cloud CLI 命令。因此,您必须将所有以程序化方式使用 Data Catalog 的现有工作负载更新为 Dataplex Catalog。请参阅 Dataplex 的代码示例

请务必在更新程序化工作负载时转移依赖资源(例如标记模板和自定义条目组)。这是必要的,因为转移会将资源的有效 (read-write) 状态从 Data Catalog 移至 Dataplex Catalog。

以下示例展示了更新程序化工作负载以与 Dataplex Catalog 交互的顺序,并与转移依赖资源协调一致:

  1. 如果您的工作负载可以容忍最终一致性,请将工作负载的 read 操作移至 Dataplex Catalog。

  2. 将执行标记 write 操作的工作负载移至 Dataplex Catalog,并协调转移相应的标记模板。

  3. 将执行自定义提取 write 操作的工作负载移至 Dataplex Catalog,并协调转移相应的自定义条目组。

如果您需要将更新工作负载与转移相应资源分离,请考虑在工作负载中实现逻辑,以便根据资源转移状态将 read-write 路由到 Data Catalog 或 Dataplex Catalog。因此,工作负载将独立于相关资源的转移状态运行。

后续步骤