本文档介绍了如何使用 Dataplex 属性存储区。
Dataplex 属性存储区是一种可扩展的基础架构,可让您针对关联的资源指定与政策相关的行为。Dataplex 管理员可以使用属性存储区,通过将数据与属性相关联来定义应如何处理特定数据。
借助属性存储区,您可以向对象(例如列)添加多个属性。属性存储区会合并与对象关联的所有属性的行为,并将其作为底层资源上的单一政策进行呈现。
您可以为已发布的数据集设置属性。已发布的数据集是指 Dataplex 根据存储分区资产中发现的表创建的数据集。
支持以下政策行为:
- 资源规范:指定对资源(例如表格)的访问权限
- 列规范:指定对 BigQuery 表中列的访问权限
您可以使用属性存储区定义一个称为分类法的属性层次结构。在分类法中,子属性会继承父属性层次结构中的规范。父级和子级的规范会合并到一个统一的列表中,并传播到资源。
您可以使用 Dataplex 属性存储区执行以下操作:
- 创建分类。
- 创建属性并将其整理成层次结构。
- 将一个或多个属性与表相关联。
- 将一个或多个属性与列相关联。
术语
本部分介绍本文档中使用的术语。
属性分类
数据分类是属性的层次结构。在分类法中,父节点中的属性允许位于其下方的属性(子属性)继承父属性的行为规范,并将其添加到自己的行为规范中。
例如:如果名为 PII
的属性具有资源规范 group-a@company.com
,并且 PII
的子属性(名为 Social Security numbers
)具有资源规范 group-b@company.com
,则应用于关联了属性 Social Security numbers
的政策的资源规范将为 group-a@company.com
和 group-b@company.com
。
定义属性时,您可以选择它是父属性还是子属性。定义子属性时,您必须指定其父属性。
列规范
列的行为规范。它用于指定对列拥有读取权限的用户或群组。如果您将包含列规范的属性与表的列相关联,系统会向该列添加 BigQuery 列政策标记。
资源规范
用户或群组访问资源(表)的权限。 如果您将属性与资源规范相关联,Dataplex 会将 IAM 角色传播给指定用户,以便他们访问与该属性关联的表。
准备工作
限制
Dataplex 会将列规范政策作为 BigQuery 政策标记传播。BigQuery 限制每个列只能有一个政策标记。如果列上已有政策标记,Dataplex 会在管理标签页的治理日志中抛出错误。
配额
以下是适用于 Dataplex 属性存储区的配额和限制:
限制 | 默认 |
---|---|
每个区域的分类数量上限 | 100 |
一个区域内所有分类中的属性数量上限 | 10000 |
可与资源(表)关联的属性数量上限 | 50 |
可与列关联的属性数量上限 | 100 |
属性分类中每个数据属性树的最大深度 | 4 |
所需的角色
如需获得使用 Dataplex 属性存储所需的权限,请让您的管理员为您授予项目的以下 IAM 角色:
-
管理分类和属性:
Dataplex Taxonomy Admin (
roles/dataplex.taxonomyAdmin
) -
与资源和属性关联的视图绑定:
Dataplex Taxonomy Viewer (
roles/dataplex.taxonomyViewer
) -
在项目中创建和管理绑定资源:
-
Dataplex Binding Admin (
roles/dataplex.bindingAdmin
) -
Dataplex 管理员(对 Zone 资源使用
roles/dataplex.admin
)
-
Dataplex Binding Admin (
-
管理资源和数据访问权限规范:
Dataplex Security Admin (
roles/dataplex.securityAdmin
)
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
这些预定义角色包含使用 Dataplex 属性存储所需的权限。如需查看所需的确切权限,请展开所需权限部分:
所需权限
使用 Dataplex 属性存储需要以下权限:
-
管理分类和属性:
-
dataplex.datataxonomies.*
-
dataplex.dataattributes.*
(exceptdataplex.dataattributes.configureResourceAccess
anddataplex.dataattributes.configureDataAccess
)
-
-
查看与资源和属性关联的绑定:
-
dataplex.datataxonomies.get
-
dataplex.datataxonomies.list
-
dataplex.dataattributes.get
-
dataplex.dataattributes.list
-
dataplex.dataattributebindings.get
-
dataplex.dataattributebindings.list
-
-
在项目中创建和管理绑定资源:
dataplex.dataattributebindings.*
-
管理资源和数据访问规范:
-
dataplex.datataxonomies.configureResourceAccess
-
dataplex.datataxonomies.configureDataAccess
-
应用场景示例
假设有一个名为 ACME
的公司,其中包含三种类型的数据:
Red
敏感数据Green
受限但敏感性较低的数据- 未分类数据
ACME
的 Dataplex 管理员创建以下一组属性:
属性:
Red
- 列规范:具有读取权限的
secrets_team@acme
- 资源规范:具有读取权限的
secrets_team@acme
和tenured_employees@acme
- 列规范:具有读取权限的
属性:
Green
- 列规范:具有读取权限的
full_time_employees@acme
- 资源规范:具有修改权限的
full_time_employees@acme
- 列规范:具有读取权限的
属性 Red
和 Green
会根据与表及其列关联的属性来控制对资源(表)的访问行为。
假设有一个表包含以下列:
- ID
- 邮政编码
- 名称
- 地址
- $Value
应用场景 1:将同一属性与表格和列相关联
如果您将属性 Red
与表及其列 Name 相关联,则 Dataplex 会传播以下政策:
secrets_team@acme
和tenured_employees@acme
中的员工可以读取该表、查看其元数据并对其进行查询。- 只有
secrets_team@acme
中的员工可以查询“姓名”列,因为该列受列规范的进一步保护。
用例 2:组合属性
请考虑以下关联:
- 将属性
Red
和Green
与表相关联。 - 将属性
Red
和Green
与“名称”列相关联。 - 将属性
Red
与列 $Value 相关联。
在这种情况下,Dataplex 会传播以下政策:
secrets_team@acme
、tenured_employees@acme
和full_time_employees@acme
中的员工可以访问该表。这是因为 Dataplex 会合并属性Red
和Green
的资源规范。secrets_team@acme
和full_time_employees@acme
中的员工都可以访问“姓名”列。这是因为 Dataplex 会合并属性Red
和Green
的列规范。- 只有
secrets_team@acme
中的员工可以查询 $Value 列。
用例 3:在层次结构中整理属性
您可以通过指定属性的子类型,在层次结构中整理属性。请考虑以下属性集:
父级属性 1:
属性:PII
- 列规范:
secrets_team@acme
- 资源规范:
secrets_team@acme
和tenured_employees@acme
PII
的子属性:
属性:Email
- 列规范:
email_comm@acme
- 资源规范:
email_comm@acme
父级属性 2:
属性:Financial
- 列规范:
full_time_employees@acme
- 资源规范:
full_time_employees@acme
请考虑以下关联:
- 将属性
Email
和Financial
与表相关联。 - 将属性
Email
和Financial
与“名称”列相关联。 - 将属性
PII
与列 $Value 相关联。
在这种情况下,Dataplex 会传播以下政策:
secrets_team@acme
、tenured_employees@acme
、full_time_employees@acme
和email_comm@acme
中的员工可以访问该表。这是因为 Dataplex 会合并属性Financial
和Email
的资源规范,而属性Email
会继承属性PII
的规范。secrets_team@acme
、email_comm@acme
和full_time_employees@acme
中的员工可以访问“姓名”列。这是因为 Dataplex 会合并属性Financial
和Email
的列规范。- 只有
secrets_team@acme
中的员工可以查询 $Value 列。
设置属性
如需创建属性,您必须先创建分类,然后再创建父级和子级数据属性。
创建数据属性分类
在 Google Cloud 控制台中,前往 Dataplex 的属性存储区页面。
点击创建分类。
输入分类名称、ID 和说明。
选择区域。
点击提交。
新分类会显示在数据分类页面上。
创建父级属性
在 Google Cloud 控制台中,前往 Dataplex 的属性存储区页面。
在数据分类页面上,点击您要创建父级属性的分类。
在分类详情页面上,点击添加数据属性。
选择创建父级数据属性。
为父级属性输入名称、ID 和说明。
可选:设置属性规范。
设置资源规范:
- 点击资源的管理权限。
- 点击添加。
- 在新主账号字段中,输入需要访问资源的个人或群组的电子邮件地址。
- 选择所需的角色,然后点击保存。
- 点击保存。
设置列规范:
- 点击列的管理权限。
- 点击添加。
- 在新主账号字段中,输入需要访问该列的用户或群组的电子邮件地址。
- 选择所需的角色,然后点击保存。
- 点击保存。
点击创建。
创建子属性
在 Google Cloud 控制台中,前往 Dataplex 的属性存储区页面。
在 Data Taxonomies(数据分类)页面上,点击您要创建子属性的分类。
在分类详情页面上,点击添加数据属性。
选择创建子级数据属性。
为要创建的子属性选择父级数据属性。
为子属性输入名称、ID 和说明。
可选:设置属性规范。
设置资源规范:
- 点击资源的管理权限。
- 点击添加。
- 在新主账号字段中,输入需要访问资源的个人或群组的电子邮件地址。
- 选择所需的角色,然后点击保存。
- 点击保存。
设置列规范:
- 点击列的管理权限。
- 点击添加。
- 在新主账号字段中,输入需要访问该列的用户或群组的电子邮件地址。
- 选择所需的角色,然后点击保存。
- 点击保存。
点击创建。
更新属性存储资源
更新分类详情
在 Google Cloud 控制台中,前往 Dataplex 的属性存储区页面。
点击要更新的分类。
点击修改。
根据需要修改分类名称及其说明。
点击提交。
更新属性详情
在 Google Cloud 控制台中,前往 Dataplex 的属性存储区页面。
点击包含要更新的属性的分类。
点击要更新的属性。
如需更新属性名称和说明,请点击修改。
- 如果您要更新父级属性,可以选择将其更新为子属性,反之亦然。请相应地选择选项。
- 根据需要修改属性名称及其说明。
- 点击更新。
如需更新该属性的资源规范,请点击资源规范旁边的
修改。如需添加新的负责人,请按以下步骤操作:
- 点击添加。
- 在新主账号字段中,输入需要访问资源的个人或群组的电子邮件地址。
- 选择所需的角色。
- 点击保存。
如需更新现有负责人,请按以下步骤操作:
- 针对您要更新的主账号,点击 修改。
- 选择所需的角色。
- 点击保存。
如需移除现有主账号,请按以下步骤操作:
- 选择要移除的主账号。
- 点击移除。
如需更新该属性的列规范,请点击列规范对应的
修改。如需添加新的负责人,请按以下步骤操作:
- 点击添加。
- 在新主账号字段中,输入需要访问该列的用户或群组的电子邮件地址。
- 选择所需的角色。
- 点击保存。
如需更新现有负责人,请按以下步骤操作:
- 针对您要更新的主账号,点击 修改。
- 选择所需的角色。
- 点击保存。
如需移除现有主账号,请按以下步骤操作:
- 选择要移除的主账号。
- 点击移除。
将属性与资源相关联
将属性与表相关联
在 Google Cloud 控制台中,前往 Dataplex 的属性存储区页面。
点击包含相应属性的分类。
点击要与表格关联的属性。
点击资源标签页。
点击添加资源。
从列表中选择一个表格。
点击选择。
将属性与列相关联
在 Google Cloud 控制台中,前往 Data Catalog 的搜索页面。
搜索并选择要将属性与列相关联的表格。
点击架构和列标记标签页。
针对要与属性相关联的列,在政策标记中,依次点击
添加。选择包含该属性的分类。
选择相应属性。
点击附加。
后续步骤
- 详细了解 Dataplex 安全。
- 详细了解 Dataplex 中的政策管理。
- 详细了解 Dataplex IAM 角色。