搭配使用敏感数据保护和 Cloud Data Fusion

本指南介绍如何将敏感数据保护与 Cloud Data Fusion 结合使用。

Cloud Data Fusion 提供了一个敏感数据保护plugin,该插件提供三种可以过滤、隐去或解密敏感数据的转换:

  • 使用“PII 过滤条件”转换,您可以过滤数据输入流中的敏感记录。

  • 使用“遮盖”转换,您可以转换敏感数据,例如遮盖数据或加密数据。

  • 使用“解密”转换,您可以对之前使用“遮盖”转换进行加密的敏感数据进行解密。decrypt

费用

在本文档中,您将使用 Google Cloud 的以下收费组件:

您可使用价格计算器根据您的预计使用情况来估算费用。 Google Cloud 新用户可能有资格申请免费试用

准备工作

  1. 在 Google Cloud 控制台中,转到项目选择器页面,然后选择或创建项目。

    转到项目选择器

  2. 为项目启用 Cloud Data Fusion API。

    启用 Cloud Data Fusion API

  3. 为项目启用 DLP API(敏感数据保护的一部分)。

    启用 DLP API

  4. 创建 Cloud Data Fusion 实例

授予敏感数据保护权限

  1. 在 Google Cloud 控制台中,转到 IAM 页面。

    转到 IAM

  2. 在权限表中,从主账号列中选择以下服务帐号之一:

    1. 对于运行时资源的权限,请选择您的 Dataproc 集群使用的服务帐号。默认是 Compute Engine 服务帐号,出于安全考虑,不建议使用

    2. 如需在 Cloud Data Fusion 中使用 Wrangler 或预览时(而不是在运行时)获取资源的权限,请改为选择与以下格式匹配的服务帐号:service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com

  3. 点击服务账号右侧的铅笔图标。

  4. 点击添加其他角色

  5. 点击显示的下拉列表。

  6. 使用搜索栏进行搜索,然后选择DLP 管理员

  7. 点击保存。检查 DLP 管理员是否显示在角色列中。

部署敏感数据保护插件

  1. 转到您的实例:

    1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。

    2. 如需在 Cloud Data Fusion 网页界面中打开实例,请点击实例,然后点击查看实例

      转到实例

  2. 在 Cloud Data Fusion 网页界面的右上角,点击 Hub

  3. 点击 Data Loss Prevention 插件。

  4. 点击部署

  5. 点击完成

  6. 点击创建流水线

使用 PII 过滤条件转换

此转换会将敏感记录与非敏感记录分开。如果记录符合您在敏感数据保护模板中定义的条件,则会被视为敏感记录。例如,在创建模板时,您可以将敏感数据定义为信用卡信息或社会保障号。

  1. 创建敏感数据保护检查模板

  2. 在 Cloud Data Fusion 中打开流水线,然后点击 Studio > 转换

  3. 点击 PII 过滤条件转换。

  4. 将鼠标指针放在 PII 过滤条件节点上,然后点击属性

  5. 过滤条件下,选择要过滤记录还是字段。

    根据敏感数据保护限制,如果记录超过 0.5 MB,您的 Cloud Data Fusion 流水线将失败。为避免发生此类失败,请按字段而非记录进行过滤。

  6. 模板 ID 下,输入您创建的敏感数据保护模板的模板 ID。

  7. 错误处理下,定义当流水线遇到敏感数据时如何进行后续操作。选择以下一种错误处理选项:

    • 停止流水线:在遇到错误时立即停止流水线。
    • 跳过记录:跳过导致错误的记录。流水线继续运行,且不会报告错误。
    • 发送到错误:将错误发送到错误端口。流水线继续运行。
  8. 点击 X 按钮。

使用遮盖转换

此转换可识别输入流中的敏感记录,并将您定义的转换应用于这些记录。如果记录与您选择的预定义敏感数据保护过滤条件或您定义的自定义模板匹配,则会被视为敏感记录。

  1. 在 Cloud Data Fusion 网页界面的 Studio 页面中,点击以展开转换菜单。

  2. 点击遮盖转换。

  3. 将鼠标指针放在遮盖节点上,然后点击属性

  4. 选择是要对预定义过滤条件应用转换,还是要创建自己的转换。

    不能将这两个选项结合使用。您可以使用预定义过滤条件,也可以创建自定义模板。

    预定义过滤条件

    如需将转换应用于预定义过滤条件,请将自定义模板设置为,并在匹配下定义规则:

    1. 点击应用后,点击下拉列表并选择一种转换。 如需详细了解可用的转换,请参阅插件的文档标签页的说明部分。

    2. 开启之后,点击下拉菜单并选择一个类别,这是一组按类型分组的预定义敏感数据保护过滤器。如需查看所提供类别的完整列表以及类别包含的过滤条件,请参阅插件的文档标签页中的 DLP 过滤条件映射部分。

    要设置多条匹配规则,请点击 + 按钮。

    自定义模板

    要根据自定义模板应用转换,请将自定义模板设置为

    1. 创建自定义敏感数据保护模板

    2. 返回到 Cloud Data Fusion 网页界面,在遮盖属性菜单的模板 ID 下,输入您创建的自定义模板的模板 ID。

  5. 点击 X 按钮。

使用“解密”转换

此转换可识别输入流中使用敏感数据保护加密的记录,并应用解密。只有使用可逆算法(例如格式保留加密确定性加密)加密的记录才能解密。

  1. 在 Cloud Data Fusion 网页界面的 Studio 页面中,点击以展开转换菜单。

  2. 点击解密转换。

  3. 将鼠标指针放在解密节点上,然后点击属性

  4. 输入用于配置加密此数据的 Redact 插件的相同值。此插件的属性与 Redact 插件相同。

  5. 点击 X 按钮。

后续步骤