配置 VPC Service Controls

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

借助 VPC Service Controls,组织可以为Google Cloud 资源定义边界,从而降低数据渗漏风险。

Cloud Composer 环境可以部署在服务边界内。通过使用 VPC Service Controls 配置您的环境,您可以在利用 Cloud Composer 的全代管式工作流编排功能的同时确保敏感数据的私密性。

VPC Service Controls 对 Cloud Composer 的支持意味着:

  • 现在可以选择 Cloud Composer 作为 VPC Service Controls 边界内的安全服务。
  • 将 Cloud Composer 使用的所有底层资源都配置为支持 VPC Service Controls 架构并遵循其规则。

使用 VPC Service Controls 部署 Cloud Composer 环境时,您可以:

  • 降低数据泄露风险。
  • 防止因访问权限控制配置错误而导致数据泄露。
  • 降低恶意用户将数据复制到未经授权的Google Cloud 资源或外部攻击者从互联网访问Google Cloud 资源的风险。

关于 Cloud Composer 中的 VPC Service Controls

  • 所有 VPC Service Controls 网络限制条件也适用于您的 Cloud Composer 环境。如需了解详情,请参阅 VPC Service Controls 文档
  • 运行 Cloud Composer 1.12.0 版或更高版本的环境以及运行 Airflow 1.10.9 版或更高版本的环境支持在启用了 DAG 序列化功能的情况下,在网页界面中显示包含函数的渲染模板。

  • 启用 DAG 序列化时,不支持将 async_dagbag_loader 标志设置为 True

  • 启用 DAG 序列化会停用所有 Airflow 网络服务器插件,因为这些插件可能会影响部署 Cloud Composer 所在 VPC 网络的安全性。这不会影响调度器或工作器插件(包括 Airflow 运算符和传感器)的行为。

  • 如果 Cloud Composer 环境受到边界保护,则对公共 PyPI 代码库的访问权限会受到限制。如需了解详情,请参阅在 VPC Service Controls 中安装 PyPI 软件包

  • 如果您的环境使用专用 IP 网络所有内部流量都会路由到您的 VPC 网络,但通过专用 Google 访问通道发送到可供专用 IP 环境使用的 Google API、服务和网域的流量除外。

  • 根据您配置 VPC 网络的方式,专用 IP 环境可以通过 VPC 网络访问互联网

  • 在 VPC Service Controls 模式下,Cloud Composer 会运行 Airflow 网络服务器的两个实例。Identity-Aware Proxy 会在这些实例之间对用户流量进行负载均衡处理。Airflow 网络服务器在“只读”模式下运行,这意味着:

    • 已启用 DAG 序列化。因此,Airflow Web 服务器不会解析 DAG 文件。

    • 插件不会同步到 Web 服务器,因此您无法使用插件修改或扩展 Web 服务器的功能。

    • Airflow 网络服务器使用由 Cloud Composer 服务预构建的容器映像。如果您在自己的环境中安装 PyPI 映像,则这些映像不会安装到 Web 服务器容器映像上。

在边界中创建环境

在边界内部署 Cloud Composer 需要执行以下步骤:

  1. 为您的项目启用 Access Context Manager APICloud Composer API。如需参考,请参阅启用 API

  2. 请确保您的服务边界具有以下 VPC 可访问服务,否则您的环境可能无法创建:

    • Cloud Composer API (composer.googleapis.com)
    • Compute Engine API (compute.googleapis.com)
    • Kubernetes Engine API (container.googleapis.com)
    • Container Registry API (containerregistry.googleapis.com)
    • Artifact Registry API (artifactregistry.googleapis.com)
    • Cloud Storage API (storage.googleapis.com)
    • Cloud SQL Admin API (sqladmin.googleapis.com)
    • Cloud Logging API (logging.googleapis.com)
    • Cloud Monitoring API (monitoring.googleapis.com)
    • Cloud Pub/Sub API (pubsub.googleapis.com)
    • Cloud Cloud Resource Manager API (cloudresourcemanager.googleapis.com)
    • Service Directory API (servicedirectory.googleapis.com)
    • Cloud Key Management Service API (cloudkms.googleapis.com),如果您使用的是 Cloud KMS 或 CMEK 密钥。
    • Secret Manager API (secretmanager.googleapis.com),如果您使用 Secret Manager 作为 Secret 后端。
  3. 创建启用专用 IP 的新 Cloud Composer 环境。 请注意,必须在环境创建期间配置此设置

    • 使用 composer-1.10.4 或更高版本。

    • 确保已启用 DAG 序列化。如果您的环境使用 1.15.0 及更高版本的 Cloud Composer,则默认情况下会启用序列化。

    • 创建环境时,务必配置对 Airflow 网络服务器的访问权限。为实现更出色的保护,仅允许从特定 IP 范围访问 Web 服务器。如需了解详情,请参阅配置 Web 服务器网络访问权限

将现有环境添加到边界

在 VPC Service Controls 中安装 PyPI 软件包

在默认 VPC Service Controls 配置中,Cloud Composer 仅支持从可从 VPC 网络的内部 IP 地址空间访问的专用代码库安装 PyPI 软件包。

从私有代码库安装

建议的配置是设置私有 PyPI 代码库:

  1. 使用组织使用的经过审核的软件包填充,然后配置 Cloud Composer 以从私有代码库安装 Python 依赖项

  2. 按照访问权限控制中的说明,向环境的服务账号授予从私有代码库安装软件包的其他权限。

从公共代码库安装

远程代码库

这是从公共代码库安装软件包的推荐方法。

如需从专用 IP 空间之外的代码库安装 PyPI 软件包,请按以下步骤操作:

  1. 创建 Artifact Registry 远程代码库
  2. 授予此代码库对上游来源的访问权限
  3. 配置 Airflow 以从 Artifact Registry 代码库安装软件包
  4. 按照访问权限控制中的说明,向环境的服务账号授予从 Artifact Registry 代码库安装软件包的其他权限。

外部连接

如需从专用 IP 空间之外的代码库安装 PyPI 软件包,请按以下步骤操作:

  1. 配置 Cloud NAT 以允许在专用 IP 空间中运行的 Cloud Composer 与外部 PyPI 代码库连接。

  2. 配置防火墙规则以允许从 Composer 集群到代码库的出站连接。

配置与 Google API 和服务的连接

在 VPC Service Controls 配置中,如需控制网络流量,请通过 restricted.googleapis.com 配置对 Google API 和服务的访问权限。此网域会阻止对不支持 VPC Service Controls 的 Google API 和服务的访问。

Cloud Composer 环境使用以下网域:

  • *.googleapis.com 用于访问其他 Google 服务。

  • *.pkg.dev 用于获取环境映像,例如在创建或更新环境时。

  • *.gcr.io 无论 Cloud Composer 版本如何,GKE 都需要连接到 Container Registry 网域。

配置与 restricted.googleapis.com 端点的连接:

网域 DNS 名称 CNAME 记录 A 记录
*.googleapis.com googleapis.com. DNS 名称:*.googleapis.com.
资源记录类型:CNAME
规范名称:googleapis.com.
资源记录类型:A
IPv4 地址:199.36.153.4199.36.153.5199.36.153.6199.36.153.7
*.pkg.dev pkg.dev. DNS 名称:*.pkg.dev.
资源记录类型:CNAME
规范名称:pkg.dev.
资源记录类型:A
IPv4 地址:199.36.153.4199.36.153.5199.36.153.6199.36.153.7
*.gcr.io gcr.io. DNS 名称:*.gcr.io.
资源记录类型:CNAME
规范名称:gcr.io.
资源记录类型:A
IPv4 地址:199.36.153.4199.36.153.5199.36.153.6199.36.153.7

如需创建 DNS 规则,请执行以下操作:

  1. 创建新的 DNS 区域,并使用 DNS 名称作为此区域的 DNS 名称。

    示例:pkg.dev.

  2. CNAME 记录添加记录集

    示例:

    • DNS 名称:*.pkg.dev.
    • 资源记录类型:CNAME
    • 规范名称:pkg.dev.
  3. 添加一条 A 记录记录集

    示例:

    • 资源记录类型:A
    • IPv4 地址:199.36.153.4199.36.153.5199.36.153.6199.36.153.7

如需了解详情,请参阅设置与 Google API 和服务的专用连接

配置防火墙规则

如果您的项目具有非默认防火墙规则(例如会替换隐式防火墙规则或修改默认网络中预先填充的规则的规则),请验证是否已配置以下防火墙规则。

例如,如果您有一条拒绝所有出站流量的防火墙规则,Cloud Composer 可能无法创建环境。为避免出现问题,请定义遵循该列表且优先级高于全局 deny 规则的选择性 allow 规则。

配置 VPC 网络以允许来自您环境的流量:

  • 请参阅使用防火墙规则,了解如何检查、添加和更新 VPC 网络的规则。
  • 使用连接工具验证 IP 范围之间的连接。
  • 您可以使用网络标记进一步限制访问权限。您可以在创建环境时设置这些标记。
说明 方向 操作 来源或目的地 协议 端口
DNS

按照 VPC Service Controls 对 Cloud DNS 的支持中的说明进行配置
- - - - -
Google API 和服务 出站 允许 restricted.googleapis.com 的 IPv4 地址,用于 Google API 和服务 TCP 443
环境的集群节点 出站 允许 环境的子网主要 IP 地址范围 TCP、UDP 全部
环境的集群 Pod 出站 允许 环境子网中 Pod 的次要 IP 地址范围 TCP、UDP 全部
环境的集群控制平面 出站 允许 GKE 控制平面 IP 地址范围 TCP、UDP 全部
Web 服务器 出站 允许 Web 服务器网络 IP 地址范围 TCP 3306、3307

如需获取环境集群的 IP 范围,请执行以下操作:

  • Pod、Service 和控制平面地址范围可在环境集群的集群页面上找到:

    1. 在 Google Cloud 控制台中,前往环境页面。

      转到“环境”

    2. 在环境列表中,点击您的环境名称。环境详情页面会打开。

    3. 转到环境配置标签页。

    4. 点击查看集群详情链接。

  • 您可以在环境配置标签页上查看环境的 Web 服务器 IP 范围。

  • 您可以在环境配置标签页上查看环境的网络 ID。如需获取子网的 IP 范围,请前往 VPC 网络页面,然后点击相应网络的名称以查看详细信息:

    前往“VPC 网络”页面

VPC Service Controls 日志

在排查环境创建问题时,您可以分析 VPC Service Controls 生成的审核日志。

除了其他日志消息之外,您还可以检查日志,了解有关配置环境组件的 cloud-airflow-prod@system.gserviceaccount.comservice-PROJECT_ID@cloudcomposer-accounts.iam.gserviceaccount.com 服务账号的信息。

Cloud Composer 服务使用 cloud-airflow-prod@system.gserviceaccount.com 服务账号来管理环境的租户项目组件

service-PROJECT_ID@cloudcomposer-accounts.iam.gserviceaccount.com 服务账号(也称为 Composer Service Agent 服务账号)用于管理服务项目和宿主项目中的环境组件。

后续步骤