Dataproc Metastore 网络概览

本文档简要介绍了可用于设置 Dataproc Metastore 服务的网络设置。

网络主题快速参考

网络设置 Notes
默认网络设置
VPC 网络 默认情况下,Dataproc Metastore 服务使用 VPC 网络连接到 Google Cloud。

创建 VPC 网络后,Dataproc Metastore 还会为您的服务自动配置 VPC 网络对等互连
VPC 子网 您可以选择使用 Private Service Connect 创建具有 VPC 子网的 Dataproc Metastore 服务。这是使用 VPC 网络的替代方案。
其他投放网络设置
共享 VPC 网络 您可以选择在共享 VPC 网络中创建 Dataproc Metastore 服务。
本地网络 您可以使用 Cloud VPN 或 Cloud Interconnect 连接到本地环境的 Dataproc Metastore 服务。
VPC Service Controls 您可以选择使用 VPC Service Controls 创建 Dataproc Metastore 服务。
防火墙规则 在已建立安全基础的非默认或专用环境中,您可能需要创建自己的防火墙规则。

默认网络设置

以下部分介绍了 Dataproc Metastore 使用的默认网络设置 - VPC 网络和 VPC 网络对等互连。

VPC 网络

默认情况下,Dataproc Metastore 服务使用 VPC 网络连接到 Google Cloud。VPC 网络是在 Google 的生产网络中实现的物理网络的虚拟版本。创建 Dataproc Metastore 时,该服务会自动为您创建 VPC 网络。

如果您在创建服务时未更改任何设置,Dataproc Metastore 将使用 default VPC 网络。通过此设置,与 Dataproc Metastore 服务一起使用的 VPC 网络可以属于同一 Google Cloud 项目,也可以属于不同项目。通过此设置,您还可以在单个 VPC 网络中公开服务,或者通过多个 VPC 网络(通过使用子网)访问服务。

Dataproc Metastore 要求每个 VPC 网络中的每个区域都满足以下要求:

VPC 网络对等互连

创建 VPC 网络后,Dataproc Metastore 还会为您的服务自动配置 VPC 网络对等互连。VPC 可为您的服务提供对 Dataproc Metastore 端点协议的访问权限。创建服务后,您可以在 Google Cloud 控制台的 VPC 网络对等互连页面上查看其底层 VPC 网络对等互连。

VPC 网络对等互连不具有传递性。这意味着,只有直接对等互连的网络才能相互通信。例如,请考虑以下场景:

您有以下网络:VPC 网络 N1、N2 和 N3。

  • VPC 网络 N1 与 N2 和 N3 配对。
  • VPC 网络 N2 和 N3 未直接连接。

这意味着什么?

这意味着通过 VPC 网络对等互连,VPC 网络 N2 无法与 VPC 网络 N3 通信。这会通过以下方式影响 Dataproc Metastore 连接:

  • 与 Dataproc Metastore 项目网络对等互连的网络中的虚拟机无法访问 Dataproc Metastore。
  • 只有 VPC 网络上的主机可以访问 Dataproc Metastore 服务。

VPC 网络对等互连安全注意事项

  • 通过 VPC 网络对等互连的流量会经过特定级别的加密。如需了解详情,请参阅 Google Cloud 虚拟网络加密和身份验证

  • 与将所有服务放在 default VPC 网络中相比,为具有内部 IP 地址的每项服务创建一个 VPC 网络可以实现更好的网络隔离。

VPC 子网

借助 Private Service Connect (PSC),您可以设置与跨 VPC 网络的 Dataproc Metastore 元数据的专用连接。使用 PSC,您可以创建无 VPC 对等互连的服务。这样,您就可以使用自己的内部 IP 地址访问 Dataproc Metastore,而无需离开您的 VPC 网络或使用外部 IP 地址。

如需在创建服务时设置 Private Service Connect,请参阅使用 Dataproc Metastore 的 Private Service Connect

IP 地址

为了连接到网络并帮助保护您的元数据,Dataproc Metastore 服务仅使用内部 IP 地址。这意味着公共 IP 地址不公开或可用于网络。

通过使用内部 IP 地址,Dataproc Metastore 只能连接到指定 Virtual Private Cloud (VPC) 网络或本地环境中存在的虚拟机 (VM)。

使用内部 IP 地址连接到 Dataproc Metastore 服务会使用 RFC 1918 地址范围。使用这些范围意味着 Dataproc Metastore 会从每个区域的地址空间中分配一个 /17 范围和 /20 范围。例如,将 Dataproc Metastore 服务放置在两个区域中需要分配的 IP 地址范围包含以下内容:

  • 至少有两个大小为 /17 的未使用的地址块。
  • 至少有两个大小为 /20 的未使用的地址块。

如果未找到 RFC 1918 地址块,Dataproc Metastore 会改为查找合适的非 RFC 1918 地址块。请注意,分配非 RFC 1918 块时,不考虑这些地址是否在 VPC 网络或本地中使用。

其他网络设置

如果您需要不同的网络设置,可以在 Dataproc Metastore 服务中使用以下选项。

共享 VPC 网络

您可以在 共享 VPC 网络中创建 Dataproc Metastore 服务。通过共享 VPC,您可以将多个项目中的 Dataproc Metastore 资源连接到公用 VPC (VPC) 网络。

如需在创建服务时设置共享 VPC,请参阅创建 Dataproc Metastore 服务

本地网络

您可以使用 Cloud VPN 或 Cloud Interconnect 连接到本地环境的 Dataproc Metastore 服务。

VPC Service Controls

VPC Service Controls 可帮助您降低数据渗漏风险。借助 VPC Service Controls,您可以为 Dataproc Metastore 服务创建边界。VPC Service Controls 会限制外部对边界内资源的访问权限。只有边界内的客户端和资源才能彼此交互。

如需将 VPC Service Controls 与 Dataproc Metastore 搭配使用,请参阅 将 VPC Service Controls 与 Dataproc Metastore 搭配使用。另请参阅 使用 VPC Service Controls 时的 Dataproc Metastore 限制

Dataproc Metastore 的防火墙规则

在已确定存在安全隐患的非默认环境或专用环境中,您可能需要创建自己的防火墙规则。如果您这样做,请勿创建防火墙规则来阻止您的 Dataproc Metastore 服务的 IP 地址范围或端口。

创建 Dataproc Metastore 服务时,您可以接受该服务的默认网络。默认网络可确保您虚拟机的完整内部 IP 网络访问权限。

如需详细了解防火墙规则,请参阅 VPC 防火墙规则使用 VPC 防火墙规则

为自定义网络创建防火墙规则

使用自定义网络时,请确保您的防火墙规则允许传入和流入 Dataproc Metastore 端点的流量。如需明确允许 Dataproc Metastore 流量,请运行以下 gcloud 命令:

gcloud compute firewall-rules create dpms-allow-egress-DPMS_NETWORK-REGION --allow tcp --destination-ranges DPMS_NET_PREFIX/17 --network DPMS_NETWORK --direction OUT
gcloud compute firewall-rules create dpms-allow-ingress-DPMS_NETWORK-REGION --allow tcp,udp --source-ranges DPMS_NET_PREFIX/17 --network DPMS_NETWORK

对于 DPMS_NET_PREFIX,将 /17 子网掩码应用于 Dataproc Metastore 服务 IP。您可以在服务详情页面上的 endpointUri 配置中找到 Dataproc Metastore IP 地址信息。

注意事项

网络具有隐式允许出站规则,通常允许从您的网络访问 Dataproc Metastore。如果您创建的拒绝出站规则替换隐式允许出站规则,则应创建具有更高优先级的允许出站规则,以允许流向 Dataproc Metastore IP 的出站流量。

Kerberos 等一些功能要求 Dataproc Metastore 启动与项目网络中的主机的连接。所有网络都有隐式拒绝入站规则,用于阻止这些连接并阻止这些功能正常运行。您应创建一条防火墙规则,以允许来自包含 Dataproc Metastore IP 的 /17 IP 地址块中的所有端口上的 TCP 和 UDP 入站流量。

自定义路由

自定义路由适用于使用以非公开方式使用的公共 IP 地址 (PUPI) 的子网。自定义路由可让您的 VPC 网络连接到对等网络。只有在您的 VPC 网络导入自定义路由,并且对等网络明确导出这些路由时,才能接收自定义路由。自定义路由可以是静态路由,也可以是动态路由。

通过与对等互连的 VPC 网络共享自定义路由,网络可以直接从其对等互连的网络“学习”路由。这意味着,当更新对等互连网络中的自定义路由时,您的 VPC 网络会自动学习并实现自定义路由,而无需您执行任何额外操作。

如需详细了解自定义路由,请参阅网络配置

Dataproc Metastore 网络示例

在以下示例中,Google 在客户 VPC 网络中为 Google 服务分配 10.100.0.0/1710.200.0.0/20 地址范围,并使用对等互连 VPC 网络中的地址范围。

在此处插入替代文本
图 1.Dataproc Metastore VPC 网络配置

网络示例说明:

  • 在 VPC 对等互连的 Google 服务端,Google 为客户创建一个项目。该项目是独立的,这意味着没有其他客户共享它,并且客户只需为客户预配的资源付费。
  • 在一个区域中创建第一个 Dataproc Metastore 服务时,Dataproc Metastore 会在客户网络中分配 /17 范围和 /20 范围,以供该区域和网络中未来所有 Dataproc Metastore 服务使用。Dataproc Metastore 会进一步细分这些范围,以在服务提供方项目中创建子网和地址范围。
  • 如果 Google Cloud 服务支持,客户网络中的虚拟机服务可以访问任何区域中的 Dataproc Metastore 服务资源。某些 Google Cloud 服务可能不支持跨区域通信。
  • 跨区域流量(在这种情况下,虚拟机实例会与不同区域的资源进行通信)的出站流量费用仍然需要支付。
  • Google 会为 Dataproc Metastore 服务分配 IP 地址 10.100.0.100。在客户 VPC 网络中,目标为 10.100.0.100 的请求将通过 VPC 对等互连路由到服务提供方的网络。到达服务网络后,服务网络包含将请求定向到正确资源的路由。
  • VPC 网络之间的流量在 Google 网络内部传输,而不是通过公共互联网传输。

后续步骤