Dataproc Metastore 网络概览

本文档简要介绍了可用于设置 Dataproc Metastore 服务的网络设置。

网络主题快速参考

网络设置 备注
默认网络设置
VPC 网络 默认情况下,Dataproc Metastore 服务使用 VPC 网络连接到 Google Cloud。

创建 VPC 网络后,Dataproc Metastore 还会自动为您的服务配置 VPC 网络对等互连
VPC 子网 您可以选择使用 Private Service Connect 通过 VPC 子网创建 Dataproc Metastore 服务。 这是使用 VPC 网络的替代方案。
其他网络设置
共享 VPC 网络 您可以选择在共享 VPC 网络中创建 Dataproc Metastore 服务。
本地网络 您可以使用 Cloud VPN 或 Cloud Interconnect 将 Dataproc Metastore 服务连接到本地环境。
VPC Service Controls 您可以选择使用 VPC Service Controls 创建 Dataproc Metastore 服务。
防火墙规则 在已确定存在安全隐患的非默认环境或专用环境中,您可能需要创建自己的防火墙规则。

默认网络设置

以下部分介绍了 Dataproc Metastore 使用的默认网络设置:VPC 网络和 VPC 网络对等互连。

VPC 网络

默认情况下,Dataproc Metastore 服务使用 VPC 网络连接到 Google Cloud。VPC 网络是物理网络的虚拟版本,在 Google 的生产网络内实现。创建 Dataproc Metastore 时,该服务会自动为您创建 VPC 网络。

如果您在创建服务时未更改任何设置,Dataproc Metastore 将使用 default VPC 网络。采用此设置时,您与 Dataproc Metastore 服务搭配使用的 VPC 网络可以属于同一 Google Cloud 项目,也可以属于其他项目。借助此设置,您还可以将服务公开在单个 VPC 网络中,或使服务可从多个 VPC 网络访问(通过使用子网)。

Dataproc Metastore 要求每个 VPC 网络中的每个区域都满足以下要求:

VPC 网络对等互连

创建 VPC 网络后,Dataproc Metastore 还会自动为您的服务配置 VPC 网络对等互连。VPC 可为您的服务提供对 Dataproc Metastore 端点协议的访问权限。创建服务后,您可以在 Google Cloud 控制台的 VPC 网络对等互连页面看到其底层 VPC 网络对等互连。

VPC 网络对等互连不具有传递性。这意味着,只有直接对等互连的网络才能相互通信。例如,请考虑以下场景:

您有以下网络:VPC 网络 N1、N2 和 N3。

  • VPC 网络 N1 与 N2 和 N3 配对。
  • VPC 网络 N2 和 N3 未直接连接。

这意味着什么?

这意味着,VPC 网络 N2 无法通过 VPC 网络对等互连与 VPC 网络 N3 通信。这会以以下方式影响 Dataproc Metastore 连接:

  • 与您的 Dataproc Metastore 项目网络对等互连的网络中的虚拟机无法访问 Dataproc Metastore。
  • 只有 VPC 网络上的主机才能访问 Dataproc Metastore 服务。

VPC 网络对等互连安全注意事项

  • 通过 VPC 网络对等互连的流量会经过特定级别的加密。如需了解详情,请参阅 Google Cloud 虚拟网络加密和身份验证

  • 与将所有服务置于 default VPC 网络中相比,为每个具有内部 IP 地址的服务创建一个 VPC 网络可实现更好的网络隔离。

VPC 子网

借助 Private Service Connect (PSC),您可以跨 VPC 网络与 Dataproc Metastore 元数据建立专用连接。借助 PSC,您可以创建不使用 VPC 对等互连的服务。这样,您就可以使用自己的内部 IP 地址访问 Dataproc Metastore,而无需离开 VPC 网络或使用外部 IP 地址。

如需在创建服务时设置 Private Service Connect,请参阅搭配使用 Private Service Connect 与 Dataproc Metastore

IP 地址

为了连接到网络并帮助保护您的元数据,Dataproc Metastore 服务仅使用内部 IP 地址。这意味着,公共 IP 地址不会公开,也不会用于网络目的。

使用内部 IP 地址时,Dataproc Metastore 只能连接到位于指定虚拟私有云 (VPC) 网络或本地环境中的虚拟机 (VM)。

使用内部 IP 地址与 Dataproc Metastore 服务的连接会使用 RFC 1918 地址范围。使用这些范围意味着 Dataproc Metastore 会从每个区域的地址空间分配一个 /17 范围和一个 /20 范围。例如,将 Dataproc Metastore 服务放在两个区域需要分配的 IP 地址范围包含以下内容:

  • 至少两个大小为 /17 的未使用的地址块。
  • 至少两个大小为 /20 的未使用的地址块。

如果未找到 RFC 1918 地址块,Dataproc Metastore 会找到合适的非 RFC 1918 地址块。请注意,分配非 RFC 1918 块时,不考虑这些地址是否在 VPC 网络或本地中使用。

其他网络设置

如果您需要其他网络设置,可以将以下选项与 Dataproc Metastore 服务搭配使用。

共享 VPC 网络

您可以在 共享 VPC 网络中创建 Dataproc Metastore 服务。借助共享 VPC,您可以将多个项目中的 Dataproc Metastore 资源连接到一个公用 VPC (VPC) 网络。

如需在创建服务时设置共享 VPC,请参阅创建 Dataproc Metastore 服务

本地网络

您可以使用 Cloud VPN 或 Cloud Interconnect 将 Dataproc Metastore 服务连接到本地环境。

VPC Service Controls

VPC Service Controls 可帮助您降低数据渗漏风险。借助 VPC Service Controls,您可以为 Dataproc Metastore 服务创建边界。VPC Service Controls 限制了外部对边界内资源的访问权限。只有边界内的客户端和资源才能彼此互动。

如需将 VPC Service Controls 与 Dataproc Metastore 搭配使用,请参阅 将 VPC Service Controls 与 Dataproc Metastore 搭配使用。此外,还请查看 使用 VPC Service Controls 时的 Dataproc Metastore 限制

Dataproc Metastore 的防火墙规则

在已确定存在安全隐患的非默认环境或专用环境中,您可能需要创建自己的防火墙规则。如果要执行此操作,请勿创建屏蔽 Dataproc Metastore 服务的 IP 地址范围或端口的防火墙规则。

创建 Dataproc Metastore 服务时,您可以接受该服务的默认网络。默认网络可确保您虚拟机的完整内部 IP 网络访问权限。

如需详细了解防火墙规则,请参阅 VPC 防火墙规则使用 VPC 防火墙规则

为自定义网络创建防火墙规则

使用自定义网络时,请确保您的防火墙规则允许来自和流向 Dataproc Metastore 端点的流量。如需明确允许 Dataproc Metastore 流量,请运行以下 gcloud 命令:

gcloud compute firewall-rules create dpms-allow-egress-DPMS_NETWORK-REGION --allow tcp --destination-ranges DPMS_NET_PREFIX/17 --network DPMS_NETWORK --direction OUT
gcloud compute firewall-rules create dpms-allow-ingress-DPMS_NETWORK-REGION --allow tcp,udp --source-ranges DPMS_NET_PREFIX/17 --network DPMS_NETWORK

对于 DPMS_NET_PREFIX,请将 /17 子网掩码应用于 Dataproc Metastore 服务 IP 地址。您可以在服务详细信息页面的 endpointUri 配置中找到 Dataproc Metastore IP 地址信息。

注意事项

网络具有隐式允许出站规则,通常允许从您的网络访问 Dataproc Metastore。如果您创建的拒绝出站规则替换隐式允许出站规则,则应创建优先级更高的允许出站规则,以允许流向 Dataproc Metastore IP 的出站流量。

Kerberos 等一些功能要求 Dataproc Metastore 启动与项目网络中的主机的连接。所有网络都有隐式拒绝入站规则,以阻止这些连接并阻止这些功能发挥作用。您应创建一条防火墙规则,以允许来自包含 Dataproc Metastore IP 的 /17 IP 地址块中的所有端口上的 TCP 和 UDP 入站流量。

自定义路由

自定义路由适用于使用以非公开方式使用的公共 IP 地址 (PUPI) 的子网。借助自定义路由,您的 VPC 网络可以连接到对等网络。只有当您的 VPC 网络导入自定义路由且对等网络明确导出自定义路由时,您才能接收自定义路由。自定义路由可以是静态的,也可以是动态的。

通过与对等互连的 VPC 网络共享自定义路由,网络可以直接从其对等互连的网络“学习”路由。这意味着,如果更新了对等互连的网络中的自定义路由,则您的 VPC 网络会自动了解并实现自定义路由,而无需您执行任何其他操作。

如需详细了解自定义路由,请参阅网络配置

Dataproc Metastore 网络示例

在以下示例中,Google 会在客户 VPC 网络中为 Google 服务分配 10.100.0.0/1710.200.0.0/20 地址范围,并使用对等互连 VPC 网络中的地址范围。

INSERT ALT TEXT HERE
图 1. Dataproc Metastore VPC 网络配置

网络示例说明:

  • 在 VPC 对等互连的 Google 服务端,Google 为客户创建了一个项目。该项目是独立的,这意味着没有其他客户共享该项目,并且客户只需要为客户预配的资源付费。
  • 在一个区域中创建第一个 Dataproc Metastore 服务时,Dataproc Metastore 会在客户网络中,针对该区域和网络中的所有 Dataproc Metastore 服务使用分配 /17 范围和 /20 范围。Dataproc Metastore 会进一步细分这些范围,以在服务提供方项目中创建子网和地址范围。
  • 如果 Google Cloud 服务支持,则客户网络中的虚拟机服务可以访问任何区域的 Dataproc Metastore 服务资源。某些 Google Cloud 服务可能不支持跨区域通信。
  • 跨区域流量(在这种情况下,虚拟机实例会与不同区域的资源进行通信)的出站费用仍然需要支付。
  • Google 会为 Dataproc Metastore 服务分配 IP 地址 10.100.0.100。在客户 VPC 网络中,目标为 10.100.0.100 的请求将通过 VPC 对等互连路由到服务提供方的网络。到达服务网络后,服务网络会包含将请求定向到正确资源的路由。
  • VPC 网络之间的流量在 Google 网络内部传输,而不是通过公共互联网传输。

后续步骤