本文档介绍了 Dataproc Serverless for Spark 网络配置所需的要求。
虚拟私有云子网要求
用于执行 Dataproc Serverless for Spark 工作负载或交互式会话的虚拟私有云子网必须满足以下子部分中列出的要求。
专用 Google 访问通道要求
为 Dataproc Serverless 批处理工作负载或 Interactive 会话选择的区域的 VPC 子网必须启用了专用 Google 访问通道。
外部网络访问:如果您的工作负载需要访问外部网络或互联网,您可以设置 Cloud NAT 以允许使用 VPC 网络中使用内部 IP 地址的出站流量。
打开子网连接要求
为 Dataproc 无服务器批处理工作负载或 Interactive 会话选择的区域的 VPC 子网必须允许虚拟机实例之间的所有端口进行内部子网通信。
以下 Google Cloud CLI 命令会将网络防火墙连接到子网,以允许虚拟机之间使用所有端口上的所有协议进行内部入站流量通信:
gcloud compute firewall-rules create allow-internal-ingress \ --network=NETWORK_NAME \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
注意:
SUBNET_RANGES: 请参阅允许虚拟机之间的内部入站连接。项目中的
default
VPC 网络包含default-allow-internal
防火墙规则,该规则允许在所有端口(tcp:0-65535
、udp:0-65535
和icmp protocols:ports
)上进行入站通信,符合开放子网连接性要求。不过,此规则还允许网络上的任何虚拟机实例的入站流量。
Dataproc Serverless 和 VPC-SC 网络
借助 VPC Service Controls,网络管理员可以为 Google 托管式服务的资源定义安全边界,以控制与这些服务的通信以及这些服务之间的通信。
将 VPC-SC 网络与 Dataproc Serverless 搭配使用时,请注意以下策略:
创建一个在 VPC-SC 边界外预安装依赖项的自定义容器映像,然后提交使用自定义容器映像的 Spark 批处理工作负载。
如需了解详情,请参阅 VPC Service Controls - 适用于 Spark 的 Dataproc Serverless。