您可以使用控制台或使用 Python 版 Vertex AI SDK 在 Vertex AI 上创建 Ray 集群。
在开始之前,请务必阅读 Ray on Vertex AI 概览并设置您需要的所有必要工具。控制台
在 Google Cloud 控制台中,转至“Ray on Vertex AI”页面。
点击创建集群以打开创建集群面板。
对于创建集群面板中的每个步骤,请查看或替换默认集群信息。点击继续以完成各个步骤:
在名称和区域中,为集群指定名称并选择区域。
在计算设置中,指定 Vertex AI 上的 Ray 集群的头节点的配置,包括其机器类型、加速器类型和数量、磁盘类型和大小以及副本数量。在高级选项下,您可以指定加密密钥。
在网络部分,指定要用于 Ray on Vertex AI 的 VPC 对等互连网络。
如果您还没有为 VPC 网络设置专用服务访问通道连接,请点击设置连接。在创建专用服务访问通道连接面板中,完成并点击以下步骤中的继续:
启用 Service Networking API。
对于分配 IP 范围,您可以选择、创建或允许 Google 自动分配 IP 范围。
对于创建连接,查看网络和分配的 IP 范围信息。
点击创建连接。
点击创建。
Ray on Vertex AI SDK
在 VPC 网络中的交互式 Python 环境中,使用以下内容在 Vertex AI 上创建 Ray 集群:
import ray import vertex_ray from google.cloud import aiplatform from vertex_ray import Resources # Define a default CPU cluster, machine_type is n1-standard-8, 1 head node and 1 worker node head_node_type = Resources() worker_node_types = [Resources()] # Or define a GPU cluster. head_node_type = Resources( machine_type="n1-standard-8", node_count=1, ) worker_node_types = [Resources( machine_type="n1-standard-8", node_count=2, # Can be > 1 accelerator_type="NVIDIA_TESLA_K80", accelerator_count=1, )] aiplatform.init() # Initialize Vertex AI to retrieve projects for downstream operations. # Create the Ray cluster on Vertex AI CLUSTER_RESOURCE_NAME = vertex_ray.create_ray_cluster( head_node_type=head_node_type, network=NETWORK, worker_node_types=worker_node_types, python_version="3.10", # Optional ray_version="2.9", # Optional cluster_name = CLUSTER_NAME )
其中:
CLUSTER_NAME:Vertex AI 上的 Ray 集群的名称,该名称在项目中必须是唯一的。
NETWORK 是对等互连 VPC 网络的完整名称,格式为
projects/PROJECT_NUMBER/global/networks/VPC_NAME
。PROJECT_NUMBER 是您的 Google Cloud 项目编号。
在状态更改为 RUNNING
之前,您应该会看到以下输出:
[Ray on Vertex AI]: Cluster State = State.PROVISIONING Waiting for cluster provisioning; attempt 1; sleeping for 0:02:30 seconds ... [Ray on Vertex AI]: Cluster State = State.RUNNING
请注意以下几点:
第一个节点用作头节点。
不支持 TPU 机器类型。