Scala i cluster Ray su Vertex AI

Quando i carichi di lavoro aumentano o diminuiscono nei cluster Ray su Vertex AI, puoi scalare manualmente il numero di repliche in base alla domanda. Ad esempio, se hai capacità in eccesso, puoi fare lo scale down dei tuoi pool di worker per risparmiare sui costi. Questa pagina descrive come modificare il numero di repliche per i pool di worker esistenti.

Limitazioni

Quando scala i cluster, puoi modificare solo il numero di repliche nei pool di worker esistenti. Ad esempio, non puoi aggiungere o rimuovere pool di worker dal cluster, né modificare il tipo di macchina dei pool di worker. Inoltre, il numero di repliche per i pool di worker non può essere inferiore a uno.

Se utilizzi una connessione in peering VPC per connetterti ai cluster, c'è un limite al numero massimo di nodi. Il numero massimo di nodi dipende dal numero di nodi presenti nel cluster al momento della creazione. Per ulteriori informazioni, consulta la sezione Calcolo del numero massimo di nodi. Questo numero massimo include non solo i pool di worker, ma anche il nodo head. Se utilizzi la configurazione di rete predefinita, il numero di nodi non può superare i valori massimi descritti nella documentazione sulla creazione di cluster.

Calcolo del numero massimo di nodi

Se utilizzi l'accesso privato ai servizi (peering VPC) per connetterti ai nodi, utilizza le seguenti formule per verificare di non superare il numero massimo di nodi (M), supponendo che f(x) = min(29, (32 - ceiling(log2(x))):

  • f(2 * M) = f(2 * N)
  • f(64 * M) = f(64 * N)
  • f(max(32, 16 + M)) = f(max(32, 16 + N))

Il numero totale massimo di nodi nel cluster Ray on Vertex AI di cui puoi scalare fino a (M) dipende dal numero totale iniziale di nodi che hai configurato (N). Dopo aver creato il cluster Ray on Vertex AI, puoi scalare il numero totale di nodi a un numero qualsiasi compreso tra P e M inclusi, dove P è il numero di pool nel tuo cluster.

Aggiorna conteggio repliche

Puoi utilizzare la console Google Cloud o l'SDK Vertex AI per Python per aggiornare il numero di repliche del pool di worker. Se il cluster include più pool di worker, puoi modificare singolarmente ciascun conteggio delle repliche in una singola richiesta.

Console

  1. Nella console Google Cloud, vai alla pagina Ray on Vertex AI.

    Vai alla pagina di Ray on Vertex AI

  2. Nell'elenco dei cluster, fai clic sul cluster da modificare.

  3. Nella pagina Dettagli cluster, fai clic su Modifica cluster.

  4. Nel riquadro Modifica cluster, seleziona il pool di worker da aggiornare, quindi modifica il conteggio delle repliche.

  5. Fai clic su Update (Aggiorna).

    Attendi qualche minuto per l'aggiornamento del cluster. Al termine dell'aggiornamento, potrai visualizzare il numero di repliche aggiornato nella pagina Dettagli cluster.

SDK Ray on Vertex AI

import vertexai
import vertex_ray

vertexai.init()
cluster = vertex_ray.get_ray_cluster("CLUSTER_NAME")

# Get the resource name.
cluster_resource_name = cluster.cluster_resource_name

# Create the new worker pools
new_worker_node_types = []
for worker_node_type in cluster.worker_node_types:
 worker_node_type.node_count = REPLICA_COUNT # new worker pool size
 new_worker_node_types.append(worker_node_type)

# Make update call
updated_cluster_resource_name = vertex_ray.update_ray_cluster(
 cluster_resource_name=cluster_resource_name,
 worker_node_types=new_worker_node_types,
)