Nesta página, mostramos como configurar o Google Kubernetes Engine (GKE) para coletar registros e métricas dos clusters Ray em execução no Google Kubernetes Engine (GKE), além de visualizar registros e métricas do Ray no Cloud Logging e no Cloud Monitoring.
Para mais mais informações sobre Ray e KubeRay, Visão geral do Ray no Google Kubernetes Engine (GKE).
Antes de começar
Antes de começar, veja se você realizou as seguintes tarefas:
- Ative a API Google Kubernetes Engine. Ativar a API Google Kubernetes Engine
- Se você quiser usar a CLI do Google Cloud para essa tarefa,
instale e, em seguida,
inicialize a
CLI gcloud. Se você instalou a gcloud CLI anteriormente, instale a versão
mais recente executando
gcloud components update
.
Requisitos e limitações
- Ative a geração de registros do sistema e de cargas de trabalho em uma instância antes de ativar a coleta de registros para clusters Ray.
- Se você ativar a coleta de registros para clusters Ray em um o cluster do GKE, o GKE só coleta registros criou os pods do Ray, e não dos pods do Ray existentes.
- Para clusters padrão do GKE, você precisa ativar o Google Cloud Managed Service para Prometheus para ativar a coleta de métricas em clusters do Ray. Nos clusters do Autopilot, o Google Cloud Managed Service para Prometheus é ativado pela padrão.
- Não é possível implantar um volume chamado
ray-logs
em qualquer contêiner do Ray no cluster do Ray. Caso contrário, o GKE não vai coletar registros.
Ativar a coleta de registros em um cluster do Ray
É possível ativar a coleta de registros para clusters Ray com recursos novos ou atuais clusters do GKE Autopilot ou Standard. O raio que o GKE coleta nos clusters do Ray são classificados como registros de contêiner do Compute Engine. Isso inclui todos os registros produzidos pelo cabeçalho do cluster Ray e nós de trabalho.
É possível ativar a coleta de registros para clusters Ray usando o console do Google Cloud ou a gcloud CLI.
Console
Acesse a página Google Kubernetes Engine no console do Google Cloud.
Clique em
Criar e, na seção Standard ou Autopilot, clique em Configurar.No painel de navegação, em Cluster, clique em Recursos.
Na seção Operações, verifique se o painel Sistema e cargas de trabalho caixa de seleção está marcada.
Na seção IA e machine learning, selecione Ativar Operador Ray e, em seguida, Ativar coleta de registros para Clusters do Ray.
Clique em Criar.
Para clusters padrão, você também precisa ativar Google Cloud Managed Service para Prometheus.
gcloud
Crie um cluster usando a opção --addons=RayOperator
e o
Opção --enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-logging
Substitua:
CLUSTER_NAME
: o nome do novo cluster;VERSION
: a versão do GKE, que precisa ser 1.30.2-gke.1060005 ou posterior. Também é possível usar a opção--release-channel
para selecionar um canal de lançamento. O canal de lançamento precisa ter uma versão padrão 1.30.2-gke.106000 ou posterior.
É possível ativar a coleta de registros para clusters Ray em um cluster atual
usando o
gcloud container clusters update
com a opção --addons=RayOperator
e o
--enable-ray-cluster-logging
.
Ver registros do Ray
É possível visualizar os registros coletados de clusters do Ray em execução no GKE usando o Logging.
Acesse a página do Cloud Logging no console do Google Cloud.
Abra o editor de consultas e cole sua expressão nele.
Clique em Executar consulta
É possível usar os seguintes exemplos de consultas na Análise de registros:
Nome da consulta/filtro | Expressão |
---|---|
Todos os registros do Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Todos os registros de direção do Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Todos os registros em um cluster do Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Todos os registros de um job do Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Ativar a coleta de métricas de um cluster Ray
É possível ativar a coleta de métricas para clusters Ray com recursos novos ou atuais clusters do GKE Autopilot ou Standard.
Depois de ativar a coleta de métricas para clusters Ray, o GKE coleta métricas de clusters Ray atuais e novos. O GKE coleta todas as métricas do sistema exportadas pelo Ray no Prometheus formato.
É possível ativar a coleta de métricas para clusters Ray usando o o console do Google Cloud ou a CLI gcloud.
Console
Acesse a página Google Kubernetes Engine no console do Google Cloud.
Clique em
Criar e, na seção Standard ou Autopilot, clique em Configurar.No painel de navegação, em Cluster, clique em Recursos.
Na seção Operações, verifique se o painel Sistema e cargas de trabalho caixa de seleção está marcada.
Na seção IA e machine learning, selecione Ativar Operador Ray e, em seguida, Ativar coleta de métricas para Clusters do Ray.
Clique em Criar.
Para clusters padrão, você também precisa ativar Google Cloud Managed Service para Prometheus.
gcloud
Crie um cluster usando a opção --addons=RayOperator
e o
Opção --enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Substitua:
CLUSTER_NAME
: o nome do novo cluster;VERSION
: a versão do GKE, que precisa ser 1.30.2-gke.1060005 ou posterior. Também é possível usar a opção--release-channel
para selecionar um canal de lançamento. O canal de lançamento precisa ter uma versão padrão 1.30.2-gke.106000 ou posterior.
É possível ativar a coleta de registros para clusters Ray em um cluster atual
usando o
gcloud container clusters update
com a opção --addons=RayOperator
e o
--enable-ray-cluster-monitoring
.
Conferir métricas do Ray
É possível visualizar as métricas coletadas dos clusters do Ray em execução no GKE usando o Monitoring.
Acesse a página do Explorador de métricas no console do Google Cloud.
No menu suspenso Selecionar uma métrica, insira Destino do Prometheus.
Na seção Categorias de métricas ativas, selecione Ray.
A seguir
- Saiba mais sobre o Ray no Kubernetes.
- Confira a documentação do KubeRay.