Nesta página, mostramos como configurar o Google Kubernetes Engine (GKE) para coletar registros e métricas dos clusters Ray em execução no Google Kubernetes Engine (GKE), além de visualizar registros e métricas do Ray no Cloud Logging e no Cloud Monitoring.
Para mais mais informações sobre Ray e KubeRay, Visão geral do Ray no Google Kubernetes Engine (GKE).
Antes de começar
Antes de começar, verifique se você realizou as tarefas a seguir:
- Ativar a API Google Kubernetes Engine. Ativar a API Google Kubernetes Engine
- Se você quiser usar a CLI do Google Cloud para essa tarefa,
    instale e inicialize a
    gcloud CLI. Se você instalou a CLI gcloud anteriormente, instale a versão
    mais recente executando o comando gcloud components update. Talvez as versões anteriores da CLI gcloud não sejam compatíveis com a execução dos comandos neste documento.
Requisitos e limitações
- Ative a geração de registros do sistema e de cargas de trabalho em uma instância antes de ativar a coleta de registros para clusters Ray.
- Se você ativar a coleta de registros para clusters Ray em um o cluster do GKE, o GKE só coleta registros criou os pods do Ray, e não dos pods do Ray existentes.
- Para clusters padrão do GKE, você precisa ativar o Google Cloud Managed Service para Prometheus para ativar a coleta de métricas em clusters do Ray. Nos clusters do Autopilot, o Google Cloud Managed Service para Prometheus é ativado pela padrão.
- Não é possível especificar um volume chamado ray-logsem qualquer contêiner do Ray no cluster do Ray. Caso contrário, o GKE não vai coletar registros.
Ativar a coleta de registros em um cluster do Ray
É possível ativar a coleta de registros para clusters Ray com recursos novos ou atuais clusters do GKE Autopilot ou Standard. O raio que o GKE coleta nos clusters do Ray são classificados como registros de contêiner do Compute Engine. Isso inclui todos os registros produzidos pelo cabeçalho do cluster Ray e nós de trabalho.
É possível ativar a coleta de registros para clusters Ray usando o console Google Cloud ou a CLI gcloud.
Console
- Acesse a página do Google Kubernetes Engine no Google Cloud console. 
- Clique em Criar e, na seção Standard ou Autopilot, clique em Configurar. 
- No painel de navegação, em Cluster, clique em Recursos. 
- Na seção Operações, verifique se o painel Sistema e cargas de trabalho caixa de seleção está marcada. 
- Na seção IA e machine learning, selecione Ativar Operador Ray e, em seguida, Ativar coleta de registros para Clusters do Ray. 
- Clique em Criar. 
Para clusters padrão, você também precisa ativar Google Cloud Managed Service para Prometheus.
gcloud
Crie um cluster usando a opção --addons=RayOperator e o
Opção --enable-ray-cluster-logging:
gcloud container clusters create CLUSTER_NAME \
    --location=LOCATION \
    --addons=RayOperator \
    --enable-ray-cluster-logging
Substitua:
- CLUSTER_NAME: o nome do novo cluster;
- LOCATION: o local do novo cluster, por exemplo, us-central1.
É possível ativar a coleta de registros para clusters Ray em um cluster atual
usando o
gcloud container clusters update
com a opção --addons=RayOperator e o
--enable-ray-cluster-logging.
Ver registros do Ray
É possível visualizar os registros coletados de clusters do Ray em execução no GKE usando o Logging.
- Acesse a página Cloud Logging no console Google Cloud . 
- Abra o editor de consultas e cole sua expressão nele. 
- Clique em Executar consulta 
É possível usar os seguintes exemplos de consultas na Análise de registros:
| Nome da consulta/filtro | Expressão | 
|---|---|
| Todos os registros do Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" | 
| Todos os registros de direção do Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" | 
| Todos os registros em um cluster do Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" | 
| Todos os registros de um job do Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" | 
Ativar a coleta de métricas de um cluster Ray
É possível ativar a coleta de métricas para clusters Ray com recursos novos ou atuais clusters do GKE Autopilot ou Standard.
Depois de ativar a coleta de métricas para clusters Ray, o GKE coleta métricas de clusters Ray atuais e novos. O GKE coleta todas as métricas do sistema exportadas pelo Ray no Prometheus formato.
É possível ativar a coleta de métricas para clusters Ray usando o console doGoogle Cloud ou a CLI gcloud.
Console
- Acesse a página do Google Kubernetes Engine no Google Cloud console. 
- Clique em Criar e, na seção Standard ou Autopilot, clique em Configurar. 
- No painel de navegação, em Cluster, clique em Recursos. 
- Na seção Operações, verifique se o painel Sistema e cargas de trabalho caixa de seleção está marcada. 
- Na seção IA e machine learning, selecione Ativar Operador Ray e, em seguida, Ativar coleta de métricas para Clusters do Ray. 
- Clique em Criar. 
Para clusters padrão, você também precisa ativar Google Cloud Managed Service para Prometheus.
gcloud
Crie um cluster usando a opção --addons=RayOperator e o
Opção --enable-ray-cluster-monitoring:
gcloud container clusters create CLUSTER_NAME \
    --location=LOCATION \
    --addons=RayOperator \
    --enable-ray-cluster-monitoring
Substitua:
- CLUSTER_NAME: o nome do novo cluster;
- LOCATION: o local do novo cluster, por exemplo, us-central1.
É possível ativar a coleta de registros para clusters Ray em um cluster atual
usando o
gcloud container clusters update
com a opção --addons=RayOperator e o
--enable-ray-cluster-monitoring.
Conferir métricas do Ray
O Google Cloud Managed Service para Prometheus oferece um painel Visão geral do Ray no GKE pré-configurado que oferece uma visão centralizada das principais métricas do Ray. Essa é a maneira recomendada de começar rapidamente a monitorar seus clusters do Ray no GKE.
Acessar o painel de visão geral do Ray no GKE
O painel é preenchido automaticamente quando você ativa a coleta de métricas para seu cluster do Ray.
Como alternativa, se você quiser analisar métricas individuais coletadas de clusters do Ray em execução no GKE, siga estas etapas:
- Acesse a página do Metrics Explorer no console Google Cloud . 
- No campo Selecionar uma métrica, você pode pesquisar métricas específicas do Ray. Essas métricas geralmente são prefixadas com - prometheus/ray_. Por exemplo,- prometheus/ray_worker_cpu_seconds_totalou- prometheus/ray_memory_bytes_max.
- Você pode refinar ainda mais a pesquisa selecionando o tipo de recurso adequado (por exemplo, - k8s_pod,- k8s_container) e filtrando por rótulos relevantes para seu cluster do Ray (por exemplo,- ray.io/cluster).
A seguir
- Saiba mais sobre o Ray no Kubernetes.
- Confira a documentação do KubeRay.