Colete e visualize registros e métricas dos clusters Ray no Google Kubernetes Engine (GKE)


Nesta página, mostramos como configurar o Google Kubernetes Engine (GKE) para coletar registros e métricas dos clusters Ray em execução no Google Kubernetes Engine (GKE), além de visualizar registros e métricas do Ray no Cloud Logging e no Cloud Monitoring.

Para mais mais informações sobre Ray e KubeRay, Visão geral do Ray no Google Kubernetes Engine (GKE).

Antes de começar

Antes de começar, verifique se você realizou as tarefas a seguir:

  • Ativar a API Google Kubernetes Engine.
  • Ativar a API Google Kubernetes Engine
  • Se você quiser usar a Google Cloud CLI para essa tarefa, instale e, em seguida, inicialize a CLI gcloud. Se você instalou a CLI gcloud anteriormente, instale a versão mais recente executando gcloud components update.

Requisitos e limitações

  • Ative a geração de registros do sistema e de cargas de trabalho em uma instância antes de ativar a coleta de registros para clusters Ray.
  • Se você ativar a coleta de registros para clusters Ray em um o cluster do GKE, o GKE só coleta registros criou os pods do Ray, e não dos pods do Ray existentes.
  • Para clusters padrão do GKE, você precisa ativar Google Cloud Managed Service para Prometheus para ativar a coleta de métricas em clusters do Ray. Nos clusters do Autopilot, o Google Cloud Managed Service para Prometheus é ativado pela padrão.
  • Não é possível implantar um volume chamado ray-logs em qualquer contêiner do Ray no cluster do Ray. Caso contrário, o GKE não vai coletar registros.

Ativar a coleta de registros em um cluster do Ray

É possível ativar a coleta de registros para clusters Ray com recursos novos ou atuais clusters do GKE Autopilot ou Standard. O raio que o GKE coleta nos clusters do Ray são classificados como registros de contêiner do Compute Engine. Isso inclui todos os registros produzidos pelo cabeçalho do cluster Ray e nós de trabalho.

É possível ativar a coleta de registros para clusters Ray usando o console do Google Cloud ou a gcloud CLI.

Console

  1. Acesse a página Google Kubernetes Engine no console do Google Cloud.

    Acessar o Google Kubernetes Engine

  2. Clique em Criar e, na seção Standard ou Autopilot, clique em Configurar.

  3. No painel de navegação, em Cluster, clique em Recursos.

  4. Na seção Operações, verifique se o painel Sistema e cargas de trabalho caixa de seleção está marcada.

  5. Na seção IA e machine learning, selecione Ativar Operador Ray e, em seguida, Ativar coleta de registros para Clusters do Ray.

  6. Clique em Criar.

Para clusters padrão, você também precisa ativar Google Cloud Managed Service para Prometheus.

gcloud

Crie um cluster usando a opção --addons=RayOperator e o Opção --enable-ray-cluster-logging:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-logging

Substitua:

  • CLUSTER_NAME: o nome do novo cluster;
  • VERSION: a versão do GKE, que precisa ser 1.30.2-gke.1060005 ou posterior. Também é possível usar a opção --release-channel para selecionar um canal de lançamento. O canal de lançamento precisa ter uma versão padrão 1.30.2-gke.106000 ou posterior.

É possível ativar a coleta de registros para clusters Ray em um cluster atual usando o gcloud container clusters update com a opção --addons=RayOperator e o --enable-ray-cluster-logging.

Ver registros do Ray

É possível visualizar os registros coletados de clusters do Ray em execução no GKE usando o Logging.

  1. Acesse a página do Cloud Logging no console do Google Cloud.

    Acessar o Cloud Logging

  2. Abra o editor de consultas e cole sua expressão nele.

  3. Clique em Executar consulta

É possível usar os seguintes exemplos de consultas na Análise de registros:

Nome da consulta/filtro Expressão
Todos os registros do Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/is-ray-node"="yes"
Todos os registros de direção do Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/node-type"="head"
Todos os registros em um cluster do Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME"
Todos os registros de um job do Ray
resource.type="k8s_container"
jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID"

Ativar a coleta de métricas de um cluster Ray

É possível ativar a coleta de métricas para clusters Ray com recursos novos ou atuais clusters do GKE Autopilot ou Standard.

Depois de ativar a coleta de métricas para clusters Ray, o GKE coleta métricas de clusters Ray atuais e novos. O GKE coleta todas as métricas do sistema exportadas pelo Ray no Prometheus formato.

É possível ativar a coleta de métricas para clusters Ray usando o o console do Google Cloud ou a CLI gcloud.

Console

  1. Acesse a página Google Kubernetes Engine no console do Google Cloud.

    Acessar o Google Kubernetes Engine

  2. Clique em Criar e, na seção Standard ou Autopilot, clique em Configurar.

  3. No painel de navegação, em Cluster, clique em Recursos.

  4. Na seção Operações, verifique se o painel Sistema e cargas de trabalho caixa de seleção está marcada.

  5. Na seção IA e machine learning, selecione Ativar Operador Ray e, em seguida, Ativar coleta de métricas para Clusters do Ray.

  6. Clique em Criar.

Para clusters padrão, você também precisa ativar Google Cloud Managed Service para Prometheus.

gcloud

Crie um cluster usando a opção --addons=RayOperator e o Opção --enable-ray-cluster-monitoring:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-monitoring

Substitua:

  • CLUSTER_NAME: o nome do novo cluster;
  • VERSION: a versão do GKE, que precisa ser 1.30.2-gke.1060005 ou posterior. Também é possível usar a opção --release-channel para selecionar um canal de lançamento. O canal de lançamento precisa ter uma versão padrão 1.30.2-gke.106000 ou posterior.

É possível ativar a coleta de registros para clusters Ray em um cluster atual usando o gcloud container clusters update com a opção --addons=RayOperator e o --enable-ray-cluster-monitoring.

Conferir métricas do Ray

É possível visualizar as métricas coletadas dos clusters do Ray em execução no GKE usando o Monitoring.

  1. Acesse a página do Explorador de métricas no console do Google Cloud.

    Acessar o Metrics Explorer

  2. No menu suspenso Selecionar uma métrica, insira Destino do Prometheus.

  3. Na seção Categorias de métricas ativas, selecione Ray.

A seguir