En esta página se muestra cómo configurar Google Kubernetes Engine (GKE) para recoger registros y métricas de clústeres de Ray que se ejecutan en Google Kubernetes Engine (GKE), así como cómo ver los registros y las métricas de Ray en Cloud Logging y Cloud Monitoring.
Para obtener más información sobre Ray y KubeRay, consulta la descripción general de Ray en Google Kubernetes Engine (GKE).
Antes de empezar
Antes de empezar, asegúrate de haber realizado las siguientes tareas:
- Habilita la API de Google Kubernetes Engine. Habilitar la API de Google Kubernetes Engine
- Si quieres usar Google Cloud CLI para esta tarea, instálala y, a continuación, inicialízala. Si ya has instalado la gcloud CLI, obtén la versión más reciente ejecutando
gcloud components update
.
Requisitos y limitaciones
- Debes habilitar el registro del sistema y de las cargas de trabajo en un clúster de GKE antes de habilitar la recogida de registros de clústeres de Ray.
- Si habilitas la recogida de registros de clústeres de Ray en un clúster de GKE, GKE solo recogerá los registros de los pods de Ray que se creen, no de los que ya existan.
- En los clústeres de GKE estándar, debes habilitar Google Cloud Managed Service para Prometheus para habilitar la recogida de métricas de los clústeres de Ray. En los clústeres de Autopilot, Google Cloud Managed Service para Prometheus está habilitado de forma predeterminada.
- No debes especificar un volumen llamado
ray-logs
en ningún contenedor de Ray del clúster de Ray. De lo contrario, GKE no recopilará registros.
Habilitar la recogida de registros de un clúster de Ray
Puedes habilitar la recogida de registros para clústeres de Ray con clústeres de GKE Autopilot o Estándar nuevos o ya creados. Los registros de Ray que GKE recoge de los clústeres de Ray se clasifican como registros de contenedores. Esto incluye todos los registros generados por el encabezado del clúster de Ray y los nodos de trabajador.
Puedes habilitar la recogida de registros de clústeres de Ray mediante la Google Cloud consola o la CLI de gcloud.
Consola
Ve a la página Google Kubernetes Engine en la Google Cloud consola.
Haz clic en
Crear y, a continuación, en la sección Estándar o Autopiloto, haz clic en Configurar.En el panel de navegación, ve a Clúster y haz clic en Funciones.
En la sección Operaciones, asegúrese de que la casilla Sistema y cargas de trabajo esté marcada.
En la sección IA y aprendizaje automático, selecciona Habilitar operador Ray y, a continuación, Habilitar recogida de registros para clústeres Ray.
Haz clic en Crear.
En los clústeres estándar, también debes habilitar Google Cloud Managed Service para Prometheus.
gcloud
Crea un clúster con la opción --addons=RayOperator
y la opción --enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-logging
Haz los cambios siguientes:
CLUSTER_NAME
: el nombre del nuevo clúster.LOCATION
: la ubicación del nuevo clúster (por ejemplo, us-central1).
Puedes habilitar la recogida de registros de clústeres de Ray en un clúster que ya tengas con el comando gcloud container clusters update
con la opción --addons=RayOperator
y la opción --enable-ray-cluster-logging
.
Ver registros de Ray
Puedes ver los registros recopilados de los clústeres de Ray que se ejecutan en GKE mediante Logging.
Ve a la página Cloud Logging de la consola de Google Cloud .
Abre el editor de consultas y pega la expresión en él.
Haz clic en Ejecutar consulta.
Puedes usar las siguientes consultas de ejemplo en el Explorador de registros:
Nombre de la consulta o del filtro | Expresión |
---|---|
Todos los registros de Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Todos los registros de encabezado de Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Todos los registros de un clúster de Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Todos los registros de un trabajo de Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Habilitar la recogida de métricas en un clúster de Ray
Puedes habilitar la recogida de métricas en clústeres de Ray con clústeres de GKE Autopilot o Estándar nuevos o ya creados.
Una vez que hayas habilitado la recogida de métricas para los clústeres de Ray, GKE recogerá métricas de los clústeres de Ray que ya tengas y de los que crees. GKE recoge todas las métricas del sistema exportadas por Ray en formato Prometheus.
Puedes habilitar la recogida de métricas de clústeres de Ray mediante laGoogle Cloud consola o la CLI de gcloud.
Consola
Ve a la página Google Kubernetes Engine en la Google Cloud consola.
Haz clic en
Crear y, a continuación, en la sección Estándar o Autopiloto, haz clic en Configurar.En el panel de navegación, ve a Clúster y haz clic en Funciones.
En la sección Operaciones, asegúrese de que la casilla Sistema y cargas de trabajo esté marcada.
En la sección IA y aprendizaje automático, selecciona Habilitar operador Ray y, a continuación, Habilitar recogida de métricas para clústeres Ray.
Haz clic en Crear.
En los clústeres estándar, también debes habilitar Google Cloud Managed Service para Prometheus.
gcloud
Crea un clúster con la opción --addons=RayOperator
y la opción --enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Haz los cambios siguientes:
CLUSTER_NAME
: el nombre del nuevo clúster.LOCATION
: la ubicación del nuevo clúster (por ejemplo, us-central1).
Puedes habilitar la recogida de registros de clústeres de Ray en un clúster que ya tengas con el comando gcloud container clusters update
con la opción --addons=RayOperator
y la opción --enable-ray-cluster-monitoring
.
Ver métricas de Ray
Google Cloud Managed Service para Prometheus proporciona un panel de control Descripción general de Ray en GKE preconfigurado que ofrece una vista centralizada de las métricas clave de Ray. Esta es la forma recomendada de empezar rápidamente a monitorizar tus clústeres de Ray en GKE.
Ir al panel de control de Ray en GKE
El panel de control se rellena automáticamente cuando habilita la recogida de métricas de su clúster de Ray.
Si quieres consultar métricas concretas recogidas de clústeres de Ray que se ejecutan en GKE, sigue estos pasos:
Ve a la página Explorador de métricas de la consola de Google Cloud .
En el campo Seleccionar una métrica, puede buscar métricas específicas de Ray. Estas métricas suelen tener el prefijo
prometheus/ray_
. Por ejemplo,prometheus/ray_worker_cpu_seconds_total
oprometheus/ray_memory_bytes_max
.Puedes acotar aún más la búsqueda seleccionando el tipo de recurso adecuado (por ejemplo,
k8s_pod
ok8s_container
) y filtrando por las etiquetas relevantes para tu clúster de Ray (por ejemplo,ray.io/cluster
).
Siguientes pasos
- Consulta información sobre Ray en Kubernetes.
- Consulta la documentación de KubeRay.