En esta página, se muestra cómo configurar Google Kubernetes Engine (GKE) para recopilar registros y métricas de los clústeres de Ray que se ejecutan en Google Kubernetes Engine (GKE), además de cómo ver los registros y las métricas de Ray en Cloud Logging y Cloud Monitoring.
Para obtener más información sobre Ray y KubeRay, consulta Descripción general de Ray en Google Kubernetes Engine (GKE).
Antes de comenzar
Antes de comenzar, asegúrate de haber realizado las siguientes tareas:
- Habilita la API de Google Kubernetes Engine. Habilitar la API de Google Kubernetes Engine
- Si deseas usar Google Cloud CLI para esta tarea, instala y, luego, inicializa gcloud CLI. Si ya instalaste gcloud CLI, ejecuta
gcloud components update
para obtener la versión más reciente.
Requisitos y limitaciones
- Debes habilitar el registro del sistema y de las cargas de trabajo en un clúster de GKE existente antes de habilitar la recopilación de registros para los clústeres de Ray.
- Si habilitas la recopilación de registros para los clústeres de Ray en un clúster de GKE existente, GKE solo recopila registros de los pods de Ray creados recientemente, no de los existentes.
- En el caso de los clústeres de GKE estándar, debes habilitar Google Cloud Managed Service para Prometheus para habilitar la recopilación de métricas para los clústeres de Ray. En el caso de los clústeres de Autopilot, Google Cloud Managed Service para Prometheus está habilitado de forma predeterminada.
- No debes especificar un volumen llamado
ray-logs
en ningún contenedor de Ray en el clúster de Ray. De lo contrario, GKE no recopilará registros.
Habilita la recopilación de registros para un clúster de Ray
Puedes habilitar la recopilación de registros para clústeres de Ray con clústeres nuevos o existentes de Autopilot o GKE Standard. Los registros de Ray que GKE recopila de los clústeres de Ray se clasifican como registros de contenedores. Esto incluye todos los registros que produce el encabezado del clúster de Ray y los nodos de trabajo.
Puedes habilitar la recopilación de registros para los clústeres de Ray con la consola de Google Cloud o gcloud CLI.
Console
Ve a la página de Google Kubernetes Engine en la consola de Google Cloud.
Haz clic en
Crear y, luego, en la sección Standard o Autopilot, haz clic en Configurar.En el panel de navegación, en Clúster, haz clic en Funciones.
En la sección Operaciones, asegúrate de que la casilla de verificación Sistema y cargas de trabajo esté seleccionada.
En la sección IA y aprendizaje automático, selecciona Habilitar operador de Ray y, luego, selecciona Habilitar la recopilación de registros para clústeres de Ray.
Haz clic en Crear.
En el caso de los clústeres estándar, también debes habilitar Google Cloud Managed Service para Prometheus.
gcloud
Crea un clúster con la opción --addons=RayOperator
y la opción --enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-logging
Reemplaza lo siguiente:
CLUSTER_NAME
es el nombre del clúster nuevo.VERSION
: la versión de GKE, que debe ser 1.30.2-gke.1060005 o posterior. También puedes usar la opción--release-channel
para seleccionar un canal de versiones. El canal de versiones debe tener una versión predeterminada de 1.30.2-gke.106000 o posterior.
Puedes habilitar la recopilación de registros para los clústeres de Ray en un clúster existente con el comando gcloud container clusters update
con la opción --addons=RayOperator
y la opción --enable-ray-cluster-logging
.
Visualiza los registros de Ray
Puedes ver los registros recopilados de los clústeres de Ray que se ejecutan en GKE con Logging.
Ve a la página Cloud Logging en la consola de Google Cloud.
Abre el editor de consultas y pega tu expresión en él.
Haz clic en Ejecutar consulta.
Puedes usar las siguientes consultas de ejemplo en el Explorador de registros:
Nombre de la consulta o del filtro | Expresión |
---|---|
Todos los registros de Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Todos los registros de Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Todos los registros de un clúster de Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Todos los registros de un trabajo de Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Habilita la recopilación de métricas para un clúster de Ray
Puedes habilitar la recopilación de métricas para los clústeres de Ray con clústeres nuevos o existentes de GKE Autopilot o Standard.
Después de habilitar la recopilación de métricas para los clústeres de Ray, GKE recopila métricas de los clústeres de Ray existentes y de los nuevos. GKE recopila todas las métricas del sistema que exporta Ray en formato Prometheus.
Puedes habilitar la recopilación de métricas para clústeres de Ray con la consola de Google Cloud o gcloud CLI.
Console
Ve a la página de Google Kubernetes Engine en la consola de Google Cloud.
Haz clic en
Crear y, luego, en la sección Standard o Autopilot, haz clic en Configurar.En el panel de navegación, en Clúster, haz clic en Funciones.
En la sección Operaciones, asegúrate de que la casilla de verificación Sistema y cargas de trabajo esté seleccionada.
En la sección IA y aprendizaje automático, selecciona Habilitar operador de Ray y, luego, Habilitar la recopilación de métricas para los clústeres de Ray.
Haz clic en Crear.
En el caso de los clústeres estándar, también debes habilitar Google Cloud Managed Service para Prometheus.
gcloud
Crea un clúster con la opción --addons=RayOperator
y la opción --enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Reemplaza lo siguiente:
CLUSTER_NAME
es el nombre del clúster nuevo.VERSION
: la versión de GKE, que debe ser 1.30.2-gke.1060005 o posterior. También puedes usar la opción--release-channel
para seleccionar un canal de versiones. El canal de versiones debe tener una versión predeterminada de 1.30.2-gke.106000 o posterior.
Puedes habilitar la recopilación de registros para los clústeres de Ray en un clúster existente con el comando gcloud container clusters update
con la opción --addons=RayOperator
y la opción --enable-ray-cluster-monitoring
.
Visualiza las métricas de Ray
Puedes ver las métricas recopiladas de los clústeres de Ray que se ejecutan en GKE con Monitoring.
Ve a la página Explorador de métricas en la consola de Google Cloud.
En el menú desplegable Seleccionar una métrica, ingresa Prometheus Target.
En la sección Categorías de métricas activas, selecciona Ray.
¿Qué sigue?
- Obtén más información sobre Ray en Kubernetes.
- Explora la documentación de KubeRay.