Supervisa tu clúster de Ray en Vertex AI

En esta página, se explica cómo ver los registros de seguimiento asociados con tus clústeres de Ray y supervisar las métricas de Ray en Vertex AI. También se proporciona orientación para depurar los clústeres de Ray.

Ver registros

Cuando realizas tareas con tu clúster de Ray en Vertex AI, los registros de seguimiento se generan y almacenan de forma automática en Cloud Logging y en el panel de Ray de código abierto. En esta sección, se describe cómo acceder a los registros generados a través de la consola de Google Cloud.

Antes de comenzar, asegúrate de leer la descripción general de Ray en Vertex AI y configurar todas las herramientas de requisitos previos que necesitas.

Panel de OSS de Ray

Puedes ver los archivos de registro de Ray de código abierto a través del panel de Ray OSS:

  1. En la consola de Google Cloud, ve a la página Ray en Vertex AI.

    Ir a la página de Ray en Vertex AI

  2. En la fila del clúster que creaste, selecciona el menú más acciones.

  3. Selecciona el vínculo del panel de Ray OSS. El panel se abrirá en otra pestaña.

  4. Navega a la vista Registros en la esquina superior derecha del menú:

    Selecciona los registros del panel de Ray

  5. Haz clic en cada nodo para ver los archivos de registro asociados con él.

Consola de Cloud Logging

  1. En la consola de Google Cloud, ve a la página Explorador de registros:

    Ir al Explorador de registros

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Logging.

  2. Selecciona una organización, una carpeta o un proyecto existente de Google Cloud.

  3. Para mostrar todos los registros de Ray, ingresa la siguiente consulta en el campo del editor de consultas y, luego, haz clic en Ejecutar consulta:

    resource.labels.task_name="ray-cluster-logs"
  4. Para limitar los registros a un clúster de Ray específico, agrega la siguiente línea a la consulta y haz clic en Ejecutar consulta:

    labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME

    Reemplaza CLUSTER_NAME por el nombre del clúster de Ray. En la consola de Google Cloud, ve a Vertex AI > Ray en Vertex AI, donde verás una lista de nombres de clústeres en cada región.

  5. Para limitar aún más los registros a un archivo de registro específico, como raylet.out, haz clic en el nombre del registro en Campos de registro -> Nombre del registro.

  6. Puedes agrupar entradas de registro similares:

    1. En los Resultados de la búsqueda, haz clic en una entrada de registro para expandir el registro.

    2. En jsonPayload, haz clic en el valor tailed_path. Aparecerá un menú desplegable.

    3. Haz clic en Mostrar entradas coincidentes.

Supervisa las métricas

Puedes ver las métricas de Ray en Vertex AI de diferentes maneras mediante Google Cloud Monitoring (GCM). Como alternativa, puedes exportar las métricas de GCM a tu propio servidor de Grafana.

Supervisa métricas en GCM

Hay dos formas de ver las métricas de Ray en Vertex AI en GCM.

  • Usa la vista directa en Explorador de métricas.
  • Importa el panel de Grafana.

Explorador de métricas

Para usar la vista directa en Explorador de métricas, sigue estos pasos:

  1. Ve a la consola de voz de Google Cloud.
  2. En Explorar, selecciona Explorador de métricas.
  3. En Recursos activos, selecciona Destino de Prometheus. Aparecerá Categorías de métricas activas.
  4. Selecciona Ray.

    Aparecerá una lista de métricas:

    selecciona una métrica
  5. Selecciona las métricas que deseas supervisar. Por ejemplo:
    1. Elige el porcentaje de uso de CPU como una métrica supervisada:
      utilization-target
    2. Selecciona un filtro. Por ejemplo, selecciona el clúster:
      agregar el filtro necesarioUsa el ID del clúster a fin de supervisar solo las métricas anteriores para un clúster específico. Para ubicar el ID de tu clúster, sigue estos pasos:
      1. En la consola de Google Cloud, ve a la página Ray.

        <a{: class="button button-primary" l10n-attrs-original-order="href,target,class,track-name,track-type" l10n-encrypted-href="bash7VfS7v97kFMfFswzsVtigmNHgUGOXn/QVSGplOhkmlzdEQDMMH4jcjHScfwvp9a4rZoGntItFjPzhvIvOg==" target="console" track-name="consoleLink" track-type="tasks" }="">Ir a Ray</a{:>

      2. Asegúrate de estar en el proyecto en el que deseas crear el experimento.
        Selección de proyecto de Vertex AI
      3. En Nombre, aparecerá una lista de IDs de clústeres.
      selecciona una métrica
    3. Selecciona el método Agregación para ver las métricas. Es decir, puedes elegir ver métricas no agregadas, que muestran el uso de CPU de cada proceso de Ray:
      métricas no agregadas

Panel de GCM

Para importar un panel de Grafana para Ray en Vertex AI, sigue los lineamientos del panel de supervisión en la nube, Importa tu propio panel de grafana.

panel de supervisión

Todo lo que necesitas es un archivo JSON del panel de Grafana. OSS Ray admite esta configuración manual, ya que proporciona el archivo JSON de Grafana del panel predeterminado.

Supervisa métricas de Grafana de usuario

Si ya tienes un servidor de Grafana en ejecución, también hay una forma de exportar todo el clúster de Ray en las métricas de Prometheus de Vertex AI a tu servidor existente de Grafana. Para hacerlo, sigue la guía de Consulta con Grafana de GMP. Esto te permite agregar una nueva fuente de datos de Grafana a tu servidor de Grafana existente y usar el sincronizador de fuentes de datos para sincronizar la fuente de datos nueva de Grafana de Prometheus con las métricas de Ray en Vertex AI.

Es importante que configures y autentiques la fuente de datos de Grafana recién agregada mediante el sincronizador de fuentes de datos. Sigue los pasos proporcionados en Configura y autentica la fuente de datos de Grafana.

Una vez que se realiza la sincronización, puedes crear y agregar cualquier panel que necesites en función de las métricas de Ray en Vertex AI.

De forma predeterminada, las colecciones de métricas de Ray en Vertex AI están habilitadas. A continuación, se muestra cómo inhabilitarlos con el SDK de Vertex AI para Python:

vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...)

Depura clústeres de Ray

Para depurar los clústeres de Ray, usa la shell interactiva del nodo principal:

Consola de Google Cloud

Para acceder a la shell interactiva del nodo principal, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Ray en Vertex AI.
    <a{: class="button button-primary" l10n-attrs-original-order="href,target,class,track-name,track-type" l10n-encrypted-href="bash7VfS7v97kFMfFswzsVtigmNHgUGOXn/QVSGplOhkmlzdEQDMMH4jcjHScfwvp9a4rZoGntItFjPzhvIvOg==" target="console" track-name="consoleLink" track-type="tasks" }="">Ir a Ray en Vertex AI </a{:>
  2. Asegúrate de estar en el proyecto correcto.
    Selección de proyecto de Vertex AI
  3. Selecciona el clúster que deseas examinar. Aparecerá la sección Información básica.
  4. En la sección Vínculos de acceso, haz clic en el vínculo de Shell interactiva del nodo principal. Aparecerá la shell interactiva del nodo principal.
  5. Sigue las instrucciones que se describen en Supervisa y depura el entrenamiento con una shell interactiva.

¿Qué sigue?