Supervisa el estado del disco


Para verificar el estado de un Persistent Disk o un volumen de Google Cloud Hyperdisk, revisa la métrica estado de rendimiento del disco. Esta métrica indica si el rendimiento del disco podría verse afectado por eventos adversos en Compute Engine.

Es posible que un problema que afecte el estado del rendimiento del disco también sea visible en el panel de Personalized Service Health (PSH) de tu proyecto o en el panel de Google Cloud Service Health.

En este documento, se analiza el estado del rendimiento del disco y cómo usarlo para solucionar problemas de rendimiento.

Cuándo verificar el estado de un disco

Si observas un problema de rendimiento con un disco, revisa su estado revisando la métrica de estado de rendimiento del disco. La métrica de estado del rendimiento del disco se actualiza cada minuto y representa el rendimiento del disco durante todo el minuto anterior. Para conocer los pasos para verificar el estado del disco, consulta Cómo ver el estado de rendimiento del disco.

En la siguiente tabla, se resumen los valores posibles del estado de rendimiento del disco.

Estado Significado
Healthy El rendimiento del disco es el esperado.
Degraded Es posible que observes temporalmente una latencia de E/S más alta de lo esperado.
Severely degraded Se producen errores de latencia de E/S alta o algún otro error.

Si el estado de rendimiento no es Healthy, consulta Comprende cada estado para conocer los próximos pasos.

Si el estado de rendimiento es Healthy, el disco funciona de forma normal y debes verificar otras causas del problema de rendimiento. Debes verificar si hay errores de aplicación o del sistema operativo y asegurarte de que el disco esté optimizado correctamente. Para obtener lineamientos de optimización, consulta Optimiza Hyperdisk y Optimiza Persistent Disk.

Cómo se relaciona el estado del disco con otras métricas de rendimiento del disco

El estado del disco, como lo indica la métrica de estado de rendimiento, muestra el estado interno del disco desde la perspectiva de Google. Si el estado de un disco es Degraded o Severely Degraded, la causa raíz siempre está dentro de la infraestructura de Compute Engine.

Por lo general, no puedes cambiar el estado de un disco modificando la carga de trabajo. Sin embargo, en casos excepcionales, un cambio en la carga de trabajo puede activar un problema interno, por lo que es posible mitigar un problema modificando la carga de trabajo.

Para obtener información sobre las otras métricas de rendimiento del disco disponibles, consulta Revisa las métricas de rendimiento del disco.

Situaciones que no afectan el estado del rendimiento del disco

El estado de rendimiento del disco no está relacionado con los problemas de rendimiento que causan los siguientes factores:

  • Optimización de disco incompleta o insuficiente
  • Límite de rendimiento asociado con el disco y el tipo de máquina (si el tipo de máquina elegido no puede cumplir con los requisitos de rendimiento de tu carga de trabajo)
  • Mayor carga en el disco debido al tráfico de la carga de trabajo
  • Error del usuario, de la aplicación o del sistema operativo
  • Discos completos o dañados
  • En el caso de los volúmenes de Hyperdisk y Persistent Disk Extreme, se aprovisionaron IOPS o capacidad de procesamiento insuficientes.

En estas situaciones, es tu responsabilidad mejorar el rendimiento, por ejemplo, a través de la optimización del disco, el escalamiento de la carga de trabajo, el cambio del tipo de máquina y el aprovisionamiento de más capacidad, IOPS o capacidad de procesamiento.

Cómo ver el estado de un disco en Cloud Monitoring

Para ver el estado de un disco, crea un gráfico en el Explorador de métricas.

Roles y permisos requeridos

Para obtener los permisos que necesitas para verificar la métrica de estado de rendimiento del disco, pídele a tu administrador que te otorgue los siguientes roles de IAM en el proyecto:

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.

Crea un gráfico en el Explorador de métricas

Para crear un gráfico, compila una consulta con la interfaz basada en menús, el Lenguaje de consulta de Monitoring (MQL) o PromQL.

Para ver el estado de uno o más discos en un gráfico, sigue estas instrucciones.
  1. En la consola de Google Cloud, ve a la página Explorador de métricas:

    Ir al Explorador de métricas

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Monitoring.

  2. En el elemento Métrica, expande el menú Seleccionar una métrica, ingresa VM Instance en la barra de filtros y, luego, usa los submenús para seleccionar un métrica y tipo de recurso específicos:
    1. En el menú Recursos activos, selecciona Instancia de VM.
    2. En el menú Categorías de métricas activas, selecciona Instancia.
    3. En el menú Métricas activas, selecciona Estado de rendimiento del disco.
    4. Haz clic en Aplicar.
    El nombre calificado en su totalidad para esta métrica es compute.googleapis.com/instance/disk/performance_status.
  3. Configura cómo se ven los datos.
    Inhabilita la agregación. Asegúrate de que, en el elemento Agregación, el primer menú esté configurado como Sin agregar y el segundo como Ninguno.
    Para ver el estado de un disco específico, filtra por device_name.

    Para obtener más información sobre la configuración de un gráfico, consulta elige métricas cuando uses el Explorador de métricas.

MQL

  1. Abre el editor de consultas: sigue los pasos que se indican en Cómo escribir consultas de MQL.

  2. Ingresa tu consulta en el Editor de consultas. Por ejemplo, para ver el estado de rendimiento de un disco específico, ingresa la siguiente consulta:

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    Reemplaza DISK_NAME por el nombre del disco, por ejemplo, disk-1.

PromQL

  1. Abre el editor de consultas: sigue los pasos que se indican en Cómo escribir consultas de PromQL.

  2. Ingresa tu consulta en el Editor de consultas. Por ejemplo, para ver el estado de rendimiento de un disco específico, ingresa la siguiente consulta:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

Reemplaza DISK_NAME por el nombre del disco, por ejemplo, disk-1.

Si ves los resultados en un gráfico, hay 3 líneas para cada disco, una para cada estado posible. Del mismo modo, si ves el resultado de la consulta en una tabla, esta tiene 3 filas para cada disco.

Si compilaste la consulta con PromQL o MQL, cada fila o línea tendrá un valor de 1 o 0. Para las consultas compiladas con los menús, los valores de se establecerán en 100% o 0.

El estado actual del disco está representado por la fila o línea cuyo valor es 100% o 1.

Por ejemplo, en la siguiente captura de pantalla, se muestra el gráfico de un disco llamado a-test-VM, cuyo estado es Healthy:

captura de pantalla que muestra el gráfico en el que el estado del disco es "Buena salud"

Si ves los resultados de la consulta como una tabla, la siguiente tabla es un ejemplo de los resultados de un disco que es Healthy:

performance_status valor
Healthy 1
Degraded 0
Severely Degraded 0

En la siguiente captura de pantalla, se muestra el gráfico de un disco llamado replica-23509 cuyo estado es Degradado: Captura de pantalla en la que se muestra el gráfico en el que el estado del disco es Degradado

Para obtener información sobre el significado de cada estado de rendimiento, consulta Información sobre cada estado. Después de crear el gráfico, puedes guardarlo en un panel para usarlo en el futuro.

Resultados fraccionados

Si tu consulta incluye resultados fraccionarios como en la siguiente tabla, esto suele deberse a que el período de visualización seleccionado fue largo. Como resultado, Cloud Monitoring agrupó los datos a lo largo del tiempo. Un valor de 77% para el estado Healthy significa que el estado del disco fue Healthy durante el 77% del período de visualización seleccionado.

performance_status valor
Healthy 77%
Degraded 23%
Severely Degraded 0

Para obtener una vista más detallada del estado de un disco, usa un período de visualización de algunas horas o minutos.

Información sobre cada estado

En esta sección, se explica qué significa cada estado y cuándo es posible que debas realizar acciones adicionales.

Healthy

El estado Healthy indica que, desde la perspectiva de Google, el disco funciona con normalidad.

Si un disco Healthy tiene problemas de rendimiento, no te comuniques con el equipo de asistencia. En su lugar, sigue algunas de las sugerencias que se indican a continuación para solucionar problemas del disco:

  • Revisa las métricas de rendimiento del disco, como la latencia y la profundidad de la cola.
  • Revisa los registros y las métricas de tu carga de trabajo para detectar anomalías y cuellos de botella.
  • Si usas un Persistent Disk, asegúrate de que la capacidad aprovisionada pueda satisfacer las necesidades de rendimiento del disco. Si usas volúmenes de Hyperdisk o discos persistentes extremos, verifica que hayas aprovisionado suficientes IOPS y capacidad de procesamiento.
  • Asegúrate de haber seguido los lineamientos para optimizar el disco. Para obtener más información, consulta Optimiza Hyperdisk y Optimiza Persistent Disk.

Degraded

Por lo general, no es necesario que te comuniques con el equipo de asistencia si el estado del disco es Degraded. Por lo general, un Degraded status se debe al mantenimiento interno normal de la infraestructura de Compute Engine.

Es posible que no notes ningún impacto en el rendimiento del disco mientras su estado sea Degraded. Si el problema de rendimiento y el estado Degraded se correlacionan en el tiempo, es posible que el problema de rendimiento no esté relacionado con el estado Degraded.

En el caso poco probable de que un problema de rendimiento se deba al estado Degraded, el impacto suele ser temporal. El estado del disco debería volver a Healthy en pocos minutos.

Puedes ignorar el estado Degraded de forma segura si no hay problemas de rendimiento con el disco.

Qué hacer si hay un problema de rendimiento

Si el estado de rendimiento del disco es Degraded y observas un problema de rendimiento, sigue estos pasos:

  1. Consulta el panel de PSH para ver si hay un incidente que afecte el disco. Si ocurre un incidente, no te comuniques con el equipo de asistencia, ya que Google está al tanto y está trabajando para resolver el problema.
  2. Si no hay problemas conocidos, espera al menos 5 minutos para que el problema de rendimiento se resuelva por sí solo.
  3. Si, después de 5 minutos, el problema de rendimiento no se resuelve y el estado sigue siendo Degraded, asegúrate de que el problema de rendimiento no se deba a que el disco no está optimizado de forma suficiente. Por ejemplo, verifica la latencia y la profundidad de la cola del disco. Es posible que el problema de rendimiento y el estado Degraded no estén relacionados y sean solo una coincidencia. Para ello, revisa las métricas del disco y los lineamientos de optimización del rendimiento.

  4. Si los problemas de rendimiento persisten y se cumplen todas las siguientes condiciones, puedes comunicarte con el equipo de asistencia para obtener ayuda:

    • El estado del disco es Degraded durante más de 5 minutos.
    • Tienes la certeza de que no es un problema de carga de trabajo porque optimizaste el disco y verificaste que no hay otros problemas, como un cuello de botella o una aplicación sobrecargada.
    • No hay alertas en el panel de PSH

Google no recomienda crear una alerta para el estado Degraded directamente, sino alertar sobre el estado de la aplicación de nivel superior y usar esta métrica para depurar problemas.

Severely Degraded

Un disco cuyo estado de rendimiento es Severely Degraded tiene un problema de rendimiento. Este problema puede deberse a un incidente o error, y es posible que ya sea visible en el panel de PSH o en el panel de estado del servicio de Google Cloud.

Qué hacer

Si el estado de rendimiento del disco es Severely Degraded, sigue estos pasos:

  1. Verifica el panel de PSH y el panel general de estado de Google Cloud para detectar un incidente que afecte el disco. Si ocurre un incidente, no te comuniques con el equipo de asistencia, ya que Google está al tanto y está trabajando para resolver el problema.
  2. Si no hay problemas conocidos en ambos paneles, comunícate con el equipo de asistencia para obtener ayuda.

Árbol de decisión

En el siguiente diagrama, se ilustra cómo proceder si un disco tiene un problema de rendimiento y se resume la información de las secciones anteriores.

Diagrama de flujo que describe los pasos que se deben seguir para interpretar la métrica de estado de rendimiento del disco.

Como se muestra en el diagrama de flujo, solo debes comunicarte con el equipo de asistencia si no hay alertas conocidas en los paneles de PSH y del servicio en la nube, y el estado del disco es Severely Degraded. Si el disco es Degraded, comunícate con el equipo de asistencia solo si se cumplen todas las siguientes condiciones:

  • El disco estuvo en Degraded durante más de 5 minutos
  • Si descartaste un error de carga de trabajo o una configuración incorrecta (como problemas de red)
  • No se pueden realizar optimizaciones adicionales a nivel de la aplicación, la carga de trabajo ni el disco.
  • Revisaste todas las métricas del disco
  • Examinaste los registros de tu carga de trabajo y de la máquina virtual (VM)

¿Qué sigue?