Observa y supervisa VMs


En este documento, se describe cómo acceder y ver las métricas de las máquinas virtuales (VM). También se describe cómo revisar las métricas de VMs para obtener más información sobre tus VMs o solucionar problemas específicos con una.

La supervisión de instancias de máquina virtual (VM) es esencial para mantener los recursos de VMs. Compute Engine ofrece una vista de alto nivel de las métricas de VMs mediante la pestaña Observabilidad en la consola de Google Cloud. En esta pestaña, se proporciona un panel predefinido que usa datos de telemetría para que puedas supervisar tus VMs y tomar decisiones fundamentadas sobre tus recursos de Compute Engine. También puedes personalizar el panel predefinido para ver solo las métricas específicas que deseas.

Todas las VMs tienen datos de uso de procesos básicos disponibles cuando se crean. Sin embargo, la instalación del Agente de operaciones proporciona estadísticas más detalladas sobre el comportamiento de las VMs.

Para obtener más información sobre cómo crear una política de alertas de supervisión mediante el Explorador de métricas, o para obtener información general sobre cómo funcionan la supervisión y las métricas en Google Cloud, consulta los documentos de Cloud Monitoring.

Antes de comenzar

Opcional: Instala el Agente de operaciones para recopilar datos más detallados de tus instancias de Compute Engine.

Para verificar qué instancias de VM tienen el Agente de operaciones instalado, haz lo siguiente:

  1. En la consola de Google Cloud, ve a Paneles de Monitoring.

    Ir a Paneles de Monitoring

  2. Selecciona Instancias de VM en la lista de paneles.

  3. Haz clic en Lista para ver las VMs como una lista.

    Se muestran todas las VMs de tu proyecto. En la columna Agente, se muestra el estado de la instalación del agente de operaciones. Puedes instalar o actualizar el agente desde esta página.

Accede a las métricas de observabilidad de la VM

Accede a la información de una o varias VMs mediante la pestaña Observabilidad en la consola de Google Cloud. De forma predeterminada, un panel predefinido muestra las métricas de VM. Si deseas ver solo las métricas específicas que deseas, puedes crear un panel personalizado.

Visualiza las métricas de observabilidad de una sola VM

Las métricas básicas de VM, como el uso de CPU y el tráfico de red, están disponibles para ti cuando creas la VM. Las métricas de uso de memoria y procesos solo están disponibles con la instalación del Agente de operaciones, que es el agente principal para recopilar telemetría de tus instancias de Compute Engine.

Para ver las métricas de una sola VM, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Instancias de VM.

    Ir a Instancias de VM

  2. Selecciona una VM para abrir la página Detalles.

  3. Haz clic en la pestaña Observabilidad para mostrar información sobre la VM.

  4. Opcional: Restablece el período predeterminado de una hora al período que deseas supervisar.

La información de la Figura 1 muestra los detalles de la VM sin el Agente de operaciones instalado en la VM. Ten en cuenta que los grafos de Memoria y Uso del espacio en disco no tienen datos.

Pestaña Observabilidad de una VM sin el Agente de operaciones instalado.
Figura 1: La pestaña Observabilidad de una sola VM sin el Agente de operaciones instalado.

Visualiza métricas de observabilidad para varias VMs

La observabilidad a nivel de la flota muestra las métricas de las cinco VMs principales con el uso de procesos más alto. Las cinco VMs principales enumeradas varían según la métrica. Es posible que no veas las mismas cinco VMs para cada proceso. Aunque hay más datos disponibles a nivel de la flota sin instalar el Agente de operaciones en comparación con la cantidad de datos disponibles para una sola VM, la instalación del agente proporciona más datos a fin de solucionar problemas de futuro.

Para ver las métricas de varias VMs, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Instancias de VM.

    Ir a Instancias de VM

  2. Haz clic en la pestaña Observabilidad.

  3. Opcional: Restablece el período predeterminado de una hora al período que deseas supervisar.

  4. Filtra los resultados por una o más de las siguientes opciones:

    • ID
    • Nombre
    • Tipo de máquina
    • Zona
    • Región
    • Grupo de instancias
    • Etiquetas
    • Estado

En la información de la Figura 2, se muestra un ejemplo de la pestaña Observabilidad cuando varias VMs de un proyecto tienen el Agente de operaciones instalado. Ten en cuenta que hay más métricas disponibles sobre estas VMs.

Varias instancias de VM con el Agente de operaciones instalado.
Figura 2: Varias instancias de VM con el Agente de operaciones instalado.

Visualiza las métricas detalladas de una VM

Cada métrica de proceso de VM está representada por una línea de gráfico en un gráfico. En el siguiente ejemplo, la VM uptime-demo tiene el Agente de operaciones instalado. Los datos de uso de memoria están disponibles para solucionar problemas. Si una VM no aparece en la tarjeta, filtra por el nombre de la VM para encontrar una VM específica.

Para recuperar la información sobre esta VM o sobre otra de las cinco VMs principales de la pestaña Observabilidad, haz lo siguiente:

  1. Mantén el puntero sobre la línea del grafo de cualquier VM. Aparece una tarjeta con una lista de las cinco VMs principales que usan el proceso, cada una de las cuales muestra una métrica.
  2. Para obtener más información sobre el comportamiento de la VM, haz clic en la línea del grafo de VM o en el nombre específico de una VM de la lista.

La VM uptime-demo que se muestra en la tarjeta en la Figura 3 revela algunas métricas que pueden requerir una revisión.

La línea del grafo representa una VM. Haz clic en ella para obtener más información sobre una VM específica.
Figura 3: La línea del grafo representa una VM. Haz clic en ella para obtener más información sobre una VM específica.

Haz clic en la VM uptime-demo para abrir la página Detalles de VM que se muestra en la Figura 4, que proporciona la siguiente información:

  • El estado del Agente de operaciones.
  • Las opciones en contexto para crear Alertas, verificar Eventos o Verificaciones de tiempo de actividad.
  • La opción para ver los detalles de la configuración, las métricas y los registros de la VM.
La página Detalles de la VM proporciona información sobre una VM específica.
Figura 4: La página Detalles de la VM proporciona información sobre una VM específica.

Crea un panel personalizado para ver métricas específicas

De forma predeterminada, la pestaña Observabilidad en Compute Engine proporciona un panel predefinido que muestra métricas básicas de VM. Para ver solo las métricas específicas que deseas ver, puedes modificar el panel predefinido y guardarlo como un panel personalizado. Puedes personalizar el panel según tus necesidades.

Si deseas crear un panel personalizado, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Instancias de VM.

    Ir a Instancias de VM

  2. Ve a la pestaña Observabilidad de la siguiente manera:

    • En una sola VM: en la página Instancias de VM, haz clic en el nombre de la VM para abrir la página Detalles y, luego, haz clic en Observabilidad pestaña correspondiente a esa VM.
    • Para varias VMs: En la página Instancias de VM, haz clic en la pestaña Observabilidad.
  3. Si el menú desplegable Panel está habilitado, los paneles personalizados estarán disponibles. Para modificar una vista personalizada, selecciona una en el menú desplegable y, luego, en la barra de herramientas del panel, haz clic en .

  4. De lo contrario, para personalizar el panel predefinido, en la barra de herramientas del panel, haz clic en .

    Compute Engine crea una copia del panel predefinido y, luego, la abre en modo de edición.

  5. En el editor, puedes agregar, modificar, borrar, cambiar la posición o cambiar el tamaño de las visualizaciones en el panel. Las visualizaciones se denominan de forma colectiva widgets. Para obtener más información sobre los diferentes tipos de widgets, consulta Descripción general de los paneles.

    • Para agregar un widget, en la barra de herramientas del panel, haz clic en Agregar widget y completa la configuración.

      Por ejemplo, para ver los registros con los datos de tus métricas, haz clic en Agregar widget, selecciona Registros y, luego, haz clic en Aplicar.

    • Si deseas modificar un widget, coloca el puntero sobre el widget para activar la barra de herramientas, haz clic en Editar widget y, luego, usa el diálogo Configurar widget. Para aplicar los cambios en el panel, en la barra de herramientas, haz clic en Aplicar. Para descartar los cambios, haz clic en Cancelar.

    • Si deseas borrar un widget, coloca el cursor sobre el widget para activar la barra de herramientas, haz clic en Más opciones de gráfico y, luego, selecciona Borra.

    • Para cambiar la posición de un widget, usa el cursor a fin de arrastrar el widget por su encabezado a una ubicación nueva.

    • Si deseas cambiar el tamaño de un widget, usa el puntero para cambiar la posición de la esquina derecha del widget.

  6. Cuando termines de modificar el panel, haz clic en Guardar.

  7. En el cuadro de diálogo que confirma los cambios, haz clic en Ver panel personalizado para ir a la vista personalizada.

    Para volver a la vista predefinida, selecciona Predefinido en el menú desplegable Panel.

Revisa las métricas de recursos

Para obtener más información sobre cada métrica de recursos, haz clic en cada proceso dentro del menú de pestaña Observabilidad:

  • Explora la CPU, los procesos, el uso de memoria, el tráfico de red y el uso de disco.
  • Para ver los datos de registro, busca Registros a fin de identificar y ver Eventos del sistema.
  • Agrega Integraciones de terceros y verifica las integraciones existentes Configuradas.

En el resto de esta sección, se describen ejemplos de cómo algunos procesos pueden afectar tus cargas de trabajo. En esta información, se supone que el Agente de operaciones está instalado en tus VMs.

Uso de CPU

Un ejemplo de uso de CPU extremo puede ser cuando un servidor tiene una carga inesperadamente pesada, como cuando un sitio web experimenta un aumento repentino en el tráfico o cuando una tarea de procesamiento de datos a gran escala está en curso. En tales casos, la CPU puede ejecutarse al 100% de su capacidad durante un período prolongado, lo que puede hacer que el servidor disminuya la velocidad o que deje de responder.

En este ejemplo, la saturación es la preocupación. Si tu uso de CPU se encuentra al 100%, esto podría ser adecuado para tus cargas de trabajo, pero tal vez quieras examinar otras métricas para saber si esto requiere intervención. En este caso, es posible que quieras crear una política de alertas para que se te notifique cuando aumente el uso de CPU de una VM.

Con los permisos adecuados, puedes conectarte con SSH a tus VMs para investigar el problema. Sin embargo, si el Agente de operaciones está instalado, puedes ver datos más históricos para ayudarte a solucionar problemas.

Uso de procesos

Un ejemplo de comportamiento extremo del proceso puede ser cuando un proceso consume una cantidad excesiva de recursos, como CPU, memoria o E/S de disco, hasta el punto en el que se degrada el rendimiento o incluso falla la VM.

Por ejemplo, si un proceso que se ejecuta en una VM experimenta una pérdida de memoria, es posible que comience a consumir grandes cantidades de memoria a lo largo del tiempo, lo que podría provocar que la VM se quede sin memoria y falle. De manera similar, si un proceso usa mucho el disco, puede hacer que la E/S del disco de la VM se sature, lo que genera tiempos de respuesta lentos para otros procesos.

Uso de memoria

Las bases de datos requieren mucha memoria para realizar operaciones como la indexación, clasificación y unión de tablas.

Un ejemplo del uso de memoria alta en una VM es cuando ejecutas un servidor de base de datos, como Cloud SQL para MySQL o Cloud SQL para PostgreSQL, con un conjunto de datos grande. Si la memoria disponible de tu VM es demasiado pequeña, volver a cargar un conjunto de datos en la memoria puede hacer que la base de datos se ejecute con lentitud o falle.

Rendimiento de la red

Los problemas de rendimiento de las Herramientas de redes son el resultado de diferentes factores: congestión, limitaciones del ancho de banda, problemas de hardware o software, y latencia. Para diagnosticar el problema, supervisa las métricas de rendimiento de la red, soluciona los problemas de hardware y software, y analiza los patrones de tráfico de red a fin de identificar y resolver la causa raíz del problema.

Uso de disco

El uso alto del disco en una VM ocurre cuando hay una gran cantidad de datos que se leen o escriben en el disco virtual, lo que da como resultado una demora en el acceso al disco y un posible impacto en el rendimiento de la VM.

Supervisar las métricas de uso del disco, como las operaciones de E/S por segundo (IOPS) de disco, la longitud de la cola de disco y el tiempo de respuesta promedio del disco puede ayudar a identificar y diagnosticar problemas de uso de disco altos en una VM.

Verifica los registros y los eventos del sistema

En la página Todos los registros, se proporcionan datos de registro sobre tus recursos. Ordena por gravedad para identificar problemas e inspeccionar la carga útil.

Los registros de auditoría registran los eventos administrativos que ocurren en tus recursos. Los registros pueden decirte qué sucedió para activar el evento. Se registran y mantienen varios registros en la misma fila, por lo que, por ejemplo, si tienes 20 registros idénticos, la información se almacena en una fila, en lugar de 20 filas separadas.

Puedes pensar en Eventos del sistema como un término general para los eventos que se producen en un nivel superior, pero que pueden afectar tus recursos de Compute Engine. Un evento del sistema ocurre cuando se activa un error no relacionado con un evento planificado. Los eventos del sistema se registran a nivel de la flota.

Usa integraciones de terceros

Monitoring proporciona integraciones con aplicaciones de terceros. Estas integraciones te permiten recopilar telemetría de aplicaciones como Apache Web Server, Cloud SQL para MySQL, Memorystore para Redis y otras para implementaciones que se ejecutan en Compute Engine y GKE. Cuando usas Compute Engine, el Agente de operaciones recopila telemetría de terceros.

¿Qué sigue?