Supervisión en un entorno de la solución Bare Metal

La solución Bare Metal te permite ejecutar cargas de trabajo especializadas en extensiones regionales ubicados cerca de centros de datos de Google Cloud. Implementando una solución Bare Metal puedes reducir los costos generales y los riesgos asociados con la migración a la nube.

Descripción general de Monitoring

Una de nuestras principales prioridades es entregarles para el entorno de la solución Bare Metal. Por ese motivo, Google Cloud y nuestros socios realizan diversas actividades de supervisión. El A continuación, se muestra una lista de dispositivos de infraestructura en una solución Bare Metal que supervisamos:

Infraestructura de procesamiento

  • Hardware del servidor

Infraestructura de almacenamiento

  • Dispositivos de almacenamiento
  • Conmutadores de SAN

Infraestructura de red

  • Routers
  • Interruptores
  • Infraestructura de interconexión

Google Cloud también realiza un seguimiento del entorno del centro de datos, lo que incluye la temperatura y humedad de la sala de servidores.

No supervisamos los sistemas operativos, la actividad y las cargas de trabajo a nivel de la aplicación, ni el tráfico de red que se envía a los servidores de la solución Bare Metal y desde ellos. Para obtener una vista previa de una utilidad que te permite usar Cloud Operations para supervisar el nivel de SO actividad, contacto Ventas de Google Cloud.

Herramientas de supervisión

Nuestro socio usa soluciones de software de grado comercial para la supervisión que cumplen por completo con la Biblioteca de Infraestructura de Tecnologías de la Información (ITIL). Google Cloud y nuestro socio también usan los servicios de Google Cloud, como Pub/Sub, Cloud Run Functions y Cloud Monitoring para recopilar y procesar estos datos de supervisión. Nuestros sistemas internos de tickets y notificaciones trabajan directamente con estos servicios.

Supervisión de datos

En términos generales, nuestros datos de supervisión provienen de las siguientes fuentes:

  • Trampas SNMP
  • Mensajes de Syslog
  • Mensajes de un software de administración dedicado
  • Interfaz de administración de plataforma inteligente (IPMI)

Métricas comunes de los dispositivos supervisados:

  • Uso de CPU
  • Interfaz de red:
    • Uso de ancho de banda
    • Descartadas de paquetes
    • Errores

Alertas

Google Cloud realizó amplias actividades de normalización y validación para los requisitos específicos del entorno de la solución Bare Metal. Si un evento certificado cae fuera del rango normal, el sistema de supervisión activa una alerta.

Administración de incidentes

Google Cloud y nuestro proveedor de infraestructura de socios tienen una plataforma Equipo las 24 horas, todos los días, responsable de la respuesta ante incidentes. También hay un equipo de conexión disponible las 24 horas, todos los días, para realizar el análisis inicial de cada ticket de asistencia y obtener las medidas necesarias para mitigar el problema. Según la gravedad del incidente, desplegamos los equipos adecuados para resolverlo.

Atención al cliente de Cloud trabaja con el equipo de SysOps de Ingeniería de Google Cloud. Pueden brindarte y coordinar todas las acciones que requieran tu ayuda. Según sea necesario, El equipo de Ingeniería de Google Cloud interactúa con el proveedor de infraestructura socios o proveedores de hardware para ayudarte a resolver el problema.

Proceso de análisis de la causa raíz

Cuando los incidentes tienen un impacto amplio y grave, Google proporciona informes de incidentes que describen los síntomas, el impacto, la causa raíz, la corrección y la prevención de incidentes. Al igual que con los análisis post mortem, prestamos especial atención a las medidas que tomamos para aprender del problema y mejorar la confiabilidad.

Esperamos que este resumen de nuestras capacidades de supervisión te ayude a confiar en el entorno de Bare Metal Solution a medida que migras tu infraestructura y tus aplicaciones a la nube.