Incidentes y el panel de estado de Google Cloud

Ciclo de vida de un incidente

Cuando se detecta una degradación del producto, el equipo de ingeniería del producto y el equipo de asistencia de Google Cloud Platform trabajan juntos para resolver el incidente y brindarte información al respecto.

Diagrama del ciclo de vida

Detección

Google utiliza supervisión interna y de caja negra para detectar incidentes. Para obtener más información, consulta el Capítulo 6 del libro Ingeniería de confiabilidad de sitios.

Si cuentas con servicio de asistencia Premium, para empresas o por funciones, puedes informar un incidente mediante la creación de un caso de ayuda en Google Cloud Console. Si cuentas con servicio de asistencia Platino, Oro o Plata, puedes informar un incidente mediante la creación de un caso de ayuda en el Google Cloud Support Center. De lo contrario, puedes usar este formulario.

Respuesta inicial

Cuando se detecta un incidente, el equipo de asistencia se comunica contigo. La notificación inicial de un incidente suele estar dispersa, con frecuencia solo menciona el producto en cuestión. Esto se debe a que priorizamos la notificación rápida sobre los detalles. Se pueden proporcionar detalles en las actualizaciones posteriores.

Para proporcionarte la mayor cantidad de información posible sin abrumarte con problemas que no te afectan, se utilizan diferentes canales de comunicación según el alcance y la gravedad de un problema:

Diagrama de comunicaciones

El Panel de estado de Cloud es el primer lugar para verificar cuando descubres que un problema te está afectando. El panel muestra incidentes que afectan a muchos clientes, por lo que si ves un incidente en la lista, es probable que esté relacionado con tu problema. Para indicar la gravedad, el panel de estado marca los incidentes como alteración o interrupción. Se publican más avisos provisionales sobre problemas menores, pero aun así generalizados.

Los problemas conocidos que aparecen en Google Cloud Support Center y en la página de asistencia de Cloud Console representan la vista más completa de los problemas y, además, incluyen problemas que afectan a menos personas de las que se muestran en el panel. Si sospechas que existe un problema de GCP, pero no ves nada en el panel, debes realizar la verificación aquí.

Los casos de ayuda son apropiados para problemas que no califican como incidentes o cuando se necesita un contacto humano uno a uno. La página de problemas conocidos te permite crear un caso a partir de un incidente publicado para que puedas obtener actualizaciones periódicas y puedas hablar con el personal de asistencia.

Investigar

Los equipos de ingeniería de productos son responsables de investigar la causa raíz de los incidentes. Los ingenieros de confiabilidad de sitios suelen realizar la administración de incidentes, pero otros ingenieros o los ingenieros de software pueden realizar la administración, según la situación y el producto. Para obtener más información, consulta el Capítulo 12 del libro Site Reliability Engineering.

Mitigación/corrección

Un problema se considera corregido solo cuando se realizan cambios que permiten a Google estar seguro de que tales cambios acabarán con el impacto indefinidamente. Por ejemplo, la corrección podría ser revertir un cambio que provocó un incidente.

Mientras se produce un incidente, el equipo de asistencia y de productos intentará mitigar el problema. La mitigación tiene lugar cuando se puede reducir el impacto o el alcance de un problema, por ejemplo, si se proporcionan temporalmente recursos adicionales a un servicio que sufre una sobrecarga.

Si no se ha encontrado ninguna mitigación, cuando sea posible, el equipo de asistencia buscará y comunicará soluciones alternativas. Las soluciones alternativas son pasos que puedes seguir para resolver la necesidad subyacente a pesar del incidente. Una solución alternativa podría ser utilizar diferentes configuraciones para una llamada a la API a fin de evitar una ruta de código problemática.

Seguimiento

Mientras un incidente está en curso, el equipo de asistencia proporciona actualizaciones periódicas. Por lo general, las actualizaciones proporcionan:

  • Más información sobre el incidente, como mensajes de error, zonas o regiones afectadas, qué características están afectadas o porcentajes de impacto.

  • Progreso hacia la mitigación, incluidas las soluciones alternativas.

  • Cronogramas para la comunicación, adaptados al incidente.

  • Cambios en el estado, como cuando se corrige un incidente.

Post mortem

Todos los incidentes tienen un proceso post mortem interno para comprender completamente el incidente y, además, identificar las mejoras de confiabilidad que Google puede hacer. A continuación, se realiza un seguimiento de estas mejoras y se las implementa. Para obtener más información sobre los procesos post mortem en Google, consulta el Capítulo 15 del libro Site Reliability Engineering.

Informe de incidente

Cuando los incidentes tienen un impacto muy amplio y grave, Google proporciona informes de incidentes que describen los síntomas, el impacto, la causa raíz, la corrección y la prevención futura de incidentes. Como ocurre con los proceso post mortem, prestamos especial atención a las medidas que tomamos para aprender del problema y mejorar la confiabilidad. El objetivo de Google cuando escribe y publica procesos post mortem es ser transparente y demostrar el compromiso que tenemos con la creación de servicios estables para nuestros clientes.

Preguntas frecuentes

¿Qué tipo de información de estado puedo encontrar en la página principal del panel?

El panel de estado de Google Cloud proporciona información de estado sobre los servicios que forman parte de Google Cloud Platform. El estado puede incluir problemas o interrupciones del servicio, así como mensajes informativos sobre un problema temporal.

¿Dónde puedo encontrar información sobre interrupciones y alteraciones del servicio en el pasado?

La página Historial y resumen es un repositorio en el que se enumeran las alteraciones y las interrupciones de servicio en los últimos 365 días. Haz clic en el número de un incidente para ver los mensajes relacionados que se publicaron mientras el incidente estaba en curso, así como los informes de resumen de incidente que escribió el equipo de asistencia.

¿Qué sucede si tengo un problema, pero no aparece en el panel?

Es posible que el problema solo esté afectando a tus proyectos o instancias, o a una cantidad limitada de clientes. Puedes comunicarte con el equipo de asistencia sobre cualquier problema que experimentes y que no figure en el panel.

Si usas Google Cloud Console, puedes hacer clic en la herramienta Enviar comentarios en la esquina superior derecha para informar problemas.

¿Quién actualiza el panel?

El equipo global de asistencia de Google Cloud Platform supervisa el estado de los servicios con diferentes tipos de indicadores y actualiza el panel en caso de un problema generalizado. Si es necesario, publicarán un informe detallado con un análisis del incidente una vez que esté resuelto.

¿Cuál es la diferencia entre un "incidente" y una "interrupción"?

Aunque estos términos a menudo se usan indistintamente, el Panel de estado de Cloud y nuestras comunicaciones externas usan "incidente" para referirse a cualquier período de servicio degradado y utilizan "interrupción" para hacer referencia solo a los períodos más graves, en los que un producto no funciona en gran medida.