Incidentes y el panel de estado del servicio de Google Cloud

El panel de Service Health (CSH) de Google Cloud proporciona información de estado de los productos de Google Cloud organizados por región y configuración regional global.

Incidente importante

Google Cloud define un incidente como un incidente importante si cumple con todas las condiciones siguientes:

  • Alto alcance: el incidente tiene un impacto global o afecta a un porcentaje significativo de los proyectos de los clientes en una o más regiones.
  • Gravedad alta: Uno o más productos no están disponibles o tienen un deterioro grave.

En el caso poco frecuente de que ocurra un incidente importante, actuamos con urgencia para resolver cualquier problema.

Durante un incidente importante, el estado del problema se comunica a través del Panel de estado del servicio de Google Cloud. Un incidente importante se marca como Interrupción del servicio en los paneles de estado. Una vez que se resuelve el problema, publicamos un informe público de incidente que incluye los detalles de los factores que contribuyeron al incidente y los pasos que planeamos seguir para evitar que vuelvan a ocurrir.

En el caso de incidentes de menor alcance, se puede poner un informe privado a disposición de los clientes.

Ciclo de vida de un incidente

Cuando se detecta una degradación del producto, el equipo de asistencia al cliente de Google Cloud y el equipo de ingeniería de producto trabajan juntos para resolver el incidente y brindarte actualizaciones.

En el siguiente diagrama, se muestran las responsabilidades de los equipos de ingeniería y asistencia del producto:

Diagrama del ciclo de vida

Puedes obtener más información sobre cada una de estas responsabilidades en las siguientes secciones.

Detección

Google Cloud usa supervisión interna y de caja negra para detectar incidentes. Para obtener más información, consulta el Capítulo 6 del libro Monitoring Distributed Systems.

Si tienes Asistencia premium, mejorada o estándar, puedes informar un incidente mediante la creación de un caso de ayuda en Google Cloud Console. De lo contrario, puedes usar este formulario.

Respuesta inicial

Cuando se detecta un incidente, el equipo de Atención al cliente de Google Cloud administra las comunicaciones con los clientes. La notificación inicial de un incidente suele ser poco detallada y con frecuencia solo menciona el producto en cuestión. Esto se debe a que priorizamos la notificación rápida sobre los detalles. Se pueden proporcionar detalles en las actualizaciones posteriores.

Para proporcionarte la mayor cantidad de información posible sin abrumarte con problemas que no te afectan, se utilizan diferentes canales de comunicación según el alcance y la gravedad de un problema:

Diagrama de comunicaciones

Recomendamos Personalized Service Health como la primera parada ante una interrupción del servicio. A través de Personalized Service Health, puedes ver las interrupciones relevantes en tus proyectos, según los proyectos y los productos de Google Cloud que uses. Obtén más información sobre Personalized Service Health y cómo integrarlo en tu flujo de trabajo de administración de incidentes.

En el Panel de estado del servicio de Google Cloud, se muestran los incidentes más importantes y se diseñó para estar disponible en el caso poco frecuente de que Personalized Service Health en sí no esté disponible o se vea afectado por una interrupción.

Si no habilitaste el estado de servicio personalizado ni lo integraste en él, te recomendamos que verifiques si hay interrupciones activas en la página de asistencia de la consola de Google Cloud o en el Portal de atención al cliente. Los problemas conocidos que se muestran en la página de asistencia de la consola de Google Cloud y en el portal de Atención al cliente de Cloud también incluyen incidentes menores y de alcance limitado.

Los casos de ayuda son adecuados para problemas que no califican como incidentes o cuando se necesita un contacto humano uno a uno. La página de problemas conocidos te permite crear un caso a partir de un incidente publicado para que puedas obtener actualizaciones periódicas y puedas hablar con el personal de asistencia.

Investigar

Los equipos de ingeniería de productos son responsables de investigar la causa raíz de los incidentes. Los ingenieros de confiabilidad de sitios suelen realizar la administración de incidentes, pero otros ingenieros o los ingenieros de software pueden realizar la administración, según la situación y el producto. Para obtener más información, consulta el Capítulo 12 del libro Site Reliability Engineering.

Mitigación/corrección

Un problema se considera corregido solo cuando se realizan cambios que permiten a Google estar seguro de que tales cambios acabarán con el impacto indefinidamente. Por ejemplo, la corrección podría ser revertir un cambio que provocó un incidente.

Mientras se produce un incidente, el equipo de Atención al cliente y el equipo del producto intentan mitigarlo. La mitigación tiene lugar cuando se puede reducir el impacto o el alcance de un problema, por ejemplo, si se proporcionan temporalmente recursos adicionales a un producto que sufre una sobrecarga.

Si no se encuentra ninguna mitigación, cuando sea posible, el equipo de atención al cliente encuentra y comunica soluciones alternativas. Las soluciones alternativas son pasos que puedes seguir para resolver la necesidad subyacente a pesar del incidente. Una solución alternativa podría ser utilizar diferentes configuraciones para una llamada a la API a fin de evitar una ruta de código problemática.

Seguimiento

Mientras un incidente está en curso, el equipo de Atención al cliente proporciona actualizaciones periódicas. Por lo general, las actualizaciones proporcionan lo siguiente:

  • Más información sobre el incidente, como mensajes de error, zonas o regiones afectadas, qué características están afectadas o porcentajes de impacto.

  • Progreso hacia la mitigación, incluidas las soluciones alternativas.

  • Cronogramas para la comunicación, adaptados al incidente.

  • Cambios en el estado, como cuando se corrige un incidente.

Post mortem

Todos los incidentes tienen un proceso post mortem interno para comprender completamente el incidente y, además, identificar las mejoras de confiabilidad que Google puede hacer. A continuación, se realiza un seguimiento de estas mejoras y se las implementa. Para obtener más información sobre los procesos post mortem en Google, consulta el Capítulo 15 del libro Site Reliability Engineering.

Informe de incidentes

Cuando los incidentes tienen un impacto muy amplio y grave, Google proporciona informes de incidentes que describen los síntomas, el impacto, la causa raíz, la corrección y la prevención futura de incidentes. Como ocurre con los proceso post mortem, prestamos especial atención a las medidas que tomamos para aprender del problema y mejorar la confiabilidad. El objetivo de Google cuando escribe y publica procesos post mortem es ser transparente y demostrar nuestro compromiso con la creación de productos estables para nuestros clientes.

Modelo de datos de incidentes

Un incidente afecta a uno o más productos en una o más ubicaciones. Los incidentes tienen una hora de inicio y una de finalización, y una gravedad general. Un incidente tiene actualizaciones que describen cómo cambia el incidente con el tiempo, incluido su estado y las ubicaciones afectadas en ese momento. La información del incidente está disponible a través de un esquema en JSON.

El esquema JSON tiene campos marcados como Estable e Inestable. En general, los campos de ID se consideran Estable, mientras que los campos como los nombres visibles se consideran Inestables y pueden cambiarse sin previo aviso. Usa los campos Estable solo cuando realices la integración en un sistema externo o la automatización de compilaciones. Consulta ¿Puedo compilar integraciones para consumir los datos que se muestran en el panel de estado del servicio de Google Cloud de manera programática?.

Preguntas frecuentes

¿Qué tipo de información de estado puedo encontrar en el Panel de CSH de Google?

El panel de CSH de Google proporciona información de estado sobre los productos que forman parte de Google Cloud. El estado puede incluir interrupciones del producto o mensajes informativos sobre un problema temporal.

¿Cuándo se publica un incidente en el panel de CSH de Google?

Los incidentes que cumplen con alguno de los siguientes criterios aparecen en el panel de CSH:

¿Dónde puedo encontrar información sobre interrupciones y suspensiones del producto anteriores?

El panel CSH de Google mantiene un registro de las interrupciones y las interrupciones de los productos de Google Cloud por hasta cinco años. En la pestaña Descripción general del panel, se muestra el estado actual de los productos por configuración regional. Para ver información sobre las interrupciones y las interrupciones de los productos durante el último año, haz clic en Ver historial en el panel. Para ver el historial de interrupciones de un producto durante los últimos cinco años, haz clic en Ver más de ese producto.

¿Cómo puedo ver la información de estado regionalizada de los productos de Google Cloud?

El panel CSH de Google muestra el estado de todos los productos de Google Cloud organizados por región y configuración regional global. Para ver el estado de una multirregión, haz clic en la pestaña específica de la región.

¿Puedo crear integraciones para consumir los datos que se muestran en el panel de estado del servicio de Google Cloud de manera programática?

Sí, puedes consumir los datos que se muestran en el panel de CSH de Google de las siguientes maneras:

  • Mediante un feed RSS
  • Con un archivo de historial JSON

    Puedes descargar el esquema del archivo JSON aquí.

El feed RSS y el archivo del historial JSON proporcionan información sobre el estado del incidente que se puede consumir a través de las integraciones.

Usa los campos marcados como Estable en el archivo de historial JSON en lugar de los campos marcados como Inestable. Ejemplo: Si intentas identificar de manera programática incidentes que afectan un conjunto particular de productos, usa los ID del producto (affected_products>id), no sus nombres visibles.

Comparación entre los ID del producto y los nombres de los productos

Tradicionalmente, el panel de estado del servicio de Google Cloud no proporcionaba un mecanismo para encontrar el ID de un producto determinado. Desde principios de 2023, el panel de estado del servicio de Google Cloud puso a disposición un catálogo de productos que proporciona esta asignación para todos los productos. Un ID de producto proporciona un campo estable para desactivar y permite cambiar el nombre visible de un producto. Opta por hacer referencia al ID del producto cuando identifiques de manera programática incidentes que afectan a un conjunto de productos.

¿Qué sucede si tengo integraciones precompiladas basadas en el Panel de estado de Google Cloud antes de la introducción de los informes de estado regionalizados y del cambio de nombre en el Panel de estado del servicio de Google Cloud?

Tanto en el feed RSS como en el archivo JSON, la información del estado regional se suma a la información que ya se publicaba antes de la introducción de los informes de estado regionalizados y el cambio en el nombre del Panel de estado de Google Cloud. Por lo tanto, esperamos que tus integraciones existentes sigan funcionando. Sin embargo, si deseas consumir la información del estado regional a través de tus integraciones, debes modificarlas.

Esta es una descripción detallada de cómo se presenta la información regional en el feed RSS y en el archivo JSON:

  • Feed RSS

    La información de estado regional es una nueva adición a la información del feed que se proporcionó antes de la implementación del estado regionalizado. Todas las ubicaciones que se informen como afectadas se agregarán al mensaje RSS.

  • Archivo JSON

    Antes de la actualización de estado regional, Google Cloud publicó una transmisión de incidentes en la que cada incidente contenía una lista de productos afectados y una lista de actualizaciones de estado para cada uno, si corresponde. Estas actualizaciones de estado contenían un campo de cadena no estructurado que incluía o no la información de ubicación.

    Ahora, Google Cloud publica una transmisión de incidentes como lo hizo antes. Sin embargo, para cada incidente, cada actualización de estado contiene los siguientes campos nuevos:

    • updates.affected_locations: Contiene una lista estructurada de ubicaciones afectadas en el momento en que se publicó la actualización. Cada registro de actualización y el registro most_recent_update contienen este campo.
    • currently_affected_locations: Contiene la información más reciente sobre las ubicaciones que se vieron afectadas de forma activa por el incidente. A diferencia de updates.affected_locations, esta lista queda vacía después de que se resuelve el incidente (es decir, cuando end se establece en un valor que no está vacío).
    • previously_affected_locations: Contiene una lista de ubicaciones que se vieron afectadas anteriormente durante un incidente, pero que no lo están en la actualidad. A medida que avanza el incidente, algunas ubicaciones pueden tener una resolución de interrupción. Estas ubicaciones seguirán existiendo en previously_affected_locations field. Una vez que se resuelve el incidente (es decir, cuando end se establece en un valor no vacío), este campo contendrá una lista de todas las ubicaciones que se vieron afectadas durante este incidente.

¿Qué sucede si tengo un problema, pero no aparece en el panel?

El panel de Service Health de Google Cloud proporciona información del estado actual e histórico de cualquier incidente importante que afecte a los productos y servicios de Google Cloud. Si tienes un problema que no aparece en el panel, es posible que esté aislado de tus proyectos o instancias, o que esté afectando a una cantidad limitada de clientes. Los incidentes que tienen un alcance menor pueden aparecer en el Portal de atención al cliente. Puedes comunicarte con el servicio de atención al cliente si tienes algún problema que no figure en el panel.

Si ya usas el panel Personalized Service Health, verifica si el problema aparece allí para determinar si tu proyecto o instancia se ven afectados.

Si usas la consola de Google Cloud, puedes hacer clic en la herramienta Enviar comentarios que se encuentra en la esquina superior derecha para informar problemas.

¿Quién actualiza el panel?

El equipo global de Atención al cliente supervisa el estado de los productos mediante muchos tipos diferentes de indicadores y actualiza el panel en caso de un problema generalizado. Si es necesario, publicarán un informe detallado con un análisis del incidente una vez que esté resuelto.