Incidentes y el panel de Google Cloud Service Health

El panel de Google Cloud Service Health (CSH) proporciona información de estado de de los productos de Google Cloud organizados por región y configuración regional global.

Incidente grave

Google Cloud define un incidente como un incidente grave si cumple con todos las siguientes condiciones:

  • Alto alcance: el incidente tiene un impacto global o está afectando una parte importante el porcentaje de proyectos de clientes en una o más regiones.
  • Gravedad alta: Uno o más productos no están disponibles o están muy degradados.

En el poco frecuente caso de que ocurra un incidente grave, actuamos con urgencia para resolver cualquier problema.

Durante un incidente importante, el estado del problema se comunica a través de la Panel de Google Cloud Service Health. Un incidente grave se marca como Interrupción del servicio en los paneles de estado. Una vez resuelto el problema, publicar un informe público del incidente que incluya los detalles de los factores que contribuyó al incidente y las medidas que planeamos tomar para evitar que para evitar que vuelvan a ocurrir.

En el caso de los incidentes de menor alcance, se podría realizar un informe no público. disponibles para los clientes.

Ciclo de vida de un incidente

Cuando se detecta una degradación del producto, el equipo de asistencia al cliente de Google Cloud y de ingeniería de producto trabajan en conjunto para resolver el incidente y proporcionarte con las actualizaciones.

En el siguiente diagrama, se muestran las responsabilidades de la ingeniería de producto y los equipos de soporte técnico:

Diagrama del ciclo de vida

Puedes leer más sobre cada una de estas responsabilidades en la siguiente sección secciones.

Detección

Google Cloud usa supervisión interna y de caja negra para detectar incidentes. Para obtener más información, consulta el Capítulo 6 del libro Monitoring Distributed Systems.

Si tienes Asistencia premium, mejorada o estándar, puedes informar un incidente creando un caso de asistencia en el Consola de Google Cloud. De lo contrario, puedes usa este formulario.

Respuesta inicial

Cuando se detecta un incidente, el equipo de Atención al cliente de Google Cloud administra las comunicaciones. La notificación inicial de un incidente suele estar dispersa y mencionan con frecuencia solo el producto en cuestión. Esto se debe a que dar prioridad a la notificación rápida sobre los detalles. Se pueden proporcionar detalles en etapas posteriores actualizaciones.

Para proporcionarte la mayor cantidad de información posible sin abrumarte con problemas que no te afectan, se utilizan diferentes canales de comunicación según el alcance y la gravedad de un problema:

Diagrama de comunicaciones

Recomendamos usar Custom Service Health como la primera parada cuando se enfrenta una interrupción del servicio productos específicos. A través de En Personalized Service Health, puedes ver las interrupciones relevantes para tus proyectos. Más información sobre Personalized Service Health y cómo integrarlo en su incidente de la administración de datos.

El Panel de Google Cloud Service Health muestra incidentes importantes y está diseñada para estar disponible en eventos poco frecuentes Personalized Service Health no está disponible o se ve afectada por una interrupción.

Si no habilitaste Personalized Service Health para tu proyecto o si el producto aún no es compatible con Personalized Service Health, se recomienda verificar si hay interrupciones activas en los siguientes elementos:

Entre los problemas conocidos que se muestran en la página de asistencia de la consola de Google Cloud, también se incluyen los siguientes: incidentes menores y de alcance limitado.

Los casos de asistencia son adecuados para problemas que no califican como incidentes en los que se necesita un toque humano uno a uno. La página de problemas conocidos crear un caso a partir de un incidente publicado para que recibas actualizaciones periódicas y puedas hablar con el personal de asistencia.

Investigar

Los equipos de ingeniería de productos son responsables de investigar la causa raíz de los incidentes. Los ingenieros de confiabilidad de sitios suelen realizar la administración de incidentes, pero otros ingenieros o los ingenieros de software pueden realizar la administración, según la situación y el producto. Para obtener más información, consulta el Capítulo 12 del libro Site Reliability Engineering.

Mitigación/corrección

Un problema se considera corregido solo cuando se realizan cambios que permiten a Google estar seguro de que tales cambios acabarán con el impacto indefinidamente. Por ejemplo, la corrección podría ser revertir un cambio que provocó un incidente.

Mientras un incidente está en curso, el equipo de atención al cliente y del producto mitigar el problema. La mitigación tiene lugar cuando el impacto o el alcance de un problema puede reducirse, por ejemplo, proporcionando temporalmente recursos adicionales a un producto que sufre una sobrecarga.

Si no se encuentra una mitigación, cuando sea posible, el equipo de Atención al cliente encuentre y comunique workarounds. Las soluciones alternativas son pasos que puedes seguir para resolver la necesidad subyacente a pesar del incidente. Una solución alternativa podría ser utilizar diferentes configuración de una llamada a la API para evitar una ruta de código problemática.

Seguimiento

Mientras un incidente está en curso, el equipo de atención al cliente proporciona actualizaciones. Por lo general, las actualizaciones proporcionan lo siguiente:

  • Más información sobre el incidente, como mensajes de error, zonas o regiones afectadas, qué características están afectadas o porcentajes de impacto.

  • Progreso hacia la mitigación, incluidas las soluciones alternativas.

  • Cronogramas para la comunicación, adaptados al incidente.

  • Cambios en el estado, como cuando se corrige un incidente.

Post mortem

Todos los incidentes tienen un proceso post mortem interno para comprender completamente el incidente y, además, identificar las mejoras de confiabilidad que Google puede hacer. A continuación, se realiza un seguimiento de estas mejoras y se las implementa. Para obtener más información sobre los procesos post mortem en Google, consulta el Capítulo 15 del libro Site Reliability Engineering.

Informe de incidentes

Cuando los incidentes tienen un impacto muy amplio y grave, Google proporciona informes de incidentes que describen los síntomas, el impacto, la causa raíz, la corrección y la prevención futura de incidentes. Como ocurre con los proceso post mortem, prestamos especial atención a las medidas que tomamos para aprender del problema y mejorar la confiabilidad. El objetivo de Google al escribir y publicar análisis post mortem es para ser transparentes y demostrar nuestro compromiso con la creación de productos estables para nuestros clientes.

Modelo de datos de incidentes

Un incidente afecta a uno o más productos en una o más ubicaciones. Los incidentes tienen una hora de inicio y una hora de finalización, además de una gravedad general. Un incidente tiene actualizaciones que describen cómo cambia el incidente a lo largo del tiempo incluidos su estado y las ubicaciones afectadas. La información del incidente está disponible a través de un esquema de JSON.

El esquema JSON tiene campos marcados como Estable y Inestable. En general, el ID los campos se consideran estables, mientras que los como los nombres visibles Se considera Inestable y puede cambiarse sin previo aviso. Usa Estable. solo cuando se integran en un sistema externo o cuando se compila una automatización. Consulta ¿Puedo compilar integraciones para consumir los datos que se muestran en el ¿Panel de Google Cloud Service Health de manera programática?.

Preguntas frecuentes

¿Qué tipo de información de estado puedo encontrar en el panel de CSH de Google?

El panel CSH de Google proporciona información sobre el estado de los productos que son parte de Google Cloud. El estado puede incluir interrupciones del producto interrupciones o mensajes informativos sobre un problema temporal.

¿Cuándo se publica un incidente en el panel de CSH de Google?

Los incidentes que cumplen con alguno de los siguientes criterios aparecen en el panel de CSH:

¿Dónde puedo encontrar información sobre interrupciones y alteraciones anteriores de los productos?

El panel CSH de Google lleva un registro de las interrupciones y los cortes productos de Google Cloud por hasta cinco años. El La pestaña Descripción general de la panel muestra el estado actual de los productos por configuración regional. Cómo ver información sobre las interrupciones del producto e interrupciones en el último año, haz clic Ver historial en el panel Para ver el historial de interrupciones de un producto durante los últimos cinco años, haz clic en Ver más. para ese producto.

¿Cómo puedo ver información de estado regionalizado de los productos de Google Cloud?

En el panel de CSH de Google, se muestra el estado de todos los productos de Google Cloud organizados por región y configuración regional global. Para ver el estado de una multirregión, haz clic en la pestaña específica de la región.

¿Puedo compilar integraciones para consumir los datos que se muestran en el Google Cloud Service Health Dashboard de Google de manera programática?

Sí, puedes utilizar los datos que se muestran en el panel CSH de Google en la de la siguiente manera:

  • A través de un feed RSS
  • A través de un archivo de historial JSON

    Puedes descargar el esquema del archivo JSON aquí.

El feed RSS y el archivo de historial JSON proporcionan información sobre el estado del incidente, que puede consumirse a través de integraciones.

Usa los campos marcados como Stable en el archivo de historial JSON en lugar de los campos marcado como Inestable. Ejemplo: Si intentas identificar de forma programática incidentes que afectan a un conjunto específico de productos, usa los IDs (affected_products>id), no sus nombres visibles.

IDs de productos en comparación con nombres de productos

Históricamente, el panel de Google Cloud Service Health no proporcionaba un mecanismo para encontrar el ID de un producto determinado. Desde principios de 2023, El Panel de Google Cloud Service Health pone a disposición un catálogo de productos esta asignación para todos los productos. Un ID del producto proporciona un campo estable para desactivar y, al mismo tiempo, permite que cambie el nombre visible de un producto. Es preferible hacer referencia al cuando se identifica de manera programática los incidentes que afectan a un conjunto de productos.

¿Qué sucede si tengo integraciones precompiladas basadas en el panel de estado de Google Cloud antes de la introducción de los informes de estado regionalizados y el cambio de nombre en el panel de Google Cloud Service Health?

Tanto en el feed RSS como en el archivo JSON, la información del estado regional es adicional a la información que ya se había publicado antes de la introducción de informes de estado regionalizados y cambio en el nombre del Panel de estado de Google Cloud. Por lo tanto, esperamos que integraciones continuas para seguir funcionando. Sin embargo, si deseas consumir el estado regional información a través de tus integraciones, entonces debes modificarlas.

Aquí hay una descripción detallada de cómo se presenta la información regional en Feed RSS y archivo JSON:

  • Feed RSS

    La información del estado regional es una nueva adición a la información del feed que se proporcionó antes de la introducción del estado regionalizado. Todas las ubicaciones que sean informados como afectados se anexan al mensaje RSS.

  • Archivo JSON

    Antes de la actualización del estado regional, Google Cloud publicó un flujo de incidentes en los que cada incidente contenía una lista de los productos afectados y una lista de actualizaciones de estado para cada uno, si corresponde. Estas actualizaciones de estado contenían un un campo de cadena no estructurado que contenía o no la ubicación información.

    Ahora, Google Cloud publica un flujo de incidentes como lo hizo antes. Sin embargo, para cada incidente, cada actualización de estado contiene lo siguiente campos:

    • updates.affected_locations: Contiene una lista estructurada de los recursos ubicaciones en el momento en que se publicó la actualización. Cada registro de actualización y el most_recent_update contiene este campo.
    • currently_affected_locations: Contiene la información más reciente del ubicaciones que se ven afectadas de forma activa por el incidente. Desmarcar “Me gusta” updates.affected_locations, esta lista se vacía luego de que se detecta resuelto (es decir, cuando se configura end con un valor que no está vacío)
    • previously_affected_locations: Contiene una lista de ubicaciones que se que se vieron afectados anteriormente durante un incidente, pero no lo son en la actualidad. Como mientras progrese el incidente, algunas ubicaciones pueden tener una resolución de interrupción. Estos seguirán existiendo en previously_affected_locations field. Una vez que se resuelve el incidente (es decir, cuando end se establece en un valor no vacío), este campo contiene una lista de todas las ubicaciones que se vieron afectadas durante este el incidente.

¿Qué sucede si tengo un problema, pero no aparece en el panel?

El panel de Google Cloud Service Health proporciona información del estado actual e histórico de cualquier incidente importante que afecte los productos y servicios de Google Cloud. Si experimentas un problema que no aparece en el panel, es posible que solo esté afectando a tus proyectos o instancias, o a una cantidad limitada de clientes. Los incidentes que tengan menos alcance pueden aparecer en el Portal de atención al cliente. Puedes comunicarte con Atención al cliente por cualquier problema que tengas y que no figure en el panel.

Si ya usas el panel Personalized Service Health, verifica si el problema aparece allí para determinar si tu proyecto o instancia se ve afectado.

Si usas la consola de Google Cloud, puedes hacer clic en la herramienta Enviar comentarios en la esquina superior derecha para informar problemas.

¿Quién actualiza el panel?

El equipo global de Atención al cliente supervisa el estado de los productos usando varios tipos diferentes de indicadores y actualiza el panel en caso de que un problema generalizado. Si es necesario, publicarán un informe detallado con un análisis del incidente una vez que esté resuelto.