El panel de estado de servicio de Google Cloud (CSH) proporciona información de estado de los servicios de Google Cloud organizados por región y configuración regional global.
Incidente importante
El impacto de un incidente importante se extiende a dos o más de las siguientes situaciones:
- Varios servicios
- Varias regiones
- Varias horas
- Varios clientes
En el caso poco frecuente de que ocurra un incidente importante, actuamos con urgencia para resolver cualquier problema.
Durante un incidente importante, el estado del problema se comunica a través del Panel de estado de Google Workspace y el Panel de estado de los servicios de Google Cloud. Un incidente importante está marcado como Interrupción del servicio en los paneles de estado. Una vez que se resuelve el problema, publicamos un informe público de incidentes que incluye los detalles de los factores que contribuyeron al incidente y los pasos que planeamos tomar para evitar que vuelvan a ocurrir.
En el caso de incidentes de menor alcance, un informe no público podría estar disponible para los clientes.
Ciclo de vida de un incidente
Cuando se detecta una degradación del producto, el equipo de atención al cliente de Cloud y el equipo de ingeniería de producto trabajan juntos para resolver el incidente y comunicártelo.
Detección
Google Cloud usa la supervisión interna y de caja negra para detectar incidentes. Para obtener más información, consulta el Capítulo 6 del libro Ingeniería de confiabilidad de sitios.
Si tienes asistencia Premium, mejorada o estándar, puedes informar un incidente mediante la creación de un caso de ayuda en Google Cloud Console. De lo contrario, puedes usar este formulario.
Respuesta inicial
Cuando se detecta un incidente, el equipo de atención al cliente se comunica contigo. La notificación inicial de un incidente suele ser poco detallada y, a menudo, solo menciona el producto en cuestión. Esto se debe a que priorizamos la notificación rápida en lugar de los detalles. Se pueden proporcionar detalles en las actualizaciones posteriores.
Para proporcionarte la mayor cantidad de información posible sin abrumarte con problemas que no te afectan, se utilizan diferentes canales de comunicación según el alcance y la gravedad de un problema:
El Panel de CSH de Google es el primer lugar que debes verificar cuando descubres que un problema te está afectando. El panel muestra incidentes que afectan a muchos clientes, por lo que si ves un incidente en la lista, es probable que esté relacionado con tu problema. Para indicar la gravedad, el panel marca los incidentes como interrupción o interrupción. Se publican más avisos provisionales sobre problemas menores, pero aun así generalizados.
Cuando un producto o servicio relevante de Google Cloud informa un problema en el panel de CSH de Google, es posible que también veas un aviso de interrupción en Google Cloud Console. Si aparece un aviso de interrupción en Google Cloud Console, puedes hacer clic en el aviso para obtener más información sobre el estado del problema.
Algunos productos de Google Cloud tienen Grupos de Google a los que puedes suscribirte para recibir anuncios y notificaciones sobre incidentes nuevos en el panel de CSH de Google.
Los problemas conocidos que se muestran en el Centro de asistencia de Google Cloud y en la página de asistencia de Google Cloud Console son la vista más completa de los problemas, incluidos los que afectan a menos personas de las que se muestran en el panel. Si sospechas que existe un problema de GCP, pero no ves nada en el panel, debes realizar la verificación aquí.
Los casos de ayuda son apropiados para problemas que no califican como incidentes o cuando se necesita un contacto humano uno a uno. La página de problemas conocidos te permite crear un caso a partir de un incidente publicado para que puedas obtener actualizaciones periódicas y puedas hablar con el personal de asistencia.
Investigación
Los equipos de ingeniería de productos son responsables de investigar la causa raíz de los incidentes. Los ingenieros de confiabilidad de sitios suelen realizar la administración de incidentes, pero otros ingenieros o los ingenieros de software pueden realizar la administración, según la situación y el producto. Para obtener más información, consulta el Capítulo 12 del libro Site Reliability Engineering.
Mitigación/corrección
Un problema se considera corregido solo cuando se realizan cambios que permiten a Google estar seguro de que tales cambios acabarán con el impacto indefinidamente. Por ejemplo, la corrección podría ser revertir un cambio que provocó un incidente.
Mientras se produce un incidente, el servicio de atención al cliente y el equipo del producto intentan mitigar el problema. La mitigación se produce cuando el impacto o el alcance de un problema se pueden reducir, por ejemplo, si se proporcionan temporalmente recursos adicionales a un servicio que sufre una sobrecarga.
Si no se ha encontrado ninguna mitigación, cuando es posible, el equipo de atención al cliente encuentra y comunica soluciones alternativas. Las soluciones alternativas son pasos que puedes seguir para resolver la necesidad subyacente a pesar del incidente. Una solución alternativa podría ser utilizar diferentes configuraciones para una llamada a la API a fin de evitar una ruta de código problemática.
Seguimiento
Mientras se produce un incidente, el equipo de atención al cliente proporciona actualizaciones periódicas. Las actualizaciones suelen proporcionar lo siguiente:
Más información sobre el incidente, como mensajes de error, zonas o regiones afectadas, qué características están afectadas o porcentajes de impacto.
Progreso hacia la mitigación, incluidas las soluciones alternativas.
Cronogramas para la comunicación, adaptados al incidente.
Cambios en el estado, como cuando se corrige un incidente.
Post mortem
Todos los incidentes tienen un proceso post mortem interno para comprender completamente el incidente y, además, identificar las mejoras de confiabilidad que Google puede hacer. A continuación, se realiza un seguimiento de estas mejoras y se las implementa. Para obtener más información sobre los procesos post mortem en Google, consulta el Capítulo 15 del libro Site Reliability Engineering.
Informe de incidente
Cuando los incidentes tienen un impacto muy amplio y grave, Google proporciona informes de incidentes que describen los síntomas, el impacto, la causa raíz, la corrección y la prevención futura de incidentes. Como ocurre con los proceso post mortem, prestamos especial atención a las medidas que tomamos para aprender del problema y mejorar la confiabilidad. El objetivo de Google cuando escribe y publica procesos post mortem es ser transparente y demostrar el compromiso que tenemos con la creación de servicios estables para nuestros clientes.
Preguntas frecuentes
¿Qué tipo de información de estado puedo encontrar en el panel de CSH de Google?
El panel de CSH de Google proporciona información de estado sobre los servicios que forman parte de Google Cloud. El estado puede incluir problemas o interrupciones del servicio, así como mensajes informativos sobre un problema temporal.
¿Dónde puedo encontrar información sobre interrupciones y alteraciones del servicio en el pasado?
El panel de CSH de Google mantiene un registro de interrupciones y alteraciones de los servicios de Google Cloud durante un máximo de cinco años. La pestaña Descripción general del panel muestra el estado actual de los servicios por configuración regional. Para ver información sobre las interrupciones y alteraciones del servicio en el último año, haz clic en Ver historial en el panel. Para ver el historial de interrupciones de un servicio de los últimos cinco años, haz clic en Ver más.
¿Cómo puedo ver información de estado regionalizada para los servicios de Google Cloud?
El panel de CSH de Google muestra el estado de todos los servicios de Google Cloud organizados por región y configuración regional global. Para ver el estado del servicio de una multirregión, haz clic en la pestaña específica de la región.
¿Puedo crear integraciones para consumir los datos que se muestran en el panel de CSH de Google de manera programática?
Sí, puedes consumir los datos que se muestran en el panel de CSH de Google de las siguientes maneras:
- Mediante un feed RSS
A través de un archivo de historial JSON
Puedes descargar el esquema para el archivo JSON aquí.
El feed RSS y el archivo del historial JSON proporcionan información sobre el estado del incidente que se puede consumir a través de las integraciones.
¿Qué sucede si tengo integraciones prediseñadas a partir del panel de estado de Google Cloud antes de la introducción de los informes de estado regionalizados y el cambio de nombre al panel de estado de los servicios de Google Cloud?
En el feed RSS y en el archivo JSON, la información de estado regional se agrega a la información que ya se estaba publicando antes de la introducción de los informes de estado regionalizados y el cambio de nombre del panel de estado de Google Cloud. Por lo tanto, esperamos que tus integraciones existentes sigan funcionando. Sin embargo, si deseas consumir la información de estado regional a través de tus integraciones, debes modificarlas.
A continuación, te mostramos una descripción detallada de cómo se presenta la información regional en el feed RSS y en el archivo JSON:
Feed RSS
La información de estado regional es una nueva adición a la información del feed que se proporcionó antes de la introducción del estado regionalizado. Las ubicaciones que se informan como afectadas se adjuntan al mensaje RSS.
Archivo JSON
Antes de la actualización de estado regional, Google Cloud publicó un flujo de incidentes en el que cada incidente contenía una lista de productos afectados y una lista de actualizaciones de estado para cada uno, si corresponde. Estas actualizaciones de estado contenían un campo de string no estructurada que contenía o no la información de ubicación.
Ahora, Google Cloud publica un flujo de incidentes como antes. Sin embargo, para cada incidente, cada actualización de estado contiene los siguientes campos nuevos:
updates.affected_locations
: Contiene una lista estructurada de ubicaciones afectadas en el momento en que se publicó la actualización. Cada registro de actualización y el registromost_recent_update
contienen este campo.currently_affected_locations
: Contiene la información más reciente sobre las ubicaciones afectadas por el incidente de forma activa. A diferencia deupdates.affected_locations
, esta lista se vacía después de que se resuelve el incidente (es decir, cuandoend
se establece en un valor no vacío).previously_affected_locations
: Contiene una lista de ubicaciones que se vieron afectadas anteriormente por un incidente, pero que actualmente no se ven afectadas. A medida que avanza el incidente, es posible que algunas ubicaciones tengan una resolución de interrupción. Estas ubicaciones seguirán existiendo enpreviously_affected_locations field
. Una vez que se resuelve el incidente (es decir, cuandoend
se establece en un valor no vacío), este campo contiene una lista de todas las ubicaciones que se vieron afectadas durante este incidente.
¿Qué sucede si tengo un problema, pero no aparece en el panel?
Es posible que el problema solo esté afectando a tus proyectos o instancias, o a una cantidad limitada de clientes. Puedes comunicarte con el servicio de atención al cliente sobre cualquier problema que experimentes y que no figure en el panel.
Si usas Google Cloud Console, puedes hacer clic en la herramienta Enviar comentarios en la esquina superior derecha para informar problemas.
¿Quién actualiza el panel?
El equipo global de Atención al cliente supervisa el estado de los servicios mediante diferentes tipos de indicadores y actualiza el panel en caso de que haya un problema generalizado. Si es necesario, publicarán un informe detallado con un análisis del incidente una vez que esté resuelto.
¿Cuál es la diferencia entre un incidente y una interrupción?
Si bien estos términos a menudo se usan indistintamente, el Panel de CSH de Google y nuestras comunicaciones externas usan incidente para referirse a cualquier período de servicio degradado y usan interrupción para hacer referencia solo a los períodos más graves, en los que un producto no funciona en gran medida.