Para mantenerte al tanto del estado de los productos de Google Cloud , verifica lo siguiente:
Estado del servicio personalizado: Proporciona una vista personalizada de los productos y las regiones de Google Cloudque usan tus proyectos o tu organización. Consulta el estado del servicio personalizado para ver comunicaciones sobre incidentes activos y anteriores deGoogle Cloud que podrían afectar tus proyectos y recursos.
Puedes acceder a Personalized Service Health de las siguientes maneras:
- Panel de la consola, al que se puede acceder a través de la consola de Google Cloud .
- Alertas
- API de Service Health
Google Cloud Estado del servicio: Proporciona lo siguiente:
- Una vista de toda la plataforma del estado de todos los productos de Google Cloud en todas las regiones de Google Cloud
- Google Cloud incidentes con un impacto generalizado
Google Cloud Service Health está disponible para todos a través de lo siguiente:
Usa Personalized Service Health como primer recurso cuando enfrentes una interrupción del servicio de productos específicos, ya que Personalized Service Health siempre tendrá la mayor cantidad de información disponible para los clientes deGoogle Cloud . Obtén más información sobre Personalized Service Health y cómo integrarlo en tu flujo de trabajo de administración de incidentes.
También puedes verificar si hay interrupciones activas en la Google Cloud página de asistencia de la consola. Los problemas conocidos que se muestran en la página de asistencia de la consola de Google Cloud también incluyen incidentes menores y de alcance limitado. La página de problemas conocidos te permite crear un caso a partir de un incidente publicado para que puedas obtener actualizaciones periódicas y puedas hablar con el personal de asistencia. Los casos de asistencia son apropiados para problemas que no califican como incidentes o cuando se necesita un contacto humano uno a uno. Si tienes asistencia Premium, mejorada o estándar, puedes informar un incidente mediante la creación de un caso de ayuda en Google Cloud Console. De lo contrario, puedes usar este formulario.
En este documento, se enfoca en el estado del servicio de Google Cloud .
¿Qué es el estado del servicio de Google Cloud ?
Google Cloud Service Health proporciona información sobre incidentes generalizados en curso que cumplen con ciertos criterios y el estado de los productos de Google Cloud, organizados por región y configuración regional global. Esta información puede incluir interrupciones del producto, cortes o mensajes informativos sobre un problema temporal.
El estado del servicio deGoogle Cloud está diseñado para estar disponible en el raro caso de que el estado del servicio personalizado no esté disponible o se vea afectado por una interrupción, o bien si el producto afectado aún no se integró al estado del servicio personalizado.
Cuándo aparece un incidente en el estado del servicio de Google Cloud
En la mayoría de los incidentes de Google Cloud , los clientes afectados reciben comunicaciones directamente a través de la función de estado del servicio personalizado en la consola de Google Cloud . Si cumplen con las condiciones de alerta, estos incidentes también activan las alertas de Service Health que configuraste.
Los incidentes que cumplen con cualquiera de los siguientes criterios aparecen en el estado del servicio de Google Cloud :
- Incidentes públicos importantes
- Incidentes de productos de Google Cloud que aún no están disponibles en el estado del servicio personalizado
- Incidentes que ocurren cuando el panel de Personalized Service Health no está disponible
Incidente grave
Google Cloud define un incidente como un incidente importante si cumple con todas las siguientes condiciones:
- Amplio alcance: El incidente tiene un impacto global o afecta a un porcentaje significativo de los proyectos de los clientes en una o más regiones.
- Gravedad alta: Uno o más productos no están disponibles o tienen una degradación grave.
En el caso poco frecuente de que se produzca un incidente importante, actuamos con urgencia para resolver cualquier problema.
Durante un incidente importante, el estado del problema se comunica a través del panel de estado del servicio de Google Cloud. Un incidente importante se marca como Interrupción del servicio en los paneles de estado. Una vez que se resuelve el problema, publicamos un informe de incidentes público que incluye los detalles de los factores que contribuyeron al incidente y los pasos que planeamos tomar para evitar que se repitan.
En el caso de incidentes de menor alcance, es posible que se ponga a disposición de los clientes un informe no público.
Ciclo de vida de un incidente
Cuando se detecta una degradación del producto, el equipo de asistencia de Google Cloud y el equipo de ingeniería de productos trabajan juntos para resolver el incidente y brindarte actualizaciones.
En el siguiente diagrama, se muestran las responsabilidades de los equipos de ingeniería de productos y de asistencia al cliente:
Puedes obtener más información sobre cada una de estas responsabilidades en las siguientes secciones.
Detección
Google Cloud usa supervisión interna y de caja negra para detectar incidentes. Para obtener más información, consulta el Capítulo 6 del ingeniería de confiabilidad de sitios Engineering.
Respuesta inicial
Cuando se detecta un incidente, el equipo de Atención al cliente de Google Cloud administra las comunicaciones con los clientes. La notificación inicial de un incidente suele ser poco detallada y, con frecuencia, solo menciona el producto en cuestión. Esto se debe a que priorizamos la notificación rápida sobre los detalles. Se pueden proporcionar detalles en las actualizaciones posteriores.
Para proporcionarte la mayor cantidad de información posible sin abrumarte con problemas que no te afectan, se utilizan diferentes canales de comunicación según el alcance y la gravedad de un problema:
Investigar
Los equipos de ingeniería de productos son responsables de investigar la causa raíz de los incidentes. Los ingenieros de confiabilidad de sitios suelen realizar la administración de incidentes, pero otros ingenieros o los ingenieros de software pueden realizar la administración, según la situación y el producto. Para obtener más información, consulta el Capítulo 12 del libro Site Reliability Engineering.
Mitigación y solución de problemas
Un problema se considera corregido solo cuando se realizan cambios que permiten a Google estar seguro de que tales cambios acabarán con el impacto indefinidamente. Por ejemplo, la corrección podría ser revertir un cambio que provocó un incidente.
Mientras se produce un incidente, el equipo de atención al cliente y el equipo de productos intentarán mitigar el problema. La mitigación es cuando se puede reducir el impacto o el alcance de un problema, por ejemplo, si se proporcionan temporalmente recursos adicionales a un producto que sufre una sobrecarga.
Si no se encuentra una forma de mitigar el problema, el equipo de Atención al cliente buscará y comunicará workarounds siempre que sea posible. Las soluciones alternativas son pasos que puedes seguir para resolver la necesidad subyacente a pesar del incidente. Una solución alternativa podría ser utilizar diferentes configuraciones para una llamada a la API a fin de evitar una ruta de código problemática.
Seguimiento
Mientras un incidente está en curso, el equipo de Atención al cliente proporciona actualizaciones periódicas. Por lo general, las actualizaciones proporcionan lo siguiente:
Más información sobre el incidente, como mensajes de error, zonas o regiones afectadas, qué características están afectadas o porcentajes de impacto.
Progreso hacia la mitigación, incluidas las soluciones alternativas.
Cronogramas para la comunicación, adaptados al incidente.
Cambios en el estado, como cuando se corrige un incidente.
Post mortem
Todos los incidentes tienen un proceso post mortem interno para comprender completamente el incidente y, además, identificar las mejoras de confiabilidad que Google puede hacer. A continuación, se realiza un seguimiento de estas mejoras y se las implementa. Para obtener más información sobre los procesos post mortem en Google, consulta el Capítulo 15 del libro Site Reliability Engineering.
Informe de incidentes
Cuando los incidentes tienen un impacto muy amplio y grave, Google proporciona informes de incidentes que describen los síntomas, el impacto, la causa raíz, la corrección y la prevención futura de incidentes. Como ocurre con los proceso post mortem, prestamos especial atención a las medidas que tomamos para aprender del problema y mejorar la confiabilidad. El objetivo de Google cuando escribe y publica análisis de resultados es ser transparente y demostrar el compromiso que tenemos con la creación de productos estables para nuestros clientes.
Modelo de datos de incidentes
Un incidente afecta uno o más productos en una o más ubicaciones. Los incidentes tienen una hora de inicio y una de finalización, y una gravedad general. Un incidente tiene actualizaciones que describen cómo cambia con el tiempo, incluido su estado y las ubicaciones afectadas en ese momento. La información del incidente se pone a disposición a través de un esquema JSON.
El esquema JSON tiene campos marcados como Estable y Inestable. En general, los campos de ID se consideran estables, mientras que los campos como los nombres visibles se consideran inestables y pueden cambiar sin advertencia. Usa los campos estables solo cuando realices la integración con un sistema externo o la automatización de edificios. Consulta ¿Puedo crear integraciones para consumir los datos que se muestran en el panel de estado del servicio deGoogle Cloud de forma programática?.
Preguntas frecuentes
¿Dónde puedo encontrar información sobre interrupciones y suspensiones de productos anteriores?
Google Cloud Service Health mantiene un registro de interrupciones y fallas de los productos de Google Cloud durante hasta cinco años. En la pestaña Descripción general del panel, se muestra el estado actual de los productos por configuración regional. Para ver información sobre las interrupciones y las fallas de los productos en el último año, haz clic en Ver historial en el panel. Para ver el historial de interrupciones de un producto durante los últimos cinco años, haz clic en Ver más en ese producto.
¿Cómo puedo ver la información de estado regionalizada de los productos de Google Cloud ?
El estado del servicio deGoogle Cloud muestra el estado de todos los productos de Google Cloud , organizados por región y configuración regional global. Para ver el estado de una multirregión, selecciona la pestaña específica de la región.
¿Puedo compilar integraciones para consumir los datos que se muestran en el estado del servicio de Google Cloud de forma programática?
Sí, puedes consumir los datos que se muestran en el estado del servicio de Google Cloud de las siguientes maneras:
- A través de un feed RSS
A través de un archivo de historial JSON
Puedes descargar el esquema del archivo JSON aquí.
El feed RSS y el archivo de historial JSON proporcionan información sobre el estado de los incidentes que se puede consumir a través de integraciones.
Usa los campos marcados como Estable en el archivo de historial JSON, en lugar de los campos marcados como Inestable. Ejemplo: Si intentas identificar de forma programática incidentes que afectan a un conjunto particular de productos, usa los IDs de producto (affected_products>id
), no sus nombres visibles.
Diferencia entre los IDs de los productos y sus nombres
Históricamente,el estado del servicio de Google Cloud no proporcionaba un mecanismo para ubicar el ID de un producto determinado. Desde principios de 2023, el estado del servicio deGoogle Cloud puso a disposición un catálogo de productos que proporciona esta asignación para todos los productos. Un ID de producto proporciona un campo estable para activarlo y, al mismo tiempo, permite que cambie el nombre visible de un producto. Preferir hacer referencia al ID del producto cuando se identifican de forma programática incidentes que afectan a un conjunto de productos
¿Qué sucede si tengo integraciones precompiladas basadas en el estado de Google Cloud Service Health antes de la introducción de los informes de estado regionalizados y el cambio de nombre a Google Cloud Service Health Dashboard?
En el feed RSS y el archivo JSON, la información del estado regional se suma a la información que ya se publicaba antes de la introducción de los informes de estado regionalizados y el cambio en el nombre deGoogle Cloud Service Health. Por lo tanto, esperamos que tus integraciones existentes sigan funcionando. Sin embargo, si deseas consumir la información de estado regional a través de tus integraciones, debes modificarlas.
A continuación, se incluye una descripción detallada de cómo se presenta la información regional en el feed RSS y el archivo JSON:
Feed RSS
La información del estado regional es una incorporación nueva a la información del feed que se proporcionaba antes de la introducción del estado regionalizado. Las ubicaciones que se informen como afectadas se adjuntan al mensaje RSS.
Archivo JSON
Antes de la actualización de estado regional, Google Cloud publicó un flujo de incidentes en el que cada incidente contenía una lista de productos afectados y una lista de actualizaciones de estado para cada uno, si las hubiera. Estas actualizaciones de estado contenían un campo de cadena no estructurado que incluía o no la información de ubicación.
Ahora, Google Cloud publica un flujo de incidentes como lo hacía antes. Sin embargo, para cada incidente, cada actualización de estado contiene los siguientes campos nuevos:
updates.affected_locations
: Contiene una lista estructurada de las ubicaciones afectadas en el momento en que se publicó la actualización. Cada registro de actualización y el registromost_recent_update
contienen este campo.currently_affected_locations
: Contiene la información más reciente sobre las ubicaciones que se ven afectadas de forma activa por el incidente. A diferencia deupdates.affected_locations
, esta lista se vacía después de que se resuelve el incidente (es decir, cuandoend
se establece en un valor no vacío).previously_affected_locations
: Contiene una lista de ubicaciones que se vieron afectadas anteriormente durante un incidente, pero que no lo están actualmente. A medida que avanza el incidente, es posible que algunas ubicaciones tengan una resolución de interrupción. Estas ubicaciones seguirán existiendo enpreviously_affected_locations field
. Una vez que se resuelve el incidente (es decir, cuandoend
se establece en un valor no vacío), este campo contiene una lista de todas las ubicaciones afectadas durante este incidente.
¿Qué sucede si tengo un problema, pero no aparece en el panel?
El panel de estado del servicio de Google Cloud proporciona información de estado actual y histórica de cualquier incidente importante que afecte a los productos y servicios de Google Cloud . Si tienes un problema que no aparece en el panel, es posible que solo afecte a tus proyectos o instancias, o que afecte a una cantidad limitada de clientes. Es posible que los incidentes que tengan menos alcance aparezcan en el Portal de atención al cliente. Puedes comunicarte con el equipo de Atención al cliente si tienes algún problema que no aparece en el panel.
Si ya usas el panel de Personalized Service Health, verifica si el problema aparece allí para determinar si tu proyecto o instancia se ve afectado.
Si usas la consola de Google Cloud , puedes hacer clic en la herramienta Enviar comentarios en la esquina superior derecha para informar problemas.
¿Quién actualiza el panel?
El equipo global de Atención al cliente supervisa el estado de los productos con diferentes tipos de indicadores y actualiza el panel en caso de un problema generalizado. Si es necesario, publicarán un informe detallado con un análisis del incidente una vez que esté resuelto.