Administra y supervisa tu infraestructura de Google Cloud

Last reviewed 2023-11-13 UTC

Después de implementar una aplicación en producción en Google Cloud, es posible que debas modificar la infraestructura que usa. Por ejemplo, es posible que debas cambiar los tipos de máquina de las VMs o la clase de almacenamiento de los buckets de Cloud Storage. En esta parte de la guía de confiabilidad de infraestructura de Google Cloud, se resumen los lineamientos de administración de cambios que puedes seguir para reducir el riesgo de confiabilidad de los recursos de infraestructura. En esta parte, también se describe cómo puedes supervisar la disponibilidad de la infraestructura de Google Cloud.

Implementa cambios en la infraestructura de forma progresiva

Cuando necesites cambiar la infraestructura de Google Cloud, tanto como sea posible, lanza los cambios en producción de forma progresiva. Por ejemplo, si necesitas cambiar los tipos de máquina de las VMs, implementa los cambios en algunas VMs en una zona y supervisa los efectos de los cambios. Si observas algún problema, revierte la infraestructura con rapidez al estado estable anterior. Diagnostica y resuelve los problemas y, luego, reinicia el proceso de implementación progresiva. Después de verificar que la carga de trabajo se ejecute como se espera, implementa los cambios de forma gradual en toda la infraestructura.

Si deseas obtener más información sobre las estrategias para probar e implementar cambios en la infraestructura y las aplicaciones de Google Cloud de forma confiable, consulta Estrategias de implementación y prueba de aplicaciones.

Controla los cambios en los recursos globales

Cuando modifiques recursos globales, como redes de VPC y balanceadores de cargas globales, debes tener especial cuidado para verificar los cambios antes de implementarlos en la producción.

Debido a que los recursos globales son resilientes a las interrupciones zonales y regionales, puedes decidir usar instancias únicas de ciertos recursos globales en tu arquitectura. En esas implementaciones, los recursos globales pueden convertirse en puntos únicos de fallo. Por ejemplo, si configuras de forma involuntaria una regla de reenvío de tu balanceador de cargas global, el frontend puede dejar de recibir o procesar solicitudes de los usuarios. La aplicación no está disponible para los usuarios en este caso, aunque el backend esté intacto. Para evitar este tipo de situaciones, ejerce un control riguroso sobre los cambios en los recursos globales. Por ejemplo, en el proceso de revisión de cambios, puedes clasificar cualquier modificación en los recursos globales como cambios de alto riesgo que los revisores adicionales deben verificar y aprobar.

Supervisa la disponibilidad de la infraestructura de Google Cloud

Puedes supervisar el estado actual de los servicios de Google Cloud en todas las regiones mediante el panel de estado del servicio de Google Cloud. También puedes ver un historial de las fallas de infraestructura (llamadas incidentes) para cada servicio. En la página de historial, se proporcionan los detalles de cada incidente, como la duración, las zonas y regiones afectadas, los servicios afectados y cualquier solución recomendada.

También puedes ver los incidentes relevantes para tu proyecto con Personalized Service Health. Service Health también te permite solicitar información sobre incidentes con una API por proyecto o por organización y te permite configurar alertas.

Google proporciona actualizaciones periódicas sobre el estado de cada incidente, incluido un tiempo estimado para la próxima actualización. Puedes obtener actualizaciones de estado de manera programática para los incidentes con un feed RSS. Para obtener más información, consulta Incidentes y el panel de estado del servicio de Google Cloud.