Se usó la API de Cloud Translation para traducir esta página.

Detecta posibles fallas con la observabilidad

Last reviewed 2024-12-30 UTC

Este principio del pilar de confiabilidad del Google Cloud Framework de arquitectura bien diseñada proporciona recomendaciones para ayudarte a identificar de forma proactiva las áreas en las que pueden ocurrir errores y fallas.

Este principio es relevante para el área de enfoque de observación de la confiabilidad.

Descripción general de los principios

Para mantener y mejorar la confiabilidad de tus cargas de trabajo enGoogle Cloud, debes implementar una observabilidad eficaz con métricas, registros y seguimientos.

Las métricas son mediciones numéricas de las actividades de las que deseas hacer un seguimiento para tu aplicación en intervalos de tiempo específicos. Por ejemplo, es posible que desees hacer un seguimiento de las métricas técnicas, como la tasa de solicitudes y la tasa de errores, que se pueden usar como indicadores de nivel de servicio (SLI). También es posible que debas hacer un seguimiento de las métricas de negocios específicas de la aplicación, como los pedidos realizados y los pagos recibidos.
Los registros son registros con marca de tiempo de eventos discretos que ocurren en una aplicación o un sistema. El evento puede ser una falla, un error o un cambio de estado. Los registros pueden incluir métricas, y también puedes usarlos para los SLI.
Un registro representa el recorrido de un solo usuario o transacción a través de una serie de aplicaciones independientes o los componentes de una aplicación. Por ejemplo, estos componentes podrían ser microservicios. Los registros te ayudan a hacer un seguimiento de qué componentes se usaron en los recorridos, dónde existen cuellos de botella y cuánto tardaron los recorridos.

Las métricas, los registros y los seguimientos te ayudan a supervisar tu sistema de forma continua. La supervisión integral te ayuda a saber dónde y por qué se produjeron los errores. También puedes detectar posibles fallas antes de que ocurran los errores.

Recomendaciones

Para detectar posibles fallas de manera eficiente, considera las recomendaciones de las siguientes sub secciones.

Obtén estadísticas integrales

Para hacer un seguimiento de las métricas clave, como los tiempos de respuesta y las tasas de error, usa Cloud Monitoring y Cloud Logging. Estas herramientas también te ayudan a garantizar que las métricas satisfagan de manera coherente las necesidades de tu carga de trabajo.

Para tomar decisiones basadas en datos, analiza las métricas de servicio predeterminadas para comprender las dependencias de los componentes y su impacto en el rendimiento general de la carga de trabajo.

Para personalizar tu estrategia de supervisión, crea y publica tus propias métricas con el SDK de Google Cloud.

Realiza una solución de problemas proactiva

Implementa un manejo de errores sólido y habilita el registro en todos los componentes de tus cargas de trabajo en Google Cloud. Activa registros como los registros de acceso de Cloud Storage y los registros de flujo de VPC.

Cuando configures el registro, ten en cuenta los costos asociados. Para controlar los costos de registro, puedes configurar filtros de exclusión en los receptores de registros para excluir ciertos registros del almacenamiento.

Optimiza el uso de recursos

Supervisa el consumo de CPU, las métricas de E/S de red y las métricas de E/S de disco para detectar recursos con aprovisionamiento insuficiente y excesivo en servicios como GKE, Compute Engine y Dataproc. Para obtener una lista completa de los servicios compatibles, consulta la descripción general de Cloud Monitoring.

Prioriza las alertas

En el caso de las alertas, enfócate en las métricas críticas, establece umbrales adecuados para minimizar la fatiga de las alertas y asegúrate de responder a tiempo los problemas importantes. Este enfoque dirigido te permite mantener de forma proactiva la confiabilidad de la carga de trabajo. Para obtener más información, consulta la Descripción general de alertas.