Détecter les défaillances potentielles à l'aide de l'observabilité

Last reviewed 2024-12-30 UTC

Ce principe du pilier de fiabilité du framework d'architecture fournit des recommandations pour vous aider à identifier de manière proactive les zones où des erreurs et des défaillances peuvent se produire.

Ce principe s'applique à la zone de concentration de la fiabilité de l'observation.

Présentation des principes

Pour maintenir et améliorer la fiabilité de vos charges de travail dansGoogle Cloud, vous devez implémenter une observabilité efficace à l'aide de métriques, de journaux et de traces.

  • Les métriques sont des mesures numériques des activités que vous souhaitez suivre pour votre application à des intervalles de temps spécifiques. Par exemple, vous pouvez suivre des métriques techniques telles que le taux de requêtes et le taux d'erreur, qui peuvent être utilisés comme indicateurs de niveau de service (SLI). Vous devrez peut-être également suivre des métriques commerciales spécifiques à l'application, telles que les commandes passées et les paiements reçus.
  • Les journaux sont des enregistrements horodatés d'événements distincts qui se produisent dans une application ou un système. L'événement peut être un échec, une erreur ou un changement d'état. Les journaux peuvent inclure des métriques, et vous pouvez également les utiliser pour les SLI.
  • Une trace représente le parcours d'un utilisateur ou d'une transaction unique à travers un certain nombre d'applications distinctes ou les composants d'une application. Par exemple, ces composants peuvent être des microservices. Les traces vous aident à suivre les composants utilisés dans les parcours, les goulots d'étranglement et la durée des parcours.

Les métriques, les journaux et les traces vous aident à surveiller votre système en continu. La surveillance complète vous aide à identifier où et pourquoi des erreurs se sont produites. Vous pouvez également détecter les défaillances potentielles avant qu'elles ne se produisent.

Recommandations

Pour détecter efficacement les défaillances potentielles, tenez compte des recommandations des sous-sections suivantes.

Obtenir des insights complets

Pour suivre les métriques clés telles que les temps de réponse et les taux d'erreur, utilisez Cloud Monitoring et Cloud Logging. Ces outils vous aident également à vous assurer que les métriques répondent de manière cohérente aux besoins de votre charge de travail.

Pour prendre des décisions basées sur les données, analysez les métriques de service par défaut afin de comprendre les dépendances des composants et leur impact sur les performances globales de la charge de travail.

Pour personnaliser votre stratégie de surveillance, créez et publiez vos propres métriques à l'aide de Google Cloud SDK.

Effectuer un dépannage proactif

Implémentez gestion des exceptions robuste et activez la journalisation pour tous les composants de vos charges de travail dans Google Cloud. Activez des journaux tels que les journaux des accès Cloud Storage et les journaux de flux VPC.

Lorsque vous configurez la journalisation, tenez compte des coûts associés. Pour contrôler les coûts de journalisation, vous pouvez configurer des filtres d'exclusion sur les récepteurs de journaux afin d'exclure le stockage de certains journaux.

Optimiser l'utilisation des ressources

Surveillez la consommation du processeur, les métriques d'E/S réseau et les métriques d'E/S disque pour détecter les ressources sous-provisionnées et surprovisionnées dans des services tels que GKE, Compute Engine et Dataproc. Pour obtenir la liste complète des services compatibles, consultez la présentation de Cloud Monitoring.

Prioriser les alertes

Pour les alertes, concentrez-vous sur les métriques critiques, définissez des seuils appropriés pour réduire la fatigue liée aux alertes et assurez-vous de répondre rapidement aux problèmes importants. Cette approche ciblée vous permet de maintenir de manière proactive la fiabilité de la charge de travail. Pour en savoir plus, consultez la présentation des alertes.