Indicateurs de niveau de service (SLI) transparents Stackdriver

Surveillez les services Google Cloud ainsi que leurs effets sur vos charges de travail

stackdriver-sre-hero-banner

L'informatique moderne repose sur les chiffres

À l'heure actuelle, l'objectif de base pour la plupart des équipes informatiques consiste à adopter une stratégie complète qui repose sur les métriques. De nombreuses entreprises mesurent désormais l'informatique en termes de disponibilité du service et de performances. Cependant, les équipes informatiques qui dépendent des services cloud peuvent parfois rencontrer des difficultés pour obtenir des données fiables sur les services des fournisseurs de cloud extérieurs. Comment identifier l'origine d'un problème ? Se trouve-t-il dans votre pile ou du côté du fournisseur de services ? Les SLI transparents vous permettent de surveiller les services Google Cloud ainsi que leurs effets sur vos charges de travail. Vous bénéficiez ainsi d'une vue d'ensemble de l'infrastructure.

measure-all-the-things

Étudiez un maximum de métriques

Pour aider les équipes informatiques à comprendre les performances de tous les composants du service, Google propose des métriques au niveau de l'API pour plus de 130 services Google Cloud. Ces métriques vous permettent de connaître le nombre d'erreurs et la latence des requêtes de votre application à chaque service Google. Grâce à ces informations, vous pouvez observer des corrélations et des effets secondaires entre vos applications et les services sur lesquels elles reposent, et donc découvrir plus rapidement l'origine des problèmes et réduire le délai de résolution.

real-transparency

Une véritable transparence

La notion de SLI va bien au-delà de la définition du traditionnel "état du service". Vous pouvez observer les interactions spécifiques entre les services et les mettre en lien avec les données sur l'environnement. De cette manière, vous pouvez créer des rapports croisés superposant les métriques du service à de nombreux attributs, tels que l'emplacement du service, l'identifiant de l'application qui appelle le service, la version et le code de réponse. Ces corrélations vous permettent d'envisager des relations et d'identifier les causes ainsi que les effets.

Utilisation des SLI transparents en pratique

  • Si tous les appels vers un service échouent pour un utilisateur unique, mais pas pour les autres, le problème est probablement lié à ce compte. Vous pouvez facilement le résoudre vous-même.
  • Si vous corrigez un problème avec votre application et remarquez une corrélation entre la dégradation des performances de cette application et une augmentation soutenue de la latence d'un service GCP essentiel, contactez-nous pour obtenir de l'aide.
  • Si les latences pour un rapport de service GCP semblent correctes et inchangées, mais que vos métriques intégrées dans l'application indiquent que la latence des appels au service est anormalement élevée, il se peut que le réseau rencontre des problèmes. Appelez votre fournisseur de réseau (dans certains cas, Google) pour lancer le processus de débogage.

Notre engagement pour la transparence

Nos équipes Google Cloud s'engagent à communiquer des informations détaillées à propos des performances de nos services. Ces informations sont semblables aux données que les ingénieurs SRE Google utilisent pour veiller au bon fonctionnement de nos services. Grâce à ces données partagées, vous pouvez surveiller facilement nos performances. Ainsi, lorsque nous collaborons sur des demandes d'assistance, tout le monde bénéficie des mêmes informations. Nous pensons que les SLI transparents vous permettront de profiter d'une assistance technique de meilleure qualité et d'avoir davantage confiance dans le cloud computing.

Google Cloud

Premiers pas

Pour commencer à collecter et observer des métriques de services transparentes, accédez à l'explorateur de métriques Stackdriver et sélectionnez "API Consumed" en tant que type de ressource. Une liste de métriques s'affiche. Vous pouvez représenter ces métriques en fonction des produits et services que vous utilisez dans votre application. Vous pouvez ensuite sélectionner celles qui sont les plus intéressantes pour votre environnement. Réduisez la quantité de données à afficher en indiquant le service, la méthode, l'emplacement, l'identifiant ou le code d'erreur à surveiller.

Après avoir décidé quelles métriques sont les plus importantes pour votre application, vous devez créer des tableaux de bord personnalisés qui représentent vos indicateurs clés et les nôtres. De cette manière, vous bénéficiez d'une vue d'ensemble qui vous permettra d'identifier la cause générale d'un problème. Pour finir, une fois que vous disposez d'une bonne base de référence à long terme concernant le comportement des services Google sur votre trafic et la tolérance de votre application, vous pouvez envisager de définir des alertes afin d'être informé lorsque des déviances se produisent.

Premiers pas