Cette page a été traduite par l'API Cloud Translation.

Optimiser en continu

Last reviewed 2024-09-25 UTC

Ce principe du pilier d'optimisation des coûts du Google Cloud framework Well-Architected fournit des recommandations pour vous aider à optimiser les coûts de vos déploiements cloud en fonction des objectifs commerciaux en constante évolution.

À mesure que votre entreprise se développe et évolue, vos charges de travail cloud doivent s'adapter aux changements des exigences en termes de ressources et des modèles d'utilisation. Pour tirer le meilleur parti de vos dépenses cloud, vous devez maintenir votre rentabilité tout en continuant à soutenir vos objectifs commerciaux. Cela nécessite une approche proactive et adaptative axée sur l'amélioration et l'optimisation continues.

Présentation des principes

Pour optimiser les coûts en permanence, vous devez surveiller et analyser de manière proactive votre environnement cloud, et effectuer les ajustements appropriés pour répondre aux exigences actuelles. Concentrez vos efforts de surveillance sur les indicateurs clés de performance (KPI) qui affectent directement l'expérience de vos utilisateurs finaux, s'alignent sur vos objectifs commerciaux et fournissent des insights pour une amélioration continue. Cette approche vous permet d'identifier et de résoudre les inefficacités, de vous adapter aux besoins en constante évolution et d'aligner en permanence les dépenses cloud sur les objectifs stratégiques de l'entreprise. Pour équilibrer l'observabilité complète et l'efficacité des coûts, comprenez les coûts et les avantages de la surveillance de l'utilisation des ressources, et utilisez des stratégies d'amélioration et d'optimisation des processus appropriées.

Recommandations

Pour surveiller efficacement votre environnement Google Cloud et optimiser les coûts en permanence, tenez compte des recommandations suivantes.

Se concentrer sur les métriques pertinentes pour l'entreprise

Une surveillance efficace commence par identifier les métriques les plus importantes pour votre entreprise et vos clients. Voici quelques exemples de métriques:

Métriques sur l'expérience utilisateur: les métriques de latence, de taux d'erreur, de débit et de satisfaction client sont utiles pour comprendre l'expérience des utilisateurs finaux lorsqu'ils utilisent vos applications.
Métriques de résultats commerciaux: les revenus, la croissance du nombre de clients et l'engagement peuvent être corrélés à l'utilisation des ressources pour identifier les possibilités d'optimisation des coûts.
Métriques DevOps Research and Assessment (DORA): des métriques telles que la fréquence de déploiement, le délai de livraison des modifications, le taux d'échec des modifications et le délai de restauration fournissent des insights sur l'efficacité et la fiabilité de votre processus de livraison de logiciels. En améliorant ces métriques, vous pouvez augmenter la productivité, réduire les temps d'arrêt et optimiser les coûts.
Métriques SRE (Site Reliability Engineering): les budgets d'erreur aident les équipes à quantifier et à gérer le niveau acceptable de perturbation du service. En définissant des attentes claires en termes de fiabilité, les budgets d'erreur permettent aux équipes d'innover et de déployer des modifications plus sereinement, en connaissant leur marge de sécurité. Cette approche proactive favorise un équilibre entre l'innovation et la stabilité, ce qui permet d'éviter les coûts opérationnels excessifs associés aux pannes majeures ou aux temps d'arrêt prolongés.

Utiliser l'observabilité pour optimiser les ressources

Vous trouverez ci-dessous des recommandations pour utiliser l'observabilité afin d'identifier les goulots d'étranglement des ressources et les ressources sous-utilisées dans vos déploiements cloud:

Surveiller l'utilisation des ressources: utilisez les métriques d'utilisation des ressources pour identifier les ressourcesGoogle Cloud sous-utilisées. Par exemple, utilisez des métriques telles que l'utilisation du processeur et de la mémoire pour identifier les ressources de VM inutilisées. Pour Google Kubernetes Engine (GKE), vous pouvez afficher une répartition détaillée des coûts et des métriques d'optimisation liées aux coûts. Pour Google Cloud VMware Engine, examinez l'utilisation des ressources afin d'optimiser les modifications de données, la consommation de stockage et le dimensionnement d'ESXi.
Utiliser les recommandations cloud: Active Assist est un portefeuille d'outils intelligents qui vous aide à optimiser vos opérations cloud. Ces outils fournissent des recommandations pratiques pour réduire les coûts, améliorer les performances, renforcer la sécurité et même prendre des décisions axées sur la durabilité. Par exemple, les insights sur le dimensionnement des VM peuvent vous aider à optimiser l'allocation des ressources et à éviter les dépenses inutiles.
Corrélation entre l'utilisation des ressources et les performances: analysez la relation entre l'utilisation des ressources et les performances de l'application pour déterminer si vous pouvez passer à des ressources moins chères sans affecter l'expérience utilisateur.

Trouvez l'équilibre entre les besoins de dépannage et les coûts.

Les données d'observabilité détaillées peuvent vous aider à diagnostiquer et à résoudre les problèmes. Toutefois, le stockage d'un volume excessif de données d'observabilité ou l'exportation de données inutiles vers des outils de surveillance externes peut entraîner des coûts inutiles. Pour un dépannage efficace, tenez compte des recommandations suivantes:

Collectez suffisamment de données pour le dépannage: assurez-vous que votre solution de surveillance collecte suffisamment de données pour diagnostiquer et résoudre efficacement les problèmes lorsqu'ils surviennent. Ces données peuvent inclure des journaux, des traces et des métriques à différents niveaux de précision.
Utilisez l'échantillonnage et l'agrégation: équilibrez le besoin de données détaillées avec les considérations de coût à l'aide de techniques d'échantillonnage et d'agrégation. Cette approche vous permet de collecter des données représentatives sans générer de coûts de stockage excessifs.
Comprendre les modèles de tarification de vos outils et services de surveillance: évaluez différentes solutions de surveillance et choisissez les options qui correspondent aux besoins, au budget et aux habitudes d'utilisation spécifiques de votre projet. Tenez compte de facteurs tels que le volume de données, les exigences de conservation et les fonctionnalités requises lorsque vous effectuez votre sélection.
Révisez régulièrement la configuration de votre surveillance: évitez de collecter des données excessives en supprimant les métriques ou les journaux inutiles.

Adapter la collecte des données aux rôles et définir des règles de conservation spécifiques aux rôles

Tenez compte des besoins spécifiques en données des différents rôles. Par exemple, les développeurs peuvent avoir besoin d'accéder principalement aux traces et aux journaux au niveau de l'application, tandis que les administrateurs informatiques peuvent se concentrer sur les journaux système et les métriques d'infrastructure. En personnalisant la collecte des données, vous pouvez réduire les coûts de stockage inutiles et éviter d'inonder les utilisateurs d'informations non pertinentes.

En outre, vous pouvez définir des règles de conservation en fonction des besoins de chaque rôle et des exigences réglementaires. Par exemple, les développeurs peuvent avoir besoin d'accéder à des journaux détaillés sur une période plus courte, tandis que les analystes financiers peuvent avoir besoin de données à plus long terme.

Tenir compte des exigences réglementaires et de conformité

Dans certains secteurs, les exigences réglementaires imposent la conservation des données. Pour éviter les risques juridiques et financiers, vous devez vous assurer que vos pratiques de surveillance et de conservation des données vous aident à respecter les réglementations applicables. En même temps, vous devez maintenir la rentabilité. Tenez compte des recommandations suivantes:

Déterminez les exigences spécifiques de conservation des données pour votre secteur ou votre région, et assurez-vous que votre stratégie de surveillance répond à ces exigences.
Implémentez des mécanismes d'archivage et de récupération de données appropriés pour répondre aux besoins d'audit et de conformité, tout en minimisant les coûts de stockage.

Implémenter des alertes intelligentes

Les alertes permettent de détecter et de résoudre les problèmes dans les meilleurs délais. Toutefois, un équilibre est nécessaire entre une approche qui vous tient informé et une autre qui vous submerge de notifications. En concevant des systèmes d'alerte intelligents, vous pouvez hiérarchiser les problèmes critiques qui ont un impact plus important sur l'activité. Tenez compte des recommandations suivantes:

Priorisez les problèmes qui affectent les clients: concevez des alertes qui se déclenchent rapidement pour les problèmes qui affectent directement l'expérience client, comme les pannes de site Web, les temps de réponse lents ou les échecs de transaction.
Configurez votre système pour les problèmes temporaires: utilisez des seuils et des mécanismes de retard appropriés pour éviter les alertes inutiles en cas de problèmes temporaires ou de problèmes de système auto-réparables qui n'affectent pas les clients.
Personnaliser la gravité des alertes: assurez-vous que les problèmes les plus urgents reçoivent une attention immédiate en différenciant les alertes critiques des alertes non critiques.
Utilisez judicieusement les canaux de notification: choisissez les canaux appropriés pour les notifications d'alerte (e-mail, SMS ou bipeur) en fonction de la gravité et de l'urgence des alertes.

Optimiser l'utilisation des ressources