Configurer la journalisation et la surveillance

Les clusters Anthos sur Bare Metal comprennent plusieurs options pour la journalisation et la surveillance de clusters, y compris les services gérés basés sur le cloud et des outils Open Source, mais aussi une compatibilité validée avec des solutions commerciales tierces. Cette page décrit ces options et fournit des conseils de base pour sélectionner la solution adaptée à votre environnement.

Options pour les clusters Anthos sur Bare Metal

Vous disposez de plusieurs options de journalisation et de surveillance pour vos clusters Anthos sur Bare Metal :

Cloud Logging et Cloud Monitoring, activés par défaut sur les composants du système Bare Metal
Prometheus et Grafana, disponibles depuis Cloud Marketplace
Configurations validées avec des solutions tierces

Cloud Logging et Cloud Monitoring

La suite Google Cloud Operations est la solution d'observabilité intégrée pour Google Cloud. Elle offre une solution de journalisation entièrement gérée, la collecte de métriques, la surveillance, la création de tableaux de bord et les alertes. Cloud Monitoring surveille les clusters Anthos sur Bare Metal de la même manière que les clusters GKE basés sur le cloud.

Les agents peuvent être configurés pour modifier le champ d'application de la journalisation et de la surveillance, ainsi que le niveau des métriques collectées:

Le champ d'application de la journalisation et de la surveillance peut être défini sur les composants système uniquement (par défaut) ou sur les composants et applications système.
Le niveau des métriques collectées peut être configuré pour un ensemble optimisé de métriques (par défaut) ou pour les métriques complètes

Pour en savoir plus, consultez Configurer les agents Stackdriver pour les clusters Anthos sur solution Bare Metal.

Logging et Monitoring fournissent une solution d'observabilité basée sur le cloud unique, puissante et facile à configurer. Nous vous recommandons vivement d'utiliser Logging et Monitoring lorsque vous exécutez des charges de travail sur les clusters Anthos sur Bare Metal seulement, ou lorsque vous les exécutez sur GKE et les clusters Anthos sur Bare Metal. Pour les applications avec des composants s'exécutant sur une infrastructure standard traditionnelle sur site et sur les clusters Anthos sur Bare Metal, vous pouvez envisager d'autres solutions pour une vue de bout en bout de ces applications.

Pour en savoir plus sur l'architecture, la configuration et les données répliquées par défaut dans votre projet Google Cloud, consultez la page Fonctionnement de Logging et Monitoring pour les clusters Anthos sur Bare Metal.
Pour en savoir plus sur Logging, consultez la documentation Cloud Logging.
Pour en savoir plus sur Monitoring, consultez la documentation Cloud Monitoring.

Prometheus et Grafana

Prometheus et Grafana sont deux produits de surveillance Open Source populaires disponibles dans Cloud Marketplace :

Prometheus recueille des métriques sur les applications et le système.
Alertmanager gère l'envoi d'alertes à l'aide de différents mécanismes.
Grafana est un outil de création de tableaux de bord.

Prometheus et Grafana peuvent être activés sur chaque cluster d'administrateur et d'utilisateur. Prometheus et Grafana sont recommandés pour les équipes d'application ayant déjà une expérience de ces produits. Ces produits sont également recommandés pour les équipes opérationnelles qui préfèrent conserver les métriques d'application dans le cluster à des fins de dépannage des problèmes de connexion réseau.

Solutions tierces

Google a travaillé avec plusieurs fournisseurs de solutions tierces de journalisation et de surveillance pour faire en sorte que leurs produits fonctionnent correctement avec les clusters Anthos sur Bare Metal. Ces fournisseurs incluent notamment Datadog, Elastic et Splunk. D'autres solutions tierces validées seront ajoutées ultérieurement.

Les guides de solution suivants sont disponibles pour utiliser des solutions tierces avec les clusters Anthos sur Bare Metal :

Fonctionnement de Logging et Monitoring pour les clusters Anthos sur Bare Metal

Cloud Logging et Cloud Monitoring sont installés et activés dans chaque cluster dès la création d'un cluster d'administrateur ou d'utilisateur.

Les agents Stackdriver incluent plusieurs composants sur chaque cluster :

Opérateur Stackdriver (stackdriver-operator-*). Gère le cycle de vie de tous les autres agents Stackdriver déployés sur le cluster.
Ressource personnalisée Stackdriver. Ressource créée automatiquement dans le cadre du processus d'installation des clusters Anthos sur Bare Metal.
Agent de métriques GKE (gke-metrics-agent-*). Un DaemonSet basé sur un collecteur OpenTelemetry qui scrape les métriques de chaque nœud pour Cloud Monitoring. Un DaemonSet node-exporter et un déploiement kube-state-metrics sont également inclus pour fournir plus de métriques sur le cluster.
Transfert de journaux Stackdriver (stackdriver-log-forwarder-*). Un daemonset Fluent Bit qui transmet les journaux de chaque machine à Cloud Logging. Le transfert de journaux met en mémoire tampon les entrées de journal sur le nœud localement et les renvoie pendant quatre heures maximum. Si la mémoire tampon est saturée ou si le service de transfert de journaux ne peut pas atteindre l'API Cloud Logging pendant plus de quatre heures, les journaux sont supprimés.

Remarque : L'agent de métadonnées Anthos est disponible en version bêta et est couvert par les Conditions d'utilisation des offres antérieures à la disponibilité générale de Google Cloud. Les produits avant disponibilité générale sont susceptibles de présenter une compatibilité limitée, et les modifications apportées à ces produits peuvent ne pas être compatibles avec d'autres versions avant disponibilité générale. Pour en savoir plus, consultez les descriptions des étapes de lancement.
Agent de métadonnées Anthos (stackdriver-metadata-agent-). Un déploiement qui envoie des métadonnées pour des ressources Kubernetes telles que des pods, des déploiements ou des nœuds à l'API Config Monitoring pour Ops. Ces données sont utilisées pour enrichir les requêtes de métriques en vous permettant d'effectuer des requêtes par nom de déploiement, par nom de nœud ou même par nom de service Kubernetes.

Vous pouvez afficher les agents installés par Stackdriver en exécutant la commande suivante :

  kubectl -n kube-system get pods -l "managed-by=stackdriver"

La sortie de la commande ressemble à ceci :

kube-system   gke-metrics-agent-4th8r                                     1/1     Running   1 (40h ago)   40h
kube-system   gke-metrics-agent-8lt4s                                     1/1     Running   1 (40h ago)   40h
kube-system   gke-metrics-agent-dhxld                                     1/1     Running   1 (40h ago)   40h
kube-system   gke-metrics-agent-lbkl2                                     1/1     Running   1 (40h ago)   40h
kube-system   gke-metrics-agent-pblfk                                     1/1     Running   1 (40h ago)   40h
kube-system   gke-metrics-agent-qfwft                                     1/1     Running   1 (40h ago)   40h
kube-system   kube-state-metrics-9948b86dd-6chhh                          1/1     Running   1 (40h ago)   40h
kube-system   node-exporter-5s4pg                                         1/1     Running   1 (40h ago)   40h
kube-system   node-exporter-d9gwv                                         1/1     Running   2 (40h ago)   40h
kube-system   node-exporter-fhbql                                         1/1     Running   1 (40h ago)   40h
kube-system   node-exporter-gzf8t                                         1/1     Running   1 (40h ago)   40h
kube-system   node-exporter-tsrpp                                         1/1     Running   1 (40h ago)   40h
kube-system   node-exporter-xzww7                                         1/1     Running   1 (40h ago)   40h
kube-system   stackdriver-log-forwarder-8lwxh                             1/1     Running   1 (40h ago)   40h
kube-system   stackdriver-log-forwarder-f7cgf                             1/1     Running   2 (40h ago)   40h
kube-system   stackdriver-log-forwarder-fl5gf                             1/1     Running   1 (40h ago)   40h
kube-system   stackdriver-log-forwarder-q5lq8                             1/1     Running   2 (40h ago)   40h
kube-system   stackdriver-log-forwarder-www4b                             1/1     Running   1 (40h ago)   40h
kube-system   stackdriver-log-forwarder-xqgjc                             1/1     Running   1 (40h ago)   40h
kube-system   stackdriver-metadata-agent-cluster-level-5bb5b6d6bc-z9rx7   1/1     Running   1 (40h ago)   40h

Métriques Cloud Monitoring

Pour obtenir la liste des métriques collectées par Cloud Monitoring, consultez la page Afficher les métriques des clusters Anthos sur Bare Metal.

Configurer des agents Stackdriver pour les clusters Anthos sur Bare Metal

Les agents Stackdriver installés avec clusters Anthos sur Bare Metal collectent des données sur les composants système à des fins de maintenance et de dépannage des clusters. Les sections suivantes décrivent la configuration de Stackdriver et les modes de fonctionnement.

Composants système uniquement (mode par défaut)

Lors de l'installation, les agents Stackdriver sont configurés par défaut pour collecter les journaux et les métriques, y compris les détails de performances (par exemple, l'utilisation du processeur et de la mémoire), ainsi que des métadonnées similaires, pour les composants système fournis par Google. Celles-ci incluent toutes les charges de travail du cluster d'administrateur, et pour les clusters d'utilisateur, les charges de travail des espaces de noms kube-system, gke-system, gke-connect, istio-system et config-management-system.

Composants système et applications

Pour activer la journalisation et la surveillance des applications en plus du mode par défaut, suivez la procédure décrite dans Activer la journalisation et la surveillance des applications.

Métriques optimisées (métriques par défaut)

Par défaut, les déploiements kube-state-metrics exécutés dans le cluster collectent et signalent un ensemble optimisé de métriques kube à la suite Google Cloud Operations (anciennement Stackdriver).

Moins de ressources sont nécessaires pour collecter cet ensemble optimisé de métriques, ce qui améliore les performances globales et l'évolutivité.

Métriques kube exclues

Les métriques kube suivantes sont exclues des métriques optimisées:

kube_certificatesigningrequest_cert_length
kube_certificatesigningrequest_condition
kube_certificatesigningrequest_créé
kube_certificatesigningrequest_labels
kube_configmap_annotations
Informations sur kube_configmap_info
kube_configmap_labels
kube_configmap_metadata_resource_version
kube_daemonset_annotations
kube_daemonset_créé
kube_daemonset_labels
kube_daemonset_metadata_generation
kube_daemonset_status_observ_generation
kube_deployment_annotations (kube-deployment_annotations)
kube_deployment_créé
kube_deployment_labels
Kube_deployment_spec_paused
kube_deployment_spec_strategy_rollingupdate_max_surge
kube_deployment_spec_strategy_rollingupdate_max_unavailable
kube_deployment_status_condition (condition d'état de déploiement)
kube_deployment_status_replicas_ready
kube_endpoint_annotations
kube_endpoint_créé
kube_endpoint_info
kube_endpoint_labels
kube_endpoint_ports
kube_horizontalpodautoscaler_annotations
kube_horizontalpodautoscaler_info (informations sur kube_horizontalpodautoscaler_info)
kube_horizontalpodautoscaler_labels
kube_horizontalpodautoscaler_metadata_generation
kube_horizontalpodautoscaler_status_condition
kube_job_annotations (kube-job_annotations)
Kube_job_complete
kube_job_créé
kube_job_info (informations sur la tâche kube)
kube_job_labels
kube_job_owner
kube_job_spec_completions
kube_job_spec_parallelism
Kube_job_status_completion_time
Kube_job_status_start_time
kube_job_status_succeeded (état de la tâche d'exécution)
kube_location_owner
heure de renouvellement de l'enregistrement
plage_limit
kube_limitrange_created
kube_mutatingwebhookconfiguration_info,
kube_namespace_labels
kube_networkpolicy_annotations (kube_networkpolicy_annotations)
kube_networkpolicy_labels
kube_networkpolicy_spec_egress_rules (Règles kube_networkpolicy_spec_egress_rules)
kube_networkpolicy_spec_ingress_rules
kube_node_annotations
kube_node_role (rôle de nœud kube)
kube_Persistentvolume_Annotations
kube_Persistentvolume_labels
kube_Persistentvolumeclaim_access_mode
kube_Persistentvolumeclaim_annotations
kube_Persistentvolumeclaim_labels
kube_pod_annotations
Kube_pod_completion_time
kube_pod_container_resource_limits
kube_pod_container_resource_requests
kube_pod_container_state_started
kube_pod_créé
kube_pod_init_container_info
kube_pod_init_container_resource_limits
kube_pod_init_container_resource_requests
kube_pod_init_container_status_last_terminationd_reason
kube_pod_init_container_status_ready
kube_pod_init_container_status_restarts_total
kube_pod_init_container_status_running
kube_pod_init_container_status_terminé
kube_pod_init_container_status_terminationd_reason
kube_pod_init_container_status_waiting
kube_pod_init_container_status_waiting_reason
kube_pod_labels
kube_pod_owner
kube_pod_restart_policy
kube_pod_spec_volumes_Persistentvolumeclaims_readonly
heure de début du kube_pod
kube_poddisruptionbudget_annotations
kube_poddisruptionbudget_créé
kube_poddisruptionbudget_labels
kube_poddisruptionbudget_status_expected_pods
kube_podromion_budget_état_observé
kube_poddisruptionbudget_status_pod_disruptions_allowed
kube_replicaset_annotations
kube_replicaset_créé
kube_replicaset_labels
kube_replicaset_metadata_generation
kube_replicaset_owner
kube_replicaset_status_observ_generation
kube_resourcequota_créé
kube_secret_annotations (annotations kube_secret)
kube_secret_info (informations sur kube_secret)
kube_secret_labels (kube_secret_labels),
Kube_secret_metadata_resource_version
kube_secret_type (type_secret_kube)
Kube_service_annotations
kube_service_créé
Informations sur le service kube
kube_service_labels [étiquette_service_kube]
kube_service_spec_type (type de spécification du service kube)
kube_statefulset_annotations
kube_statefulset_créé
kube_statefulset_labels
Kube_statefulset_status_current_revision
kube_statefulset_status_update_revision
kube_storageclass_annotations
kube_storageclass_créé
kube_storageclass_info
kube_storageclass_labels
kube_validatingwebhookconfiguration_info,
kube_validatingwebhookconfiguration_metadata_resource_version
kube_volumeattachment_créé
Informations sur le kube_volumeattachment_info
kube_volumeattachment_labels
kube_volumeattachment_spec_source_Persistentvolume
kube_volumeattachment_status_attachd
kube_volumeattachment_status_attachment_metadata

L'ensemble complet de métriques Anthos sur les clusters VMware est documenté dans Afficher les métriques Anthos.

Pour désactiver les métriques optimisées (non recommandé), remplacez le paramètre par défaut dans votre ressource personnalisée Stackdriver.

Configurer les ressources des composants Stackdriver

Lorsque vous créez un cluster, Clusters Anthos sur solution Bare Metal crée automatiquement une ressource personnalisée Stackdriver. Vous pouvez modifier la spécification dans la ressource personnalisée pour remplacer les valeurs par défaut pour les demandes et limites de ressources mémoire et de processeur pour un composant Stackdriver. Vous pouvez également remplacer le paramètre de métriques optimisées par défaut.

Remplacer les valeurs par défaut de processeur et les demandes de mémoire et limites pour un composant Stackdriver

Les clusters à densité élevée des pods introduit des volumes de journalisation et de surveillance plus importants.accrues. Dans les cas extrêmes, les composants Stackdriver peuvent indiquer être à proximité de la limite d'utilisation du processeur et de la mémoire, ou même de subir des redémarrages constants du fait des limites de ressources. Dans ce cas, pour remplacer les valeurs par défaut des demandes de ressources mémoire et de processeur et des limites d'un composant Stackdriver, procédez comme suit :

Exécutez la commande suivante pour ouvrir la ressource personnalisée Stackdriver dans un éditeur de ligne de commande :
```
kubectl -n kube-system edit stackdriver stackdriver
```

Dans la ressource personnalisée Stackdriver, ajoutez la section resourceAttrOverride sous le champ spec :

resourceAttrOverride:
      DAEMONSET_OR_DEPLOYMENT_NAME/CONTAINER_NAME:
        LIMITS_OR_REQUESTS:
          RESOURCE: RESOURCE_QUANTITY

Notez que la section resourceAttrOverride remplace toutes les limites et demandes par défaut du composant spécifié. Les composants suivants sont compatibles avec resourceAttrOverride :

gke-metrics-agent/gke-metrics-agent
stackdriver-log-forwarder/stackdriver-log-forwarder
stackdriver-metadata-agent-cluster-level/metadata-agent
node-exporter/node-exporter
kube-state-metrics/kube-state-metrics

Voici un exemple de fichier :

apiVersion: addons.sigs.k8s.io/v1alpha1
kind: Stackdriver
metadata:
  name: stackdriver
  namespace: kube-system
spec:
  anthosDistribution: baremetal
  projectID: my-project
  clusterName: my-cluster
  clusterLocation: us-west-1a
  resourceAttrOverride:
    gke-metrics-agent/gke-metrics-agent:
      requests:
        cpu: 110m
        memory: 240Mi
      limits:
        cpu: 200m
        memory: 4.5Gi

Pour enregistrer les modifications apportées à la ressource personnalisée Stackdriver, enregistrez et quittez l'éditeur de ligne de commande.

Vérifiez l'état du pod :

kubectl -n kube-system get pods -l "managed-by=stackdriver"

Une réponse pour un pod opérationnel se présente comme suit :

gke-metrics-agent-4th8r                1/1     Running   1   40h

Vérifiez la spécification du pod du composant pour vous assurer que les ressources sont définies correctement.

kubectl -n kube-system describe pod POD_NAME

Remplacez POD_NAME par le nom du pod que vous venez de modifier. Exemple :gke-metrics-agent-4th8r

La réponse se présente comme suit :

  Name:         gke-metrics-agent-4th8r
  Namespace:    kube-system
  ...
  Containers:
    gke-metrics-agent:
      Limits:
        cpu: 200m
        memory: 4.5Gi
      Requests:
        cpu: 110m
        memory: 240Mi
      ...

Désactiver les métriques optimisées

Par défaut, les déploiements kube-state-metrics exécutés dans le cluster collectent et signalent un ensemble optimisé de métriques kube à Stackdriver. Si vous avez besoin de métriques supplémentaires, nous vous recommandons de les remplacer par la liste des clusters Anthos sur solution Bare Metal.

Voici quelques exemples de remplacements que vous pouvez utiliser:

Métrique désactivée	Remplacements
`kube_pod_start_time`	`container/uptime`
`kube_pod_container_resource_requests`	`container/cpu/request_cores` `container/memory/request_bytes`
`kube_pod_container_resource_limits`	`container/cpu/limit_cores` `container/memory/limit_bytes`

Pour désactiver le paramètre par défaut pour les métriques optimisées (non recommandé), procédez comme suit:

Ouvrez votre ressource personnalisée Stackdriver dans un éditeur de ligne de commande :
```
kubectl -n kube-system edit stackdriver stackdriver
```

Définissez le champ optimizedMetrics sur false.

apiVersion: addons.sigs.k8s.io/v1alpha1
kind: Stackdriver
metadata:
name: stackdriver
namespace: kube-system
spec:
anthosDistribution: baremetal
projectID: my-project
clusterName: my-cluster
clusterLocation: us-west-1a
optimizedMetrics: false

Enregistrez les modifications, puis quittez l'éditeur de ligne de commande.

Serveur de métriques

Metrics-server est la source des métriques de ressources de conteneur pour divers pipelines d'autoscaling. Metrics-server extrait les métriques des kubelets et les expose via l'API Metrics de Kubernetes. Les autoscalers horizontal et vertical de pods exploitent ensuite ces métriques pour savoir à quel moment déclencher l'autoscaling. Metrics-server est mis à l'échelle à l'aide du module addon-resizer.

Dans les cas extrêmes où la densité de pods élevée entraîne trop de journalisation et de surveillance, metrics-server peut être arrêté et redémarré en raison de limites de ressources. Dans ce cas, vous pouvez allouer davantage de ressources au serveur de métriques en modifiant le fichier ConfigMap metrics-server-config dans l'espace de noms kube-system, et en modifiant la valeur de cpuPerNode et memoryPerNode.

kubectl edit cm metrics-server-config -n kube-system

L'exemple de contenu du fichier ConfigMap est le suivant :

apiVersion: v1
data:
  NannyConfiguration: |-
    apiVersion: nannyconfig/v1alpha1
    kind: NannyConfiguration
    cpuPerNode: 3m
    memoryPerNode: 20Mi
kind: ConfigMap

Après avoir mis à jour le fichier ConfigMap, recréez les pods metrics-server à l'aide de la commande suivante :

kubectl delete pod -l k8s-app=metrics-server -n kube-system

Configuration requise pour Logging et Monitoring

Plusieurs conditions de configuration sont requises pour activer Cloud Logging et Cloud Monitoring avec les clusters Anthos sur Bare Metal. Ces étapes sont incluses dans la section Configurer un compte de service à utiliser avec Logging et Monitoring sur la page "Activer les services Google" et dans la liste suivante :

Un espace de travail Cloud Monitoring doit être créé dans le projet Cloud. Pour ce faire, cliquez sur Monitoring dans la console Google Cloud et suivez le workflow.
Vous devez activer les API Stackdriver suivantes :
Vous devez attribuer les rôles IAM suivants au compte de service utilisé par les agents Stackdriver :
- logging.logWriter
- monitoring.metricWriter
- stackdriver.resourceMetadata.writer
- monitoring.dashboardEditor
- opsconfigmonitoring.resourceMetadata.writer

Tarifs

Aucuns frais ne s'appliquent pour les journaux système et les métriques Anthos.

Dans un cluster Anthos sur Bare Metal, les journaux et les métriques du système Anthos incluent les éléments suivants :

Journaux et métriques de tous les composants d'un cluster d'administrateur
Journaux et métriques des composants de ces espaces de noms dans un cluster d'utilisateur : kube-system, gke-system, gke-connect, knative-serving, istio-system, monitoring-system, config-management-system, gatekeeper-system, cnrm-system

Pour en savoir plus, consultez la section Tarifs de la suite Google Cloud Operations.

Pour en savoir plus sur l'attribution de crédits pour les métriques Cloud Logging, contactez le service commercial au sujet des tarifs.