Cette page a été traduite par l'API Cloud Translation.

Journalisation et surveillance

Google Distributed Cloud (logiciel uniquement) pour VMware inclut plusieurs options de journalisation et de surveillance des clusters, y compris des services gérés basés dans le cloud et des outils Open Source, mais aussi une compatibilité validée avec des solutions commerciales tierces. Ce document décrit ces options et fournit des conseils de base pour sélectionner la solution adaptée à votre environnement.

Options pour Google Distributed Cloud

Vous disposez de plusieurs options de journalisation et de surveillance pour Google Distributed Cloud :

Cloud Logging et Cloud Monitoring
Google Cloud Managed Service pour Prometheus (aperçu)
Configurations validées avec des solutions tierces

Cloud Logging et Cloud Monitoring

Google Cloud Observability (anciennement Stackdriver) est la solution d'observabilité intégrée pourGoogle Cloud. Elle offre une solution de journalisation entièrement gérée, la collecte de métriques, la surveillance, la création de tableaux de bord et les alertes. Cloud Monitoring surveille les clusters Google Distributed Cloud de la même manière que les clusters GKE basés dans le cloud.

Vous pouvez configurer les agents intégrés au cluster pour le champ d'application de la surveillance et de la journalisation, ainsi que pour le niveau de métriques collecté :

Le champ d'application de la journalisation et de la surveillance peut être défini pour les composants système uniquement (par défaut), ou pour les composants système et les applications.
Le niveau de métriques collectées peut être configuré pour un ensemble optimisé de métriques ou pour des métriques complètes.

Pour en savoir plus, consultez la section Configurer les agents Logging et Monitoring pour Google Distributed Cloud.

Cloud Logging et Cloud Monitoring conviennent parfaitement aux clients qui recherchent une solution unique et facile à configurer, puissante et basée sur le cloud. Nous vous recommandons vivement d'utiliser Logging et Monitoring lorsque vous exécutez des charges de travail uniquement sur Google Distributed Cloud, ou que vous les exécutez sur GKE et Google Distributed Cloud. Pour les applications avec des composants s'exécutant sur une infrastructure standard traditionnelle sur site et sur Google Distributed Cloud, vous pouvez envisager d'autres solutions pour une vue de bout en bout de ces applications.

Pour en savoir plus sur l'architecture, la configuration et les données répliquées par défaut dans votre projet Google Cloud pour Google Distributed Cloud, consultez la section Fonctionnement de Logging et Monitoring pour Google Distributed Cloud.
Pour en savoir plus sur Cloud Logging, consultez la documentation Cloud Logging.
Pour en savoir plus sur Cloud Monitoring, consultez la documentation Cloud Monitoring.

Solutions tierces

Google a collaboré avec plusieurs fournisseurs de solutions tierces de journalisation et de surveillance pour faire en sorte que leurs produits fonctionnent bien avec Google Distributed Cloud. Ces fournisseurs incluent notamment Datadog, Elastic et Splunk. D'autres solutions tierces validées seront ajoutées ultérieurement.

Pour en savoir plus sur l'utilisation de solutions tierces avec Google Distributed Cloud, consultez les ressources suivantes :

Fonctionnement de la journalisation et de la surveillance pour Google Distributed Cloud

Les agents Logging et Monitoring sont installés et activés dans chaque cluster dès la création d'un cluster d'administrateur ou d'utilisateur. Les agents collectent des données concernant les composants système, à savoir la portée que vous pouvez configurer.

Pour afficher les données collectées sur la console Google Cloud , vous devez configurer le projet Google Cloud qui stocke les journaux et les métriques à afficher.

Les agents de journalisation et de surveillance de chaque cluster incluent les éléments suivants :

Agent de métriques GKE (gke-metrics-agent) Un DaemonSet qui envoie des métriques à l'API Cloud Monitoring.
Transfert de journaux (stackdriver-log-forwarder). Un daemonset Fluent Bit qui transmet les journaux de chaque machine à Cloud Logging. Le transfert de journaux met en mémoire tampon les entrées de journal sur le nœud localement et les renvoie pendant quatre heures maximum. Si la mémoire tampon est saturée ou si le service de transfert de journaux ne peut pas atteindre l'API Cloud Logging pendant plus de quatre heures, les journaux sont supprimés.
Agent global de métriques GKE (gke-metrics-agent-global). Un déploiement qui envoie des métriques à l'API Cloud Monitoring.
Agent de métadonnées (stackdriver-metadata-agent). Un déploiement qui envoie des métadonnées pour des ressources Kubernetes telles que des pods, des déploiements ou des nœuds à l'API Stackdriver Resource Metadata. Ces données sont utilisées pour enrichir les requêtes de métriques en vous permettant d'effectuer des requêtes par nom de déploiement, par nom de nœud ou même par nom de service Kubernetes.
kube-state-metrics : déploiement qui écoute le serveur d'API et génère des métriques sur l'état des objets.
node-exporter : DaemonSet qui génère des métriques matérielles et d'OS.

Vous pouvez afficher tous les agents de déploiement en exécutant la commande suivante :

  kubectl --kubeconfig CLUSTER_KUBECONFIG get deployments -l "managed-by=stackdriver" --all-namespaces

où CLUSTER_KUBECONFIG représente le chemin d'accès au fichier kubeconfig du cluster.

La sortie de la commande ressemble à ceci :

gke-metrics-agent-global                      1/1     Running   0   4h31m
stackdriver-metadata-agent-cluster-level      1/1     Running   0   4h31m

Vous pouvez afficher tous les agents DaemonSet en exécutant la commande suivante :

  kubectl --kubeconfig CLUSTER_KUBECONFIG get daemonsets -l "managed-by=stackdriver" --all-namespaces

La sortie de la commande ressemble à ceci :

gke-metrics-agent                             1/1     Running   0   4h31m
stackdriver-log-forwarder                     1/1     Running   0   4h31m

Configurer les agents de journalisation et de surveillance pour Google Distributed Cloud

Les agents installés avec Google Distributed Cloud collectent des données sur les composants système, en fonction de vos paramètres et de votre configuration, dans le but de gérer et de résoudre les problèmes liés à vos clusters.

Composants système uniquement (champ d'application par défaut)

Lors de l'installation, les agents collectent les journaux et les métriques, y compris les détails des performances (par exemple, l'utilisation du processeur et de la mémoire) et les métadonnées similaires pour les composants système fournis par Google. Ceux-ci incluent toutes les charges de travail du cluster d'administrateur et, pour les clusters d'utilisateur, les charges de travail dans les espaces de noms kube-system, gke-system, gke-connect, istio-system et config-management-system. Vous pouvez configurer ou désactiver les agents comme décrit dans les sections suivantes.

Le champ d'application des journaux et des métriques collectés peut être étendu à des applications spécifiques. Pour savoir comment activer la journalisation et la surveillance des applications, consultez la section Activer Logging et Monitoring pour les applications utilisateur.

Métriques optimisées (métriques par défaut)

Par défaut, les agents de métriques exécutés dans le cluster collectent et transmettent à Google Cloud Observability (anciennement Stackdriver) un ensemble optimisé de métriques de conteneurs, de kubelets et d'état Kube.

Moins de ressources sont nécessaires pour collecter cet ensemble optimisé de métriques, ce qui améliore les performances globales et l'évolutivité. Ceci est particulièrement important pour les métriques au niveau du conteneur et de Kube, en raison du grand nombre d'objets à surveiller.

Métriques de conteneur exclues

Les métriques de conteneur suivantes sont exclues des métriques optimisées :

container_cpu_cfs_periods_total
container_cpu_cfs_throttled_periods_total
container_cpu_load_average_10s
container_cpu_system_seconds_total
container_cpu_user_seconds_total
container_fs_io_current
container_fs_io_time_seconds_total
container_fs_io_time_weighted_seconds_total
container_fs_read_seconds_total
container_fs_reads_bytes_total
container_fs_reads_merged_total
container_fs_reads_total
container_fs_sector_reads_total
container_fs_sector_writes_total
container_fs_write_seconds_total
container_fs_writes_bytes_total
container_fs_writes_merged_total
container_fs_writes_total
container_last_seen
container_memory_cache
container_memory_failcnt
container_memory_mapped_file
container_memory_max_usage_bytes
container_memory_swap
container_network_receive_packets_dropped_total
container_network_receive_packets_total
container_network_transmit_packets_dropped_total
container_network_transmit_packets_total
container_start_time_seconds
container_spec_cpu_period
container_spec_cpu_quota
container_spec_cpu_shares
container_spec_memory_limit_bytes
container_spec_memory_reservation_limit_bytes
container_spec_memory_swap_limit_bytes
container_start_time_seconds
container_tasks_state

L'ensemble complet des métriques Google Distributed Cloud est documenté dans Métriques Google Distributed Cloud.

Métriques kubelet exclues

Les métriques kubelet suivantes sont exclues des métriques optimisées :

kubelet_runtime_operations_duration_seconds
kubelet_runtime_operations_errors
kubelet_runtime_operations_duration_seconds
kubelet_runtime_operations_latency_microseconds
kubelet_runtime_operations_latency_microseconds_count
kubelet_runtime_operations_latency_microseconds_sum
rest_client_request_duration_seconds
rest_client_request_latency_seconds

L'ensemble complet des métriques Google Distributed Cloud est documenté dans Métriques Google Distributed Cloud.

Métriques kube-state-metrics exclues

Les métriques kube-state-metrics suivantes sont exclues des métriques optimisées :

kube_certificatesigningrequest_cert_length
kube_certificatesigningrequest_condition
kube_certificatesigningrequest_created
kube_certificatesigningrequest_labels
kube_configmap_annotations
kube_configmap_info
kube_configmap_labels
kube_configmap_metadata_resource_version
kube_daemonset_annotations
kube_daemonset_created
kube_daemonset_labels
kube_daemonset_metadata_generation
kube_daemonset_status_observed_generation
kube_deployment_annotations
kube_deployment_created
kube_deployment_labels
kube_deployment_spec_paused
kube_deployment_spec_strategy_rollingupdate_max_surge
kube_deployment_spec_strategy_rollingupdate_max_unavailable
kube_deployment_status_condition
kube_deployment_status_replicas_ready
kube_endpoint_annotations
kube_endpoint_created
kube_endpoint_info
kube_endpoint_labels
kube_endpoint_ports
kube_horizontalpodautoscaler_annotations
kube_horizontalpodautoscaler_info
kube_horizontalpodautoscaler_labels
kube_horizontalpodautoscaler_metadata_generation
kube_horizontalpodautoscaler_status_condition
kube_job_annotations
kube_job_complete
kube_job_created
kube_job_info
kube_job_labels
kube_job_owner
kube_job_spec_completions
kube_job_spec_parallelism
kube_job_status_completion_time
kube_job_status_start_time
kube_job_status_succeeded
kube_lease_owner
kube_lease_renew_time
kube_limitrange
kube_limitrange_created
kube_mutatingwebhookconfiguration_info
kube_namespace_labels
kube_networkpolicy_annotations
kube_networkpolicy_labels
kube_networkpolicy_spec_egress_rules
kube_networkpolicy_spec_ingress_rules
kube_node_annotations
kube_node_role
kube_persistentvolume_annotations
kube_persistentvolume_labels
kube_persistentvolumeclaim_access_mode
kube_persistentvolumeclaim_annotations
kube_persistentvolumeclaim_labels
kube_pod_annotations
kube_pod_completion_time
kube_pod_container_resource_limits
kube_pod_container_resource_requests
kube_pod_container_state_started
kube_pod_created
kube_pod_init_container_info
kube_pod_init_container_resource_limits
kube_pod_init_container_resource_requests
kube_pod_init_container_status_last_terminated_reason
kube_pod_init_container_status_ready
kube_pod_init_container_status_restarts_total
kube_pod_init_container_status_running
kube_pod_init_container_status_terminated
kube_pod_init_container_status_terminated_reason
kube_pod_init_container_status_waiting
kube_pod_init_container_status_waiting_reason
kube_pod_labels
kube_pod_owner
kube_pod_restart_policy
kube_pod_spec_volumes_persistentvolumeclaims_readonly
kube_pod_start_time
kube_poddisruptionbudget_annotations
kube_poddisruptionbudget_created
kube_poddisruptionbudget_labels
kube_poddisruptionbudget_status_expected_pods
kube_poddisruptionbudget_status_observed_generation
kube_poddisruptionbudget_status_pod_disruptions_allowed
kube_replicaset_annotations
kube_replicaset_created
kube_replicaset_labels
kube_replicaset_metadata_generation
kube_replicaset_owner
kube_replicaset_status_observed_generation
kube_resourcequota_created
kube_secret_annotations
kube_secret_info
kube_secret_labels
kube_secret_metadata_resource_version
kube_secret_type
kube_service_annotations
kube_service_created
kube_service_info
kube_service_labels
kube_service_spec_type
kube_statefulset_annotations
kube_statefulset_created
kube_statefulset_labels
kube_statefulset_status_current_revision
kube_statefulset_status_update_revision
kube_storageclass_annotations
kube_storageclass_created
kube_storageclass_info
kube_storageclass_labels
kube_validatingwebhookconfiguration_info
kube_validatingwebhookconfiguration_metadata_resource_version
kube_volumeattachment_created
kube_volumeattachment_info
kube_volumeattachment_labels
kube_volumeattachment_spec_source_persistentvolume
kube_volumeattachment_status_attached
kube_volumeattachment_status_attachment_metadata

L'ensemble complet des métriques Google Distributed Cloud est documenté dans Métriques Google Distributed Cloud.

Pour désactiver les métriques kube-state-metrics optimisées (non recommandé), définissez le champ optimizedMetrics sur false dans votre ressource personnalisée Stackdriver. Pour en savoir plus sur la modification de votre ressource personnalisée Stackdriver, consultez la section Configurer les ressources des composants Stackdriver. Toutes les métriques Google Distributed Cloud, y compris celles exclues par défaut, sont décrites dans la section Métriques Google Distributed Cloud.

Activer et désactiver Stackdriver

Vous pouvez activer ou désactiver les agents de journalisation et de surveillance entièrement en activant ou en désactivant la ressource personnalisée Stackdriver. Cette fonctionnalité est disponible en version d'évaluation.

Avant de désactiver les agents Logging et Monitoring, consultez la page d'assistance pour en savoir plus sur les conséquences que cela peut avoir sur les contrats de niveau de service de l'assistance Google Cloud .

Les agents Logging et Monitoring capturent les données stockées localement, suivant votre configuration de stockage et de conservation. Les données sont répliquées dans le projet Google Cloudspécifié lors de l'installation, à l'aide d'un compte de service autorisé à écrire des données dans ce projet. Vous pouvez désactiver ces agents à tout moment, comme décrit précédemment.

Vous pouvez également gérer et supprimer les données que les agents Logging et Monitoring ont envoyées à Cloud Logging et Cloud Monitoring. Pour en savoir plus, consultez la documentation Cloud Monitoring.

Configuration requise pour Logging et Monitoring

Pour afficher les données Cloud Logging et Cloud Monitoring, vous devez configurer le projet Google Cloud qui stocke les journaux et les métriques à afficher. Ce projet Google Cloud est appelé projet de journalisation et de surveillance.

Activez les API suivantes dans votre projet de journalisation et de surveillance :
Attribuez les rôles IAM suivants au compte de service logging-monitoring sur votre projet correspondant.
- logging.logWriter
- monitoring.metricWriter
- stackdriver.resourceMetadata.writer
- monitoring.dashboardEditor
- opsconfigmonitoring.resourceMetadata.writer

Balises de journaux

De nombreux journaux Google Distributed Cloud sont associés au tag F :

logtag: "F"

Ce tag signifie que l'entrée de journal est complète ou entière. Pour en savoir plus sur ce tag, consultez Format du journal dans les propositions de conception Kubernetes sur GitHub.

Étapes suivantes

Utiliser la journalisation et la surveillance