Se usó la API de Cloud Translation para traducir esta página.

Registro y supervisión

Google Distributed Cloud (solo software) para VMware incluye varias opciones de registro y supervisión de clústeres, incluidos los servicios administrados basados en la nube, las herramientas de código abierto y la compatibilidad validada con soluciones comerciales de terceros. En este documento, se explican estas opciones y se proporciona una orientación básica sobre cómo elegir la solución adecuada para tu entorno.

Opciones para Google Distributed Cloud

Tienes varias opciones de registro y supervisión para tu Google Distributed Cloud:

Cloud Logging y Cloud Monitoring
Google Cloud Managed Service para Prometheus (Vista previa)
Opciones de configuración validadas con soluciones de terceros

Cloud Logging y Cloud Monitoring

Google Cloud Observability (antes llamado Stackdriver) es la solución de observabilidad integrada paraGoogle Cloud. Ofrece una solución de registro completamente administrada, recopilación de métricas, supervisión, paneles y alertas. Cloud Monitoring supervisa los clústeres de Google Distributed Cloud de manera similar a como supervisa los clústeres de GKE basados en la nube.

Puedes configurar los agentes en el clúster para el alcance de la supervisión y el registro, así como el nivel de las métricas recopiladas:

El permiso de registro y supervisión se puede establecer solo en los componentes del sistema (predeterminado) o en componentes y aplicaciones del sistema.
El nivel de métricas recopiladas se puede configurar para un conjunto optimizado de métricas o métricas completas.

Consulta Configura agentes de registro y supervisión para Google Distributed Cloud en este documento para obtener más información.

Cloud Logging y Cloud Monitoring proporcionan una solución ideal para los clientes que buscan una única solución de observabilidad basada en la nube que sea potente y fácil de configurar. Recomendamos usar Logging y Monitoring cuando se ejecutan cargas de trabajo solo en Google Distributed Cloud, o en GKE y Google Distributed Cloud. En el caso de las aplicaciones con componentes en ejecución en Google Distributed Cloud y en la infraestructura local tradicional, puedes considerar otras soluciones para obtener una vista de extremo a extremo de esas aplicaciones.

Para obtener detalles sobre la arquitectura, la configuración y los datos que se replican en tu proyecto de Google Cloud de forma predeterminada para Google Distributed Cloud, consulta la sección Cómo funcionan Logging y Monitoring para Google Distributed Cloud.
Para obtener más información sobre Cloud Logging, consulta la documentación de Cloud Logging.
Consulta la documentación de Cloud Monitoring para obtener más información.

Soluciones de terceros

Google trabajó con varios proveedores de soluciones de registro y supervisión de terceros para ayudar a que sus productos funcionen bien con Google Distributed Cloud. Entre estos, se incluyen Datadog, Elastic y Splunk. En el futuro, se agregarán más proveedores validados.

Para obtener más información sobre el uso de soluciones de terceros con Google Distributed Cloud, consulta los siguientes vínculos:

Cómo funcionan el registro y la supervisión de Google Distributed Cloud

Los agentes de Logging y Monitoring están instalados y activados en cada clúster cuando creas un nuevo administrador o clúster de usuario. Los agentes recopilan datos sobre los componentes del sistema, cuyo alcance puedes configurar.

Para ver los datos recopilados en la Google Cloud consola, debes configurar el proyecto Google Cloud que almacena los registros y las métricas que deseas ver.

Los agentes de Logging y Monitoring en cada clúster incluyen lo siguiente:

Agente de métricas de GKE (gke-metrics-agent). Un DaemonSet que envía métricas a la API de Cloud Monitoring.
Servidor de reenvío de registros (stackdriver-log-forwarder). Un DaemonSet de Fluent Bit que reenvía los registros de cada máquina a Cloud Logging. El servidor de reenvío de registros almacena en búfer las entradas de registro del nodo de forma local y las reenvía por hasta cuatro horas. Si el búfer se llena o si el servidor de reenvío de registros no puede llegar a la API de Cloud Logging durante más de cuatro horas, se descartan los registros.
Agente global de métricas de GKE (gke-metrics-agent-global). Una implementación que envía métricas a la API de Cloud Monitoring.
Recopilador de metadatos (stackdriver-metadata-agent): Es una implementación que envía metadatos de recursos de Kubernetes, como pods, implementaciones o nodos, a la API de metadatos de recursos de Stackdriver. Estos datos se usan para enriquecer las consultas de métricas, ya que te permite realizar consultas por nombre de implementación, de nodo o incluso de servicio de Kubernetes.
kube-state-metrics: es una implementación que escucha el servidor de la API y genera métricas sobre los estados de los objetos.
node-exporter: un DaemonSet que genera métricas de hardware y SO.

Puedes ver todos los agentes de Deployment si ejecutas el siguiente comando:

  kubectl --kubeconfig CLUSTER_KUBECONFIG get deployments -l "managed-by=stackdriver" --all-namespaces

donde CLUSTER_KUBECONFIG es la ruta de acceso a tu archivo kubeconfig del clúster.

El resultado de este comando es similar al siguiente:

gke-metrics-agent-global                      1/1     Running   0   4h31m
stackdriver-metadata-agent-cluster-level      1/1     Running   0   4h31m

Puedes ver todos los agentes si ejecutas el siguiente comando:

  kubectl --kubeconfig CLUSTER_KUBECONFIG get daemonsets -l "managed-by=stackdriver" --all-namespaces

El resultado de este comando es similar al siguiente:

gke-metrics-agent                             1/1     Running   0   4h31m
stackdriver-log-forwarder                     1/1     Running   0   4h31m

Configura agentes de registro y supervisión para Google Distributed Cloud

Los agentes instalados con Google Distributed Cloud recopilan datos sobre los componentes del sistema, sujetos a tu configuración, con el propósito de mantener y solucionar problemas de tus clústeres.

Solo componentes del sistema (alcance predeterminado)

Durante la instalación, los agentes recopilan registros y métricas, incluidos los detalles de rendimiento (por ejemplo, el uso de la CPU y la memoria) y metadatos similares para los componentes del sistema que proporciona Google. Estos incluyen todas las cargas de trabajo en el clúster del administrador y, en el caso de los clústeres de los usuarios, las cargas de trabajo en los espacios de nombres kube-system, gke-system, gke-connect, istio-system y config-management-system. Puedes configurar o inhabilitar los agentes como se describe en las secciones siguientes.

El permiso de los registros y las métricas recopilados también se puede expandir para incluir aplicaciones. Si deseas obtener instrucciones para habilitar la supervisión y el registro de aplicaciones, consulta Habilita Logging y Monitoring para las aplicaciones de usuario.

Métricas optimizadas (métricas predeterminadas)

De forma predeterminada, los agentes de métricas que se ejecutan en el clúster recopilan y crean informes de un conjunto optimizado de métricas de contenedores, kubelet y kube-state-metrics para Google Cloud Observability (antes conocido como Stackdriver).

Se necesitan menos recursos para recopilar este conjunto optimizado de métricas, lo que mejora el rendimiento general y la escalabilidad. Esto es muy importante para las métricas a nivel de contenedor y de kube, debido a la gran cantidad de objetos que se deben supervisar.

Métricas del contenedor excluidas

Las métricas de contenedor siguientes se excluyen de las métricas optimizadas:

container_cpu_cfs_periods_total
container_cpu_cfs_throttled_periods_total
container_cpu_load_average_10s
container_cpu_system_seconds_total
container_cpu_user_seconds_total
container_fs_io_current
container_fs_io_time_seconds_total
container_fs_io_time_weighted_seconds_total
container_fs_read_seconds_total
container_fs_reads_bytes_total
container_fs_reads_merged_total
container_fs_reads_total
container_fs_sector_reads_total
container_fs_sector_writes_total
container_fs_write_seconds_total
container_fs_writes_bytes_total
container_fs_writes_merged_total
container_fs_writes_total
container_last_seen
container_memory_cache
container_memory_failcnt
container_memory_mapped_file
container_memory_max_usage_bytes
container_memory_swap
container_network_receive_packets_dropped_total
container_network_receive_packets_total
container_network_transmit_packets_dropped_total
container_network_transmit_packets_total
container_start_time_seconds
container_spec_cpu_period
container_spec_cpu_quota
container_spec_cpu_shares
container_spec_memory_limit_bytes
container_spec_memory_reservation_limit_bytes
container_spec_memory_swap_limit_bytes
container_start_time_seconds
container_tasks_state

El conjunto completo de métricas de Google Distributed Cloud se documenta en las métricas de Google Distributed Cloud.

Métricas de kubelet excluidas

Las siguientes métricas de kubelet se excluyen de las métricas optimizadas:

kubelet_runtime_operations_duration_seconds
kubelet_runtime_operations_errors
kubelet_runtime_operations_duration_seconds
kubelet_runtime_operations_latency_microseconds
kubelet_runtime_operations_latency_microseconds_count
kubelet_runtime_operations_latency_microseconds_sum
rest_client_request_duration_seconds
rest_client_request_latency_seconds

El conjunto completo de métricas de Google Distributed Cloud se documenta en las métricas de Google Distributed Cloud.

Métricas excluidas de kube-state-metrics

Las siguientes métricas de kube-state-metrics se excluyen de las métricas optimizadas:

kube_certificatesigningrequest_cert_length
kube_certificatesigningrequest_condition
kube_certificatesigningrequest_created
kube_certificatesigningrequest_labels
kube_configmap_annotations
kube_configmap_info
kube_configmap_labels
kube_configmap_metadata_resource_version
kube_daemonset_annotations
kube_daemonset_created
kube_daemonset_labels
kube_daemonset_metadata_generation
kube_daemonset_status_observed_generation
kube_deployment_annotations
kube_deployment_created
kube_deployment_labels
kube_deployment_spec_paused
kube_deployment_spec_strategy_rollingupdate_max_surge
kube_deployment_spec_strategy_rollingupdate_max_unavailable
kube_deployment_status_condition
kube_deployment_status_replicas_ready
kube_endpoint_annotations
kube_endpoint_created
kube_endpoint_info
kube_endpoint_labels
kube_endpoint_ports
kube_horizontalpodautoscaler_annotations
kube_horizontalpodautoscaler_info
kube_horizontalpodautoscaler_labels
kube_horizontalpodautoscaler_metadata_generation
kube_horizontalpodautoscaler_status_condition
kube_job_annotations
kube_job_complete
kube_job_created
kube_job_info
kube_job_labels
kube_job_owner
kube_job_spec_completions
kube_job_spec_parallelism
kube_job_status_completion_time
kube_job_status_start_time
kube_job_status_succeeded
kube_lease_owner
kube_lease_renew_time
kube_limitrange
kube_limitrange_created
kube_mutatingwebhookconfiguration_info
kube_namespace_labels
kube_networkpolicy_annotations
kube_networkpolicy_labels
kube_networkpolicy_spec_egress_rules
kube_networkpolicy_spec_ingress_rules
kube_node_annotations
kube_node_role
kube_persistentvolume_annotations
kube_persistentvolume_labels
kube_persistentvolumeclaim_access_mode
kube_persistentvolumeclaim_annotations
kube_persistentvolumeclaim_labels
kube_pod_annotations
kube_pod_completion_time
kube_pod_container_resource_limits
kube_pod_container_resource_requests
kube_pod_container_state_started
kube_pod_created
kube_pod_init_container_info
kube_pod_init_container_resource_limits
kube_pod_init_container_resource_requests
kube_pod_init_container_status_last_terminated_reason
kube_pod_init_container_status_ready
kube_pod_init_container_status_restarts_total
kube_pod_init_container_status_running
kube_pod_init_container_status_terminated
kube_pod_init_container_status_terminated_reason
kube_pod_init_container_status_waiting
kube_pod_init_container_status_waiting_reason
kube_pod_labels
kube_pod_owner
kube_pod_restart_policy
kube_pod_spec_volumes_persistentvolumeclaims_readonly
kube_pod_start_time
kube_poddisruptionbudget_annotations
kube_poddisruptionbudget_created
kube_poddisruptionbudget_labels
kube_poddisruptionbudget_status_expected_pods
kube_poddisruptionbudget_status_observed_generation
kube_poddisruptionbudget_status_pod_disruptions_allowed
kube_replicaset_annotations
kube_replicaset_created
kube_replicaset_labels
kube_replicaset_metadata_generation
kube_replicaset_owner
kube_replicaset_status_observed_generation
kube_resourcequota_created
kube_secret_annotations
kube_secret_info
kube_secret_labels
kube_secret_metadata_resource_version
kube_secret_type
kube_service_annotations
kube_service_created
kube_service_info
kube_service_labels
kube_service_spec_type
kube_statefulset_annotations
kube_statefulset_created
kube_statefulset_labels
kube_statefulset_status_current_revision
kube_statefulset_status_update_revision
kube_storageclass_annotations
kube_storageclass_created
kube_storageclass_info
kube_storageclass_labels
kube_validatingwebhookconfiguration_info
kube_validatingwebhookconfiguration_metadata_resource_version
kube_volumeattachment_created
kube_volumeattachment_info
kube_volumeattachment_labels
kube_volumeattachment_spec_source_persistentvolume
kube_volumeattachment_status_attached
kube_volumeattachment_status_attachment_metadata

El conjunto completo de métricas de Google Distributed Cloud se documenta en las métricas de Google Distributed Cloud.

Para inhabilitar las métricas optimizadas de kube-state-metrics (no recomendado), configura el campo optimizedMetrics como false en tu recurso personalizado de Stackdriver. Si deseas obtener más información sobre cómo cambiar los recursos personalizados de Stackdriver, consulta Configura los recursos del componente de Stackdriver. Todas las métricas de Google Distributed Cloud, incluidas las excluidas de forma predeterminada, se describen en Métricas de Google Distributed Cloud.

Inhabilita y habilita Stackdriver

Puedes habilitar o inhabilitar por completo los agentes de registro y supervisión si habilitas o inhabilitas el recurso personalizado de Stackdriver. Esta función está en vista previa.

Antes de inhabilitar los agentes de registro y supervisión, consulta la página de asistencia para obtener detalles sobre cómo esto afecta a los ANS de Google Cloud Support.

Los agentes de Logging y Monitoring capturan datos almacenados de forma local, que están sujetos a la configuración de almacenamiento y retención. Los datos se replican en el proyecto Google Cloudespecificado en la instalación mediante una cuenta de servicio autorizada para escribir datos en ese proyecto. Puedes inhabilitar estos agentes en cualquier momento, como se describió antes.

También puedes administrar y borrar los datos que los agentes de Logging y Monitoring enviaron a Cloud Logging y Cloud Monitoring. Para obtener más información, consulta la documentación de Cloud Monitoring.

Requisitos de configuración para Logging y Monitoring

Para ver los datos de Cloud Logging y Cloud Monitoring, debes configurar el proyecto Google Cloud que almacena los registros y las métricas que deseas ver. Este proyecto Google Cloud se denomina tu proyecto de supervisión y registro.

Habilita las siguientes API en tu proyecto de supervisión y registro:
Otorga las siguientes funciones de IAM a tu cuenta de servicio de supervisión y registro en tu proyecto de supervisión y registro.
- logging.logWriter
- monitoring.metricWriter
- stackdriver.resourceMetadata.writer
- monitoring.dashboardEditor
- opsconfigmonitoring.resourceMetadata.writer

Etiquetas de registro

Muchos registros de Google Distributed Cloud tienen una etiqueta de F:

logtag: "F"

Esta etiqueta significa que la entrada de registro está completa o llena. Para obtener más información sobre esta etiqueta, consulta Formato de registro en las propuestas de diseño de Kubernetes en GitHub.

¿Qué sigue?

Usar Logging y Monitoring