Información general sobre observabilidad

La observabilidad se refiere a la monitorización, el registro, las alertas y otra información de seguimiento del sistema para ver el estado y el buen funcionamiento de la infraestructura y los servicios. Los componentes de observabilidad del dispositivo air-gapped de Google Distributed Cloud (GDC) recogen registros y métricas que se muestran en los paneles de Grafana y que puedes consultar para detectar problemas operativos.

Los administradores de la plataforma pueden usar la plataforma Observabilidad para monitorizar los clústeres de sistemas y de usuarios, así como para visualizar registros y métricas en la interfaz de usuario (IU) de Grafana. Los operadores de aplicaciones pueden recoger datos de monitorización y operativos en forma de registros, métricas y eventos de sus aplicaciones.

La plataforma Observabilidad implementa sus componentes de pila en los clústeres de administrador y de usuario. La instancia de Grafana para administradores de la plataforma incluye métricas a nivel de organización, como el uso de la CPU y el consumo de almacenamiento, así como alertas, registros y métricas de los componentes operativos de los clústeres de administrador, del sistema y de usuario de GDC.

La instancia de Grafana de Application Operators no incluye ningún panel de control ni registro predeterminado para tu proyecto. Cuando creas paneles de control, solo se muestran si habilitas la recogida de métricas en tu proyecto.

Componentes de la plataforma

Las pilas de monitorización y registro de GDC incluyen servicios de código abierto como parte de la plataforma Observabilidad. Estos servicios recogen registros de pods de Kubernetes, máquinas físicas, conmutadores de red y dispositivos de almacenamiento.

Consulta la siguiente tabla para obtener información sobre cada componente de Observabilidad.

Componente Tipo Clúster Descripción
anthos-prometheus-k8s StatefulSet Solo sistema Prometheus (https://prometheus.io/docs/introduction/overview ):
una base de datos de series temporales para recoger y almacenar métricas, así como para evaluar alertas. Añade etiquetas como pares clave-valor y recoge métricas de nodos de Kubernetes, pods, máquinas físicas, conmutadores de red y dispositivos de almacenamiento. La base de datos almacena las métricas del clúster de usuarios en el mismo clúster y agrega las métricas de todos los clústeres en el clúster de administrador.
grafana StatefulSet Solo sistema Grafana (https://grafana.com/docs/grafana/latest/):
una interfaz de usuario para visualizar paneles de métricas y alertas. Consulta las métricas que recoge Prometheus y los registros de Loki. Permite a los usuarios visualizar paneles de control de métricas y alertas.
alertmanager StatefulSet Solo sistema Alertmanager (https://prometheus.io/docs/alerting/latest/alertmanager/):
Gestor definido por el usuario que envía alertas cuando los registros o las métricas indican que los componentes del sistema fallan o no funcionan con normalidad. Gestiona el enrutamiento, el silenciamiento y la agregación de alertas de Prometheus.
loki StatefulSet Solo sistema Loki (https://grafana.com/docs/loki/latest/):
una base de datos de series temporales para almacenar registros de varios componentes y agregar registros de todos los clústeres.
audit-logs-loki StatefulSet Solo sistema Loki:
una instancia secundaria para recoger registros a largo plazo necesarios para las auditorías. Agrega registros de todos los clústeres.
anthos-log-forwarder DaemonSet Todos los clústeres Fluent Bit (https://docs.fluentbit.io/manual):
un procesador que extrae registros de varios componentes y los inserta en Loki. Recoge registros de varias ubicaciones y, a continuación, los procesa y los reenvía. Se ejecuta en todos los nodos de todos los clústeres.
anthos-audit-logs-forwarder DaemonSet Todos los clústeres Fluent Bit:
una instancia secundaria para cargar registros de mayor duración con fines de auditoría.
audit-log-failure-detector DaemonSet Todos los clústeres Un componente de GDC que detecta e informa de los fallos en la recogida de registros de auditoría. Se ejecuta en todos los nodos de todos los clústeres.
logmon-operator Implementación Todos los clústeres El operador GDC Logmon que implementa componentes de la pila de observabilidad.

GDC también aprovecha los recursos personalizados que GKE Enterprise ha desarrollado para configurar el registro y la monitorización. Estos recursos personalizados le permiten configurar los objetivos de raspado y las reglas de alertas de Prometheus, las configuraciones de Alertmanager, los paneles de control de Grafana y los objetivos de raspado de registros.