La observabilidad se refiere a la supervisión, el registro, las alertas y otra información de seguimiento del sistema para ver el estado y el buen funcionamiento de la infraestructura y los servicios. Los componentes de observabilidad del dispositivo aislado de Google Distributed Cloud (GDC) recopilan registros y métricas que se hacen visibles en los paneles de Grafana y que puedes consultar para detectar problemas operativos.
Los administradores de la plataforma pueden usar la plataforma de Observabilidad para supervisar los clústeres del sistema y de los usuarios, y visualizar los registros y las métricas en la interfaz de usuario (IU) de Grafana. Los operadores de aplicaciones pueden recopilar datos operativos y de supervisión en forma de registros, métricas y eventos para sus aplicaciones.
La plataforma de Observabilidad implementa los componentes de su pila en los clústeres de administrador y de usuario. La instancia de Grafana para los administradores de la plataforma incluye métricas a nivel de la organización, como el uso de la CPU y el consumo de almacenamiento, y alertas, registros y métricas de los componentes operativos de los clústeres de administrador, sistema y usuario en GDC.
La instancia de Grafana para los operadores de aplicaciones no incluye ningún panel ni registro predeterminado para tu proyecto. Cuando creas paneles, estos solo se ven cuando habilitas la recopilación de métricas para tu proyecto.
Componentes de la plataforma
Las pilas de supervisión y registro de GDC incluyen servicios de código abierto como parte de la plataforma de Observabilidad. Estos servicios recopilan registros de pods de Kubernetes, máquinas físicas, conmutadores de red y dispositivos de almacenamiento.
Revisa la siguiente tabla para obtener detalles sobre cada componente de Observabilidad.
Componente | Tipo | Clúster | Descripción |
---|---|---|---|
anthos-prometheus-k8s |
StatefulSet | Solo el sistema | Prometheus (https://prometheus.io/docs/introduction/overview ): Es una base de datos de series temporales para recopilar y almacenar métricas, y evaluar alertas. Agrega etiquetas como pares clave-valor y recopila métricas de nodos de Kubernetes, Pods, máquinas físicas, conmutadores de red y dispositivos de almacenamiento. La base de datos almacena las métricas del clúster de usuario en el mismo clúster y agrega las métricas de todos los clústeres en el clúster de administrador. |
grafana |
StatefulSet | Solo del sistema | Grafana (https://grafana.com/docs/grafana/latest/): Es una interfaz de usuario para visualizar paneles de métricas y alertas. Visualiza las métricas que recopila Prometheus y consulta los registros de Loki. Permite a los usuarios visualizar paneles de métricas y alertas. |
alertmanager |
StatefulSet | Solo del sistema | Alertmanager (https://prometheus.io/docs/alerting/latest/alertmanager/): Es un administrador definido por el usuario que envía alertas cuando los registros o las métricas indican que los componentes del sistema fallan o no funcionan con normalidad. Administra el enrutamiento, el silenciamiento y la agregación de alertas de Prometheus. |
loki |
StatefulSet | Solo del sistema | Loki (https://grafana.com/docs/loki/latest/): Es una base de datos de series temporales para almacenar registros de varios componentes y agregar registros de todos los clústeres. |
audit-logs-loki |
StatefulSet | Solo del sistema | Loki: Es una instancia secundaria para recopilar registros a largo plazo necesarios para fines de auditoría. Agrega registros de todos los clústeres. |
anthos-log-forwarder |
DaemonSet | Todos los clústeres | Fluent Bit (https://docs.fluentbit.io/manual): Un procesador que extrae registros de varios componentes y los inserta en Loki. Recopila registros de varias ubicaciones y, luego, los procesa y reenvía. Se ejecuta en cada nodo de todos los clústeres. |
anthos-audit-logs-forwarder |
DaemonSet | Todos los clústeres | Fluent Bit: Una instancia secundaria para cargar registros de mayor duración con fines de auditoría. |
audit-log-failure-detector |
DaemonSet | Todos los clústeres | Es un componente de GDC que detecta y registra las fallas en la recopilación de registros de auditoría. Se ejecuta en cada nodo de todos los clústeres. |
logmon-operator |
Implementación | Todos los clústeres | Es el operador Logmon de GDC que implementa componentes de la pila de Observability. |
GDC también aprovecha los recursos personalizados que GKE Enterprise desarrolló para configurar el registro y la supervisión. Estos recursos personalizados te permiten configurar objetivos de recopilación y reglas de alertas de Prometheus, configuraciones de Alertmanager, paneles de Grafana y objetivos de recopilación de registros.