En este documento se describe cómo identificar los fallos de implementación y los incidentes operativos que pueden producirse en el dispositivo aislado de Google Distributed Cloud (GDC). También se incluyen descripciones de todas las alertas que se muestran en el sistema para ayudarle a resolver problemas habituales con los componentes de registro y monitorización.
Identificar componentes de observabilidad
La plataforma Observabilidad implementa sus componentes en el espacio de nombres obs-system
del clúster de infraestructura de la organización.
La instancia de Grafana del operador de infraestructura (IO) proporciona acceso a métricas a nivel de organización para monitorizar componentes de la infraestructura, como la utilización de la CPU y el consumo de almacenamiento. También proporciona acceso a registros operativos y de auditoría. Además, proporciona acceso a las alertas, los registros y las métricas de los componentes operativos de GDC.
Las pilas de monitorización y registro de GDC usan soluciones de código abierto como parte de la plataforma Observabilidad. Estos componentes recogen registros y métricas de pods de Kubernetes, máquinas físicas, conmutadores de red, almacenamiento y servicios gestionados.
En la siguiente tabla se describen todos los componentes que integran la plataforma Observabilidad:
Componente | Descripción |
---|---|
Prometheus |
Prometheus es una base de datos de series temporales que se usa para recoger y almacenar métricas, así como para evaluar alertas. Prometheus almacena las métricas en la instancia de Cortex del clúster de infraestructura de la organización para el almacenamiento a largo plazo. Prometheus añade etiquetas como pares clave-valor y recoge métricas de nodos, pods, máquinas físicas, conmutadores de red y dispositivos de almacenamiento de Kubernetes. |
Alertmanager |
Alertmanager es un sistema de gestión definido por el usuario que envía alertas cuando los registros o las métricas indican que los componentes del sistema fallan o no funcionan con normalidad. Gestiona el enrutamiento, el silenciamiento y la agregación de alertas de Prometheus. |
Loki |
Loki es una base de datos de series temporales que almacena y agrega registros de varias fuentes. Indexa los registros para que las consultas sean eficientes. |
Grafana |
Grafana proporciona una interfaz de usuario para ver las métricas que recoge Prometheus y consultar los registros de auditoría y operativos de las instancias de Loki correspondientes. La interfaz de usuario te permite visualizar paneles de control de métricas y alertas. |
Fluent Bit |
Fluent Bit es un procesador que extrae registros de varios componentes o ubicaciones y los envía a Loki. Se ejecuta en todos los nodos de todos los clústeres. |
Identificar fallos de implementación
Si tu implementación está en funcionamiento y en buen estado, los componentes se ejecutan en el estado READY
.
Sigue estos pasos para identificar los fallos de implementación:
Confirma el estado actual de un componente:
kubectl get -n obs-system TYPE/COMPONENT
Haz los cambios siguientes:
TYPE
: el tipo de componenteCOMPONENT
: el nombre del componente
Obtendrás un resultado similar al siguiente:
NAME READY AGE COMPONENT 1/1 23h
Si el componente está en buen estado, en la columna
READY
del resultado se muestra el valorN/N
. Si la columnaREADY
no muestra ningún valor, no significa necesariamente que se haya producido un error. Es posible que el servicio necesite más tiempo para procesar la solicitud.Comprueba los pods de cada componente:
kubectl get pods -n obs-system | awk 'NR==1 | /COMPONENT/'
Sustituye
COMPONENT
por el nombre del componente.Obtendrás un resultado similar al siguiente:
NAME READY STATUS RESTARTS AGE COMPONENT 1/1 Running 0 23h
Verifica que la columna
READY
muestre el valorN/N
, que la columnaSTATUS
muestre el valorRunning
y que el número deRESTARTS
no supere el valor2
.Un número elevado de reinicios indica los siguientes síntomas:
- Los pods fallan y Kubernetes los reinicia.
- La columna
STATUS
muestra el valorCrashLoopBackoff
.
Para resolver el problema, consulta los registros de los pods.
Si un pod está en estado
PENDING
, significa que presenta uno o varios de los siguientes síntomas:- El pod está esperando a tener acceso a la red para descargar el contenedor necesario.
- Un problema de configuración impide que se inicie el pod. Por ejemplo, falta un valor
Secret
que necesita el pod. - Tu clúster de Kubernetes se ha quedado sin recursos para programar el pod, lo que ocurre si hay muchas aplicaciones ejecutándose en el clúster.
Determinar la causa de un estado
PENDING
:kubectl describe -n obs-system pod/POD_NAME
Sustituye
POD_NAME
por el nombre del pod que muestra el estadoPENDING
.El resultado muestra más detalles sobre el pod.
Ve a la sección
Events
del resultado para ver una tabla con los eventos recientes del pod y un resumen de la causa del estadoPENDING
.En el siguiente resultado se muestra una sección
Events
de ejemplo de un objetoStatefulSet
de Grafana:Events: Type Reason Age From Message ---- ------ ---- ---- ------- Normal SuccessfulCreate 13s (x3 over 12d) statefulset-controller create Pod grafana-0 in StatefulSet grafana successful
Si no hay eventos en tu pod ni en ningún otro recurso durante un periodo prolongado, verás el siguiente resultado:
Events: <none>
Comprobar que la pila de registro de observabilidad se está ejecutando
Sigue estos pasos para verificar que la pila de registro se está ejecutando:
Verifica que todas las instancias o pods de Loki tengan el sidecar de Istio insertado. Verifica que todos los pods de Fluent Bit llamados
anthos-audit-logs-forwarder-SUFFIX
yanthos-log-forwarder-SUFFIX
tengan el sidecar de Istio insertado.Comprueba que todas las instancias de Loki se estén ejecutando sin errores en el clúster de infraestructura de la organización.
Comprueba el estado de los objetos
anthos-audit-logs-forwarder
yanthos-log-forwarder
DaemonSet
para verificar que todas las instancias se ejecutan en todos los nodos sin errores.Verifica que obtienes los registros operativos de los contenedores
kube-apiserver-SUFFIX
y los registros de auditoría del servidor de la API de Kubernetes de los últimos cinco minutos en todos los clústeres. Para ello, ejecuta las siguientes consultas en la instancia de Grafana:- Registros operativos:
sum (count_over_time({service_name="apiserver"} [5m])) by (cluster, fluentbit_pod)
- Registros de auditoría:
sum (count_over_time({cluster=~".+"} [5m])) by (cluster, node)
Debes obtener valores distintos de cero para todos los nodos del plano de control del clúster de infraestructura de la organización.
- Registros operativos:
Comprobar que la pila de monitorización de Observabilidad se está ejecutando
Sigue estos pasos para verificar que la pila de monitorización se está ejecutando:
Comprueba que las instancias de Grafana se estén ejecutando en el clúster de infraestructura de la organización. Los pods
grafana-0
deben ejecutarse sin errores en los siguientes espacios de nombres:obs-system
infra-obs-obs-system
platform-obs-obs-system
Asegúrate de que todos los componentes de monitorización estén en la malla de servicios de Istio. Sigue los pasos de la sección Identificar fallos de implementación. Cada uno de los siguientes pods debe mostrar que todos los contenedores están listos en la columna
READY
. Por ejemplo, el valor3/3
significa que tres de los tres contenedores están listos. Además, los pods deben tener un contenedoristio-proxy
. Si los pods no cumplen estas condiciones, reinícialos:Nombre del pod Número de contenedores listos cortex-
2/2
cortex-etcd-0
2/2
cortex-proxy-server-
2/2
cortex-tenant-
2/2
meta-blackbox-exporter-
2/2
meta-grafana-0
3/3
meta-grafana-proxy-server-
2/2
meta-prometheus-0
4/4
cortex-alertmanager-
2/2
cortex-compactor-
2/2
cortex-distributor-
2/2
cortex-etcd-0
2/2
cortex-ingester-
2/2
cortex-querier-
2/2
cortex-query-frontend-
2/2
cortex-query-scheduler-
2/2
cortex-ruler-
2/2
cortex-store-gateway-
2/2
cortex-tenant-
2/2
grafana-proxy-server-
2/2
meta-blackbox-exporter-
2/2
meta-grafana-0
3/3
meta-grafana-proxy-server-*
2/2
meta-prometheus-0
4/4
Asegúrate de que Cortex se esté ejecutando sin errores.
Obtener registros de Observabilidad
En la siguiente tabla se incluyen los comandos que debe ejecutar para obtener los registros de cada uno de los componentes que implementa la plataforma Observability.
Componente | Comando de obtención de registros |
---|---|
grafana |
kubectl logs -n obs-system statefulset/grafana |
anthos-prometheus-k8s |
kubectl logs -n obs-system statefulset/anthos-prometheus-k8s |
alertmanager |
kubectl logs -n obs-system statefulset/alertmanager |
ops-logs-loki-io |
kubectl logs -n obs-system statefulset/ops-logs-loki-io |
ops-logs-loki-io-read |
kubectl logs -n obs-system statefulset/ops-logs-loki-io-read |
ops-logs-loki-all |
kubectl logs -n obs-system statefulset/ops-logs-loki-all |
ops-logs-loki-all-read |
kubectl logs -n obs-system statefulset/ops-logs-loki-all-read |
audit-logs-loki-io |
kubectl logs -n obs-system statefulset/audit-logs-loki-io |
audit-logs-loki-io-read |
kubectl logs -n obs-system statefulset/audit-logs-loki-io-read |
audit-logs-loki-pa |
kubectl logs -n obs-system statefulset/audit-logs-loki-pa |
audit-logs-loki-pa-read |
kubectl logs -n obs-system statefulset/audit-logs-loki-pa-read |
audit-logs-loki-all |
kubectl logs -n obs-system statefulset/audit-logs-loki-all |
audit-logs-loki-all-read |
kubectl logs -n obs-system statefulset/audit-logs-loki-all-read |
anthos-log-forwarder |
kubectl logs -n obs-system daemonset/anthos-log-forwarder |
anthos-audit-logs-forwarder |
kubectl logs -n obs-system daemonset/anthos-audit-logs-forwarder |
oplogs-forwarder |
kubectl logs -n obs-system daemonset/oplogs-forwarder |
logmon-operator |
kubectl logs -n obs-system deployment/logmon-operator |
Para ver los registros de la instancia anterior de un componente, añade la marca -p
al final de cada comando. Si añades la marca -p
, podrás revisar los registros de una instancia anterior que haya fallado en lugar de la instancia en ejecución actual.
Ver la configuración
La pila de observabilidad usa recursos personalizados de la API de Kubernetes para configurar las canalizaciones de monitorización y registro.
El recurso personalizado LoggingPipeline
se implementa en el clúster de infraestructura de la organización y configura instancias de Loki.
Los siguientes comandos muestran las acciones disponibles que puedes realizar en la canalización de registro:
Consulta la configuración actual de la implementación de tu canalización de registro:
kubectl get loggingpipeline -n obs-system default -o yaml
Cambia la configuración de la implementación de tu flujo de registro:
kubectl edit loggingpipeline -n obs-system default
GDC usa un operador de registro y monitorización llamado logmon-operator
para gestionar el despliegue de componentes de observabilidad, como Prometheus y Fluent Bit. La API del componente logmon-operator
es la definición de recurso personalizado logmon
. La definición de recurso personalizado logmon
indica a logmon-operator
cómo configurar la observabilidad de tu implementación. Esta definición de recurso personalizado incluye las propiedades de los volúmenes para almacenar tus métricas, las reglas de alerta de Alertmanager, las configuraciones de Prometheus para recoger métricas y las configuraciones de Grafana para los paneles de control.
Los siguientes comandos muestran las acciones disponibles que puedes realizar en la definición de recurso personalizado logmon
:
Consulta la configuración actual de tu implementación de Observabilidad:
kubectl get logmon -n obs-system logmon-default -o yaml
Cambia la configuración de tu implementación de Observabilidad:
kubectl edit logmon -n obs-system logmon-default
La salida de la ejecución de cualquiera de los comandos puede hacer referencia a varios objetos de Kubernetes ConfigMap
para realizar más configuraciones. Por ejemplo, puede configurar reglas de Alertmanager en un objeto ConfigMap
independiente, al que se hace referencia en la definición de recurso personalizado logmon
por su nombre. Puedes cambiar y ver la configuración de Alertmanager a través de la logmon
definición de recurso personalizado llamada gpc-alertmanager-config
.
Para ver la configuración de Alertmanager, ejecuta el siguiente comando:
kubectl get configmap -n obs-system gpc-alertmanager-config -o yaml
Problemas más comunes
En esta sección se describen los problemas habituales que pueden surgir al implementar la plataforma de observabilidad.
No puedes acceder a Grafana
De forma predeterminada, Grafana no se expone a máquinas externas a tu clúster de Kubernetes. Para acceder temporalmente a la interfaz de Grafana desde fuera del clúster de infraestructura de la organización, puedes reenviar el puerto Service
a localhost. Para reenviar el puerto de la
Service
, ejecuta el siguiente comando:
kubectl port-forward -n gpc-system service/grafana 33000\:3000
En tu navegador web, ve a http://localhost:33000
para ver el panel de Grafana de tu implementación. Para finalizar el proceso, pulsa las teclas Control + C.
Grafana funciona lentamente
Si Grafana funciona con lentitud, puede deberse a lo siguiente:
- Las consultas a Prometheus o Loki devuelven una cantidad excesiva de datos.
- Las consultas devuelven más datos de los que se pueden mostrar en un solo gráfico.
Para solucionar los problemas de velocidad en Grafana, comprueba las consultas de tus paneles de control personalizados de Grafana. Si las consultas devuelven más datos de los que es razonable mostrar en un solo gráfico, considera la posibilidad de reducir la cantidad de datos mostrados para mejorar el rendimiento del panel de control.
El panel de Grafana no muestra métricas ni registros
Si Grafana no muestra métricas ni registros, puede deberse a los siguientes motivos:
- Las fuentes de datos de Grafana no están configuradas correctamente.
- El sistema tiene problemas de conectividad con las fuentes de datos de monitorización o de registro.
- El sistema no está recogiendo métricas ni registros.
Para ver los registros y las métricas, sigue estos pasos:
- En la interfaz de usuario de Grafana, haz clic en Configuración del panel de control.
- Seleccione Fuentes de datos.
- En la página Fuentes de datos, comprueba que aparecen las siguientes fuentes:
Nombre | Organización | URL |
---|---|---|
Audit Logs |
All |
http://audit-logs-loki-io-read.obs-system.svc:3100 |
Operational Logs |
Root |
http://ops-logs-loki-io-read.obs-system.svc:3100 |
Operational Logs |
Org |
http://ops-logs-loki-all-read.obs-system.svc:3100 |
prometheus |
http://anthos-prometheus-k8s.obs-system.svc:9090 |
Si faltan estas fuentes de datos, significa que la pila de observabilidad no ha podido configurar Grafana correctamente.
Si has configurado las fuentes de datos correctamente, pero no se muestran datos, puede que haya un problema con los objetos Service
que recogen métricas o registros para introducirlos en Prometheus o Loki.
A medida que Prometheus recoge métricas, sigue un modelo de extracción para consultar periódicamente tus objetos Service
en busca de métricas y almacenar los valores encontrados. Para que Prometheus descubra tus objetos Service
y pueda recopilar métricas, deben cumplirse las siguientes condiciones:
Todos los pods de los objetos
Service
se anotan con'monitoring.gke.io/scrape: "true"'
.El formato de métrica de Prometheus expone las métricas de los pods a través de HTTP. De forma predeterminada, Prometheus busca estas métricas en el endpoint
http://POD_NAME:80/metrics
. Si es necesario, puede anular el puerto, el endpoint y el esquema mediante anotaciones.
Fluent Bit recoge registros y está diseñado para ejecutarse en todos los nodos de tus clústeres de Kubernetes. Fluent Bit envía los registros a Loki para almacenarlos a largo plazo.
Si no hay registros en Grafana, prueba estas soluciones alternativas:
Consulta los registros de las instancias de Loki para asegurarte de que se ejecutan sin errores.
Si las instancias de Loki se están ejecutando correctamente, pero los registros no aparecen, consulta los registros de Fluent Bit para asegurarte de que el servicio funciona según lo esperado. Para consultar cómo extraer registros, consulta Recuperar registros de observabilidad.
Alertmanager no abre alertas
Si Alertmanager no puede abrir alertas, sigue estos pasos:
- En el objeto
configMap
del espacio de nombresgpc-system
, comprueba que existe la etiquetalogmon: system_metrics
. - Comprueba que la sección de datos
configMap
incluya una clave llamadaalertmanager.yml
. El valor de la clavealertmanager.yml
debe ser el de las reglas de alerta que se incluyan en tu archivo de configuración de Alertmanager válido. Asegúrate de que la definición de recurso personalizado
logmon
llamadalogmon-default
en el espacio de nombresgpc-system
contenga una referencia al objetoconfigMap
. La definición de recurso personalizadologmon-default
debe contener el nombre del objetoconfigMap
, tal como se muestra en el siguiente ejemplo:apiVersion: addons.gke.io/v1 kind: Logmon spec: system_metrics: outputs: default_prometheus: deployment: components: alertmanager: alertmanagerConfigurationConfigmaps: - alerts-config
El valor
alerts-config
del ejemplo es el nombre de tu objetoconfigMap
.
Alertmanager no envía alertas a los canales de notificación configurados
Es posible que un error de configuración te impida recibir notificaciones en el software externo que hayas configurado como canal de notificaciones (por ejemplo, Slack), aunque Alertmanager genere alertas en la instancia de Grafana.
Para recibir alertas en tu software externo, sigue estos pasos:
Comprueba que los valores del archivo de configuración de Alertmanager tengan el formato correcto. Cuando Alertmanager activa una alerta, consulta un webhook en el software externo.
Asegúrate de que las URLs de webhook que se conectan al software externo sean correctas. Si las URLs son correctas, asegúrate de que el software esté configurado para aceptar webhooks. Es posible que tengas que generar una clave de API para acceder a la API del servicio externo o que tu clave de API actual haya caducado y tengas que actualizarla.
Si el servicio externo está fuera de tu implementación del dispositivo aislado por aire de GDC, asegúrate de que el clúster de infraestructura de tu organización tenga configuradas las reglas de salida. Esta configuración permite que Alertmanager envíe solicitudes a un servicio fuera de la red interna de Kubernetes. Si no se verifican las reglas de salida, es posible que Alertmanager no pueda encontrar el software externo.
No puedes ver las métricas de tu carga de trabajo con ámbito de proyecto
Sigue estos pasos para aplicar una solución alternativa y obtener métricas de tu carga de trabajo:
- Asegúrate de que el recurso personalizado
MonitoringTarget
tenga el estadoReady
. - Para raspar tu carga de trabajo, debes declarar toda la información de destino especificada en
MonitoringTarget
en la especificación del pod de cargas de trabajo. Por ejemplo, si declaras que las métricas están disponibles en el puerto8080
, el pod de la carga de trabajo debe declarar a Kubernetes que el puerto8080
está abierto. De lo contrario, Prometheus ignora la carga de trabajo. - Prometheus ejecuta varios fragmentos, lo que significa que no se espera que todos los pods de Prometheus raspen tu pod. Puede identificar el número de fragmento en el nombre de cada pod de Prometheus. Por ejemplo,
primary-prometheus-shard0-replica0-0
forma parte del fragmento0
. Comprueba el pod del que quieras obtener datos de cada fragmento de Prometheus:- Redirige el puerto del pod
primary-prometheus-shardSHARD_NUMBER-replica0-0
de Prometheus en el espacio de nombresobs-system
para acceder a la interfaz de usuario de Prometheus. SustituyeSHARD_NUMBER
en el nombre del pod por números crecientes cada vez que compruebes un nuevo fragmento. - Ve a la interfaz de usuario de Prometheus en tu navegador web y sigue estos pasos:
- Haz clic en Estado > Objetivos.
- Asegúrate de que el pod que quieres raspar esté en la lista. Si no es así, comprueba el siguiente fragmento. Si no hay más fragmentos que comprobar, vuelve a validar que Prometheus tiene suficiente información para detectarlo.
- Verifica que el pod
primary-prometheus-shardSHARD_NUMBER-replica0-0
de Prometheus registre errores en el espacio de nombresobs-system
.
- Redirige el puerto del pod
- Verifica que los registros del pod
cortex-tenant
muestren errores en el espacio de nombresobs-system
.
No se ha creado ningún panel de control
Sigue estos pasos para aplicar una solución alternativa y averiguar por qué no se ha creado un panel de control:
- Revisa el estado del recurso personalizado
Dashboard
para ver si hay errores. El recurso personalizado debe tener el estadoReady
. - Asegúrate de que estás consultando la instancia de Grafana correcta. Por ejemplo, si has desplegado el panel de control en el espacio de nombres de tu proyecto llamado
my-namespace
, el panel de control debe estar en la instancia de Grafana en el endpointhttps://GDCH_URL/my-namespace/grafana
. - Consulta los registros de
fleet-admin-controller
en el espacio de nombresgpc-system
. Busca errores relacionados con el panel de control buscando su nombre en los registros. Si se detectan errores, significa que el archivo JSON del objetoconfigMap
tiene un formato incorrecto y debes corregirlo. - Consulta los registros de Grafana en el espacio de nombres
PROJECT_NAME-obs-system
para ver si hay errores. Los paneles de control consultan la API REST de Grafana, por lo que Grafana debe funcionar para que se pueda crear un panel de control.
Tu alerta no se abre
Sigue estos pasos para aplicar una solución alternativa y averiguar por qué no se abre una alerta:
- Asegúrate de que Cortex y Loki estén en modo de almacenamiento en contenedores. Las reglas no funcionan a menos que el backend esté respaldado por un almacenamiento de segmentos.
- Verifica que el estado de los recursos personalizados
MonitoringRule
yLoggingRule
seaReady
. - Comprueba las siguientes condiciones de alerta:
- Expresiones de PromQL y LogQL: compara todas las funciones que estés usando con la documentación sobre creación de reglas de alerta para asegurarte de que las reglas estén configuradas como quieras. Asegúrate de que las expresiones devuelvan un valor
true
ofalse
. - Duración: el campo
for
del recurso personalizado define cuánto tiempo debe cumplirse una condición. El campointerval
define la frecuencia con la que se debe evaluar la condición. Compruebe los valores de estos campos entre sí y asegúrese de que las condiciones sean lógicas.
- Expresiones de PromQL y LogQL: compara todas las funciones que estés usando con la documentación sobre creación de reglas de alerta para asegurarte de que las reglas estén configuradas como quieras. Asegúrate de que las expresiones devuelvan un valor
- Comprueba la interfaz de usuario de Grafana para ver si la alerta está abierta en la página Alerts (Alertas).
- Si Grafana muestra que la alerta está abierta, comprueba tus canales de notificación y asegúrate de que Alertmanager pueda ponerse en contacto con ellos para generar la alerta.
Los registros esperados no están disponibles
Sigue estos pasos si no ves los registros operativos de tu componente:
- Comprueba si tu componente se está ejecutando y genera registros.
- Comprueba si los registros de tus componentes se deben recoger como una función integrada. Si no es así, asegúrese de que el recurso personalizado
LoggingTarget
se ha implementado con una especificación válida y con el estadoReady
.
Sigue estos pasos si no ves registros de auditoría de tu componente:
- Si tu componente escribe registros en un archivo, asegúrate de que el archivo exista en el sistema de archivos del nodo en la ruta
/var/log/audit/SERVICE_NAME/NAMESPACE/ACCESS_LEVEL/audit.log
. - Verifica que el pod
anthos-audit-logs-forwarder-SUFFIX
del mismo nodo no tenga errores. - Si tu componente usa un endpoint de syslog para recibir registros, asegúrate de que has implementado el recurso personalizado
AuditLoggingTarget
con una especificación válida y con el estadoReady
.
Identificar reglas de alertas predefinidas
Esta sección contiene información sobre las reglas de alertas predefinidas que existen en los componentes de Observabilidad para informarle sobre los fallos del sistema.
Reglas de alerta predefinidas en Loki
En la siguiente tabla se muestran las reglas de alertas preinstaladas en Loki para los errores de registro de auditoría:
Nombre | Tipo | Descripción |
---|---|---|
FluentBitAuditLoggingWriteFailure |
Crítica | Fluent Bit no ha podido reenviar los registros de auditoría en los últimos cinco minutos. |
LokiAuditLoggingWriteFailure |
Crítica | Loki no ha podido escribir registros de auditoría en el almacenamiento backend. |
Cuando se muestra una o varias de estas alertas, significa que el sistema ha perdido al menos un registro de auditoría.
Reglas de alertas predefinidas en Prometheus
En la siguiente tabla se muestran las reglas de alerta preinstaladas en Prometheus para los componentes de Kubernetes:
Nombre | Tipo | Descripción |
---|---|---|
KubeAPIDown |
Crítica | La API de Kube ha desaparecido del descubrimiento de destinos de Prometheus durante 15 minutos. |
KubeClientErrors |
Advertencia | La proporción de errores del cliente del servidor de la API de Kubernetes ha sido superior a 0,01 durante 15 minutos. |
KubeClientErrors |
Crítica | La proporción de errores del cliente del servidor de la API de Kubernetes ha sido superior a 0,1 durante 15 minutos. |
KubePodCrashLooping |
Advertencia | El pod ha estado en un bucle de fallos durante más de 15 minutos. |
KubePodNotReady |
Advertencia | El pod lleva más de 15 minutos en un estado no preparado. |
KubePersistentVolumeFillingUp |
Crítica | Los bytes libres de un objeto PersistentVolume reclamado son inferiores a 0,03. |
KubePersistentVolumeFillingUp |
Advertencia | Los bytes libres de un objeto PersistentVolume reclamado son inferiores a 0,15. |
KubePersistentVolumeErrors |
Crítica | El volumen persistente ha estado en la fase Failed o Pending durante cinco minutos. |
KubeNodeNotReady |
Advertencia | El nodo no está listo desde hace más de 15 minutos. |
KubeNodeCPUUsageHigh |
Crítica | El uso de CPU del nodo es superior al 80%. |
KubeNodeMemoryUsageHigh |
Crítica | El uso de memoria del nodo es superior al 80%. |
NodeFilesystemSpaceFillingUp |
Advertencia | El uso del sistema de archivos del nodo es superior al 60%. |
NodeFilesystemSpaceFillingUp |
Crítica | El uso del sistema de archivos del nodo es superior al 85%. |
CertManagerCertExpirySoon |
Advertencia | Un certificado caduca en 21 días. |
CertManagerCertNotReady |
Crítica | Un certificado no está listo para servir tráfico después de 10 minutos. |
CertManagerHittingRateLimits |
Crítica | Has alcanzado un límite de frecuencia al crear o renovar certificados durante cinco minutos. |
DeploymentNotReady |
Crítica | Una implementación en el clúster de infraestructura de la organización lleva más de 15 minutos en un estado no preparado. |
StatefulSetNotReady |
Crítica | Un objeto StatefulSet del clúster de infraestructura de la organización lleva más de 15 minutos en un estado no preparado. |
AuditLogsForwarderDown |
Crítica | El anthos-audit-logs-forwarder DaemonSet ha estado inactivo durante más de 15 minutos. |
AuditLogsLokiDown |
Crítica | El audit-logs-loki StatefulSet ha estado en un estado no preparado durante más de 15 minutos. |