En esta página, se describe el proceso para crear reglas de alertas basadas en registros y métricas de los entornos aislados de Google Distributed Cloud (GDC) para facilitar la supervisión proactiva y una respuesta más rápida ante incidentes.
GDC te permite definir reglas de alertas basadas en las métricas o los registros de tu proyecto. Estas reglas activan alertas automáticamente cuando se cumplen condiciones específicas. Estos son los tipos de reglas de alerta que puedes definir:
- Reglas basadas en métricas: Activan alertas según los datos numéricos recopilados de tus aplicaciones o infraestructura. Por ejemplo, puedes crear una regla para activar una alerta si el uso de CPU supera el 80%. Crea reglas basadas en métricas con la consola de GDC o una definición de recurso personalizado
MonitoringRule
. - Reglas basadas en registros: Activan alertas según el análisis de los datos de registros. Estas alertas te permiten identificar eventos o patrones específicos en tus registros, como mensajes de error o actividad inusual, y responder a ellos. Crea reglas basadas en registros con la consola de GDC o una definición de recurso personalizado de
LoggingRule
.
Tanto las reglas basadas en métricas como las basadas en registros se basan en una expresión de lenguaje de consulta para definir la condición que activa una alerta. Esta expresión filtra y analiza los datos entrantes, y evalúa si se cumplen los criterios definidos.
La primera vez que se cumple una condición, la alerta pasa al estado pendiente. Si las condiciones son verdaderas durante el período que definas, la alerta pasará al estado abierta. En ese momento, el sistema envía la alerta.
Para proporcionar más contexto y facilitar la administración eficiente de las alertas, puedes agregar etiquetas y anotaciones a tus reglas de alertas:
Etiquetas: Son pares clave-valor que categorizan e identifican las alertas. Usa etiquetas para la siguiente información:
- Nivel de gravedad (error, crítico, advertencia)
- Código de alerta
- Nombre del recurso
Anotaciones: Proporcionan información adicional no identificable para enriquecer la alerta. Las anotaciones pueden incluir la siguiente información:
- Mensajes de error detallados
- Expresiones relevantes
- Vínculos a runbooks o guías de solución de problemas
Antes de comenzar
Para obtener los permisos que necesitas para administrar reglas basadas en métricas, pídele a tu administrador de IAM de la organización o a tu administrador de IAM del proyecto que te otorgue uno de los roles de recursos de MonitoringRule
asociados.
Por otro lado, para obtener los permisos que necesitas para administrar las reglas basadas en registros, pídele a tu administrador de IAM de la organización o a tu administrador de IAM del proyecto que te otorgue uno de los roles de recursos de LoggingRule
asociados.
Según el nivel de acceso y los permisos que necesites, es posible que obtengas roles de creador, editor o visualizador para estos recursos en una organización o un proyecto. Para obtener más información, consulta Prepara los permisos de IAM.
Define reglas de alertas
Puedes definir reglas de alertas en el espacio de nombres de tu proyecto con la consola de GDC (opción preferida) o las APIs de supervisión y registro para aplicar recursos personalizados.
Selecciona uno de los siguientes métodos para definir reglas de alertas basadas en métricas o registros:
Console
Crea reglas de alerta en grupos de reglas desde la consola de GDC:
- En la consola de GDC, selecciona un proyecto.
- En el menú de navegación, selecciona Operations > Alerting.
- Haz clic en la pestaña Política de alertas.
- Haz clic en Crear grupo de reglas.
Elige el tipo de regla de alerta:
- Selecciona Métricas para las reglas de alertas basadas en métricas.
- Selecciona Registros para las reglas de alertas basadas en registros.
Configura el grupo de reglas de alertas:
- En el campo Nombre del grupo de reglas de alerta, ingresa un nombre para el grupo de reglas.
- En el campo Intervalo de evaluación de reglas, ingresa la cantidad de segundos para cada intervalo.
En el campo Límite, ingresa la cantidad máxima de alertas.
En la sección Reglas de alertas, haz clic en
Agregar regla.En la ventana Crear regla de alerta, ingresa los siguientes detalles:
- Es un nombre para la regla de alerta.
Es una expresión para la regla de alerta (usa LogQL para las reglas basadas en registros y PromQL para las reglas basadas en métricas).
Es la duración en segundos antes de que una alerta pase de pendiente a abierta.
Es el nivel de gravedad, como Error o Advertencia.
Es un nombre corto para identificar el recurso relacionado.
Es un código de alerta para identificar la alerta.
URL de un runbook o información para solucionar problemas
Es un mensaje o una descripción de alerta.
Opcional: Agrega Etiquetas y Anotaciones como pares clave-valor.
Haz clic en Guardar para crear la regla.
Haz clic en Crear para crear el grupo de reglas.
El grupo de reglas aparece en la lista Grupo de reglas de alerta. Puedes agrupar más reglas de alerta dentro de este grupo de reglas.
API
Crea reglas de alertas a partir de las APIs de supervisión o de registro:
Define un recurso personalizado
MonitoringRule
(reglas basadas en métricas) oLoggingRule
(reglas basadas en registros) en un archivo YAML.La especificación completa del recurso muestra un ejemplo de reglas basadas en métricas y en registros.
Reemplaza los siguientes valores en el archivo YAML según tus necesidades:
Campo Descripción namespace
Es el espacio de nombres del proyecto. name
Es el nombre de la configuración de la regla de alerta. source
Es la fuente de registros de la regla de alerta. Las opciones válidas son operational
yaudit
. Solo se aplica a los recursos deLoggingRule
.interval
Es la duración del intervalo de evaluación de la regla en segundos. limit
Opcional. Es la cantidad máxima de alertas. Establécelo en 0
para recibir alertas ilimitadas.alertRules
Son las definiciones para crear reglas de alertas. alertRules.alert
Es el nombre de la alerta. alertRules.expr
Es una expresión de LogQL para las reglas basadas en registros o una expresión de PromQL para las reglas basadas en métricas. La expresión debe evaluarse como un valor verdadero o falso para determinar si la alerta pasa a un estado pendiente. alertRules.for
Opcional. Es la duración en segundos antes de que una alerta pase de pendiente a abierta. El valor predeterminado es 0
segundos (activación inmediata).alertRules.labels
Son pares clave-valor que se usan para categorizar e identificar la alerta. Requiere las siguientes etiquetas: severity
,code
yresource
.alertRules.annotations
Opcional. Son metadatos no identificativos de la alerta como pares clave-valor. Guarda el archivo YAML.
Aplica la configuración del recurso al servidor de la API de Management dentro del mismo espacio de nombres que tus reglas de alertas basadas en registros o métricas:
kubectl --kubeconfig KUBECONFIG_PATH apply -f ALERT_RULE_NAME.yaml
Reemplaza lo siguiente:
KUBECONFIG_PATH
: Es la ruta al archivo kubeconfig del servidor de la API de Management.ALERT_RULE_NAME
: Es el nombre del archivo de definiciónMonitoringRule
oLoggingRule
.
Especificación completa del recurso
En esta sección, se incluyen las plantillas de YAML que puedes usar para crear reglas de alertas basadas en métricas y registros aplicando recursos personalizados. Si creas alertas desde la consola de GDC, puedes omitir esta sección.
Define reglas de alerta en los siguientes recursos personalizados:
MonitoringRule
: Son reglas basadas en métricas.LoggingRule
: Reglas basadas en registros.
MonitoringRule
En el siguiente archivo YAML, se muestra una plantilla para el recurso personalizado MonitoringRule
. Para obtener más información, consulta la documentación de referencia de la API.
# Configures either an alert or a target record for precomputation.
apiVersion: monitoring.gdc.goog/v1
kind: MonitoringRule
metadata:
# Choose a namespace that matches the project namespace.
# The alert or record is produced in the same namespace.
namespace: PROJECT_NAMESPACE
name: MONITORING_RULE_NAME
spec:
# Rule evaluation interval.
interval: 60s
# Configure the limit for the number of alerts.
# A value of '0' means no limit.
# Optional.
# Default value: '0'
limit: 0
# Configure metric-based alert rules.
alertRules:
# Define an alert name.
- alert: my-metric-based-alert
# Define the PromQL expression to evaluate for this rule.
expr: rate({service_name="bob-service"} [1m])
# The duration in seconds before an alert transitions from pending to open.
# Optional.
# Default value: '0s'
for: 0s
# Define labels to add or overwrite.
# Map of key-value pairs.
# Required labels:
# severity: [error, critical, warning, info]
# code:
# resource: component/service/hardware related to the alert
# Additional labels are optional.
labels:
severity: error
code: 202
resource: AIS
another-label: another-value
# Define annotations to add.
# Map of key-value pairs.
# Optional.
# Recommended annotations:
# message: value of the Message field in the user interface.
# expression: value of the Rule field in the user interface.
# runbookurl: URL of the Actions to take field in the user interface.
annotations:
message: my-alert-message
Reemplaza lo siguiente:
PROJECT_NAMESPACE
: Es el espacio de nombres de tu proyecto.MONITORING_RULE_NAME
: Es el nombre del archivo de definición deMonitoringRule
.
LoggingRule
En el siguiente archivo YAML, se muestra una plantilla para el recurso personalizado LoggingRule
. Para obtener más información, consulta la documentación de referencia de la API.
# Configures either an alert or a target record for precomputation.
apiVersion: logging.gdc.goog/v1
kind: LoggingRule
metadata:
# Choose a namespace that matches the project namespace.
# The alert or record is produced in the same namespace.
namespace: PROJECT_NAMESPACE
name: LOGGING_RULE_NAME
spec:
# Choose the log source to base alerts on (operational or audit logs).
# Optional.
# Valid options: 'operational' and 'audit'
# Default value: 'operational'
source: operational
# Rule evaluation interval.
interval: 60s
# Configure the limit for the number of alerts.
# A value of '0' means no limit.
# Optional.
# Default value: '0'
limit: 0
# Configure log-based alert rules.
alertRules:
# Define an alert name.
- alert: my-log-based-alert
# Define the LogQL expression to evaluate for this rule.
expr: rate({service_name="bob-service"} [1m])
# The duration in seconds before an alert transitions from pending to open.
# Optional.
# Default value: '0s'
for: 0s
# Define labels to add or overwrite.
# Map of key-value pairs.
# Required labels:
# severity: [error, critical, warning, info]
# code:
# resource: component/service/hardware related to the alert
# Additional labels are optional.
labels:
severity: warning
code: 202
resource: AIS
another-label: another-value
# Define annotations to add.
# Map of key-value pairs.
# Optional.
# Recommended annotations:
# message: value of the Message field in the user interface.
# expression: value of the Rule field in the user interface.
# runbookurl: URL of the Actions to take field in the user interface.
annotations:
message: my-alert-message
Reemplaza lo siguiente:
PROJECT_NAMESPACE
: Es el espacio de nombres de tu proyecto.LOGGING_RULE_NAME
: Es el nombre del archivo de definición deLoggingRule
.