Usa el registro y la supervisión

En esta página, se explica cómo usar Cloud Logging y Cloud Monitoring, así como Prometheus y Grafana, para el registro y la supervisión. Para obtener un resumen de las opciones de configuración disponibles, consulta la descripción general del registro y la supervisión.

Usa Cloud Logging y Cloud Monitoring

En las próximas secciones, se explica cómo usar Logging y Monitoring con clústeres de GKE On-Prem.

Recursos supervisados

Los recursos supervisados son la forma en que Google representa recursos como clústeres, nodos, Pods y contenedores. Para obtener más información, consulta la documentación de los Tipos de recursos supervisados de Cloud Monitoring.

Para consultar los registros y las métricas, debes conocer al menos estas etiquetas de recursos:

  • project_id: Es el ID del proyecto para el proyecto asociado con el clúster de GKE On-Prem.

  • location: Es una región de Google Cloud en la que deseas almacenar registros y métricas de Monitoring. Es recomendable elegir una región cercana al centro de datos local. Proporcionaste este valor durante la instalación en el campo stackdriver.clusterlocation del archivo de configuración de GKE On-Prem.

  • cluster_name: Es el nombre del clúster que elegiste cuando creaste el clúster.

    Puedes recuperar el valor cluster_name para el clúster de administrador o de usuario si inspeccionas el recurso personalizado de Stackdriver:

      kubectl -n kube-system get stackdrivers stackdriver -o yaml | grep 'clusterName:'

Accede a los datos de registro

Puedes acceder a los registros a través del Visor de registros en Cloud Console. Por ejemplo, para acceder a los registros de un contenedor, sigue estos pasos:

  1. En Cloud Console, abre el Visor de registros del proyecto.
  2. Busca los registros para un contenedor de la siguiente manera:
    1. Haz clic en el cuadro desplegable del catálogo de registros en la parte superior izquierda y selecciona Contenedor de Kubernetes.
    2. Selecciona el nombre del clúster, el espacio de nombres y un contenedor de la jerarquía.

Crea paneles para supervisar el estado del clúster

Los clústeres de GKE On-Prem están configurados de forma predeterminada para supervisar las métricas del sistema y del contenedor. Después de crear un clúster (de administrador o usuario), se recomienda crear los siguientes paneles con Monitoring para permitir que el equipo de operaciones de GKE On-Prem supervise el estado del clúster:

En esta sección, se describe cómo crear estos paneles. Para obtener más información sobre el proceso de creación de paneles que se describe en las siguientes secciones, consulta Administra paneles mediante API.

Requisitos previos

La Cuenta de Google debe tener los siguientes permisos para crear paneles:

  • monitoring.dashboards.create
  • monitoring.dashboards.delete
  • monitoring.dashboards.update

Tendrás estos permisos si la cuenta tiene una de las siguientes funciones. Puedes verificar los permisos (en Cloud Console):

  • monitoring.dashboardEditor
  • monitoring.editor
  • editor del proyecto
  • owner del proyecto

Crea un panel de estado del plano de control

El plano de control de GKE On-Prem consta del servidor de la API, el programador, el administrador del controlador y etcd. Para supervisar el estado del plano de control, crea un panel que supervise el estado de estos componentes.

  1. Descarga la configuración del panel: control-plane-status.json

  2. Ejecuta el siguiente comando para crear un panel personalizado con el archivo de configuración:

    gcloud monitoring dashboards create --config-from-file=control-plane-status.json
  3. En Google Cloud Console, selecciona Monitoring o usa el siguiente botón:

    Ir a Monitoring

  4. Selecciona Recursos > Paneles y consulta el panel llamado Estado del plano de control local de GKE. El estado del plano de control de cada clúster de usuario se recopila de espacios de nombres separados dentro del clúster de administrador. El campo namespace_name es el nombre del clúster de usuario.

    Se establece un umbral de objetivo de nivel de servicio (SLO) de 0.999 en cada gráfico.

  5. De manera opcional, puedes crear políticas de alertas.

Crea un panel de estado de Pods

Para crear un panel que incluya la fase de cada Pod, los tiempos de reinicio y el uso de recursos de cada contenedor, sigue estos pasos.

  1. Descarga la configuración del panel: pod-status.json

  2. Ejecuta el siguiente comando para crear un panel personalizado con el archivo de configuración:

    gcloud monitoring dashboards create --config-from-file=pod-status.json
  3. En Google Cloud Console, selecciona Monitoring o usa el siguiente botón:

    Ir a Monitoring

  4. Selecciona Recursos > Paneles y consulta el panel llamado Estado de pod local de GKE.

  5. De manera opcional, puedes crear políticas de alertas.

Crear un panel de estado de nodo

Si quieres crear un panel de estado de nodo local de GKE para supervisar la condición del nodo, el uso de CPU, memoria y disco, realiza los siguientes pasos:

  1. Descarga la configuración del panel: node-status.json

  2. Ejecuta el siguiente comando para crear un panel personalizado con el archivo de configuración:

    gcloud monitoring dashboards create --config-from-file=node-status.json
  3. En Google Cloud Console, selecciona Monitoring o usa el siguiente botón:

    Ir a Monitoring

  4. Selecciona Recursos > Paneles y consulta el panel llamado Estado de nodo local de GKE.

  5. De manera opcional, puedes crear políticas de alertas.

Accede a los datos de las métricas

Puedes elegir entre más de 1,500 métricas mediante el Explorador de métricas. Para acceder al Explorador de métricas, sigue estos pasos:

  1. En Google Cloud Console, selecciona Monitoring o usa el siguiente botón:

    Ir a Monitoring

  2. Selecciona Recursos > Explorador de métricas.

Accede a los metadatos de Monitoring

Los metadatos se usan de forma indirecta a través de las métricas. Cuando filtras las métricas en el Explorador de métricas de Monitoring, verás opciones para filtrar métricas por metadata.systemLabels y metadata.userLabels. Las etiquetas del sistema son etiquetas, como el nombre del nodo y el nombre del Service de los Pods. Las etiquetas de usuario son etiquetas asignadas a los Pods en los archivos YAML de Kubernetes en la sección “metadatos” de la especificación del Pod.

Límites predeterminados de cuota de Cloud Monitoring

La supervisión de GKE On-prem tiene un límite predeterminado de 6,000 llamadas a la API por minuto para cada proyecto. Si superas este límite, es posible que no se muestren las métricas. Si necesitas un límite de supervisión más alto, solicita uno a través de Google Cloud Console.

Problema conocido: condición de error de Cloud Monitoring

(ID de problema 159761921)

En ciertas condiciones, el pod predeterminado de Cloud Monitoring, implementado de forma predeterminada en cada clúster nuevo, puede dejar de responder. Cuando se actualizan los clústeres, por ejemplo, los datos de almacenamiento se pueden dañar cuando se reinician los pods en statefulset/prometheus-stackdriver-k8s.

En particular, el pod de supervisión stackdriver-prometheus-k8s-0 puede originar un bucle cuando los datos dañados evitan que prometheus-stackdriver-sidecar escriba en el PersistentVolume de almacenamiento del clúster.

Sigue los pasos que aparecen a continuación para diagnosticar y recuperar el error de forma manual.

Diagnostica la falla de Cloud Monitoring

Cuando el pod de supervisión tenga errores, los registros registrarán lo siguiente:

{"log":"level=warn ts=2020-04-08T22:15:44.557Z caller=queue_manager.go:534 component=queue_manager msg=\"Unrecoverable error sending samples to remote storage\" err=\"rpc error: code = InvalidArgument desc = One or more TimeSeries could not be written: One or more points were written more frequently than the maximum sampling period configured for the metric.: timeSeries[0-114]; Unknown metric: kubernetes.io/anthos/scheduler_pending_pods: timeSeries[196-198]\"\n","stream":"stderr","time":"2020-04-08T22:15:44.558246866Z"}

{"log":"level=info ts=2020-04-08T22:15:44.656Z caller=queue_manager.go:229 component=queue_manager msg=\"Remote storage stopped.\"\n","stream":"stderr","time":"2020-04-08T22:15:44.656798666Z"}

{"log":"level=error ts=2020-04-08T22:15:44.663Z caller=main.go:603 err=\"corruption after 29032448 bytes: unexpected non-zero byte in padded page\"\n","stream":"stderr","time":"2020-04-08T22:15:44.663707748Z"}

{"log":"level=info ts=2020-04-08T22:15:44.663Z caller=main.go:605 msg=\"See you next time!\"\n","stream":"stderr","time":"2020-04-08T22:15:44.664000941Z"}

Recuperación del error de Cloud Monitoring

Para recuperar manualmente Cloud Monitoring, haz lo siguiente:

  1. Detén la supervisión del clúster. Reduce el operador stackdriver para evitar la conciliación de la supervisión:

    kubectl --kubeconfig /ADMIN_CLUSTER_KUBCONFIG --namespace kube-system scale deployment stackdriver-operator --replicas 0

  2. Borra las cargas de trabajo de la canalización de supervisión:

    kubectl --kubeconfig /ADMIN_CLUSTER_KUBCONFIG --namespace kube-system delete statefulset stackdriver-prometheus-k8s

  3. Borra PersistentVolumeClaims (PVC) de la canalización de supervisión:

    kubectl --kubeconfig /ADMIN_CLUSTER_KUBCONFIG --namespace kube-system delete pvc -l app=stackdriver-prometheus-k8s

  4. Reinicia la supervisión del clúster. Escale verticalmente el operador stackdriver para volver a instalar una nueva canalización de supervisión y reanude la conciliación:

    kubectl --kubeconfig /ADMIN_CLUSTER_KUBCONFIG --namespace kube-system scale deployment stackdriver-operator --replicas=1

Prometheus y Grafana

En las siguientes secciones, se explica cómo usar Prometheus y Grafana con clústeres de GKE On-Prem.

Habilita Prometheus y Grafana

A partir de la versión 1.2 de GKE On-Prem, puedes optar por habilitar o inhabilitar Prometheus y Grafana. En los clústeres de usuario nuevos, Prometheus y Grafana están inhabilitados de forma predeterminada.

  1. El clúster de usuario tiene un objeto Monitoring llamado monitoring-sample. Abre el objeto para editarlo:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] edit \
       monitoring monitoring-sample --namespace kube-system

    En el ejemplo anterior, [USER_CLUSTER_KUBECONFIG] es el archivo kubeconfig para el clúster de usuario.

  2. Para habilitar Prometheus y Grafana, establece enablePrometheus en true. Para inhabilitar Prometheus y Grafana, establece enablePrometheus en false:

    apiVersion: addons.k8s.io/v1alpha1
    kind: Monitoring
    metadata:
     labels:
       k8s-app: monitoring-operator
     name: monitoring-sample
     namespace: kube-system
    spec:
     channel: stable
     ...
     enablePrometheus: true
  3. Cierra la sesión de edición para guardar los cambios.

Problema conocido

En los clústeres de usuario, Prometheus y Grafana se inhabilitan de forma automática durante la actualización. Sin embargo, los datos y las métricas de configuración no se pierden.

Para solucionar este problema, después de la actualización, abre monitoring-sample a fin de editarlo y establece enablePrometheus en true.

Accede a las métricas de supervisión desde los paneles de Grafana

Grafana muestra las métricas recopiladas de los clústeres. Para ver estas métricas, debes acceder a los paneles de Grafana:

  1. Obtén el nombre del Pod de Grafana que se ejecuta en el espacio de nombres kube-system de un clúster de usuario:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] -n kube-system get pods

    En el ejemplo anterior, [USER_CLUSTER_KUBECONFIG] es el archivo kubeconfig del clúster de usuario.

  2. El contenedor en el Pod de Grafana escucha en el puerto TCP 3000. Reenvía un puerto local al puerto 3000 en el Pod para que puedas ver los paneles de Grafana desde un navegador web.

    Por ejemplo, supongamos que el nombre del Pod es grafana-0. Para reenviar el puerto 50000 al puerto 3000 en el Pod, ingresa este comando:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] -n kube-system port-forward grafana-0 50000:3000
  3. Desde un navegador web, ve a http://localhost:50000. Se debe cargar el panel principal de Grafana del clúster de usuario.

  4. Para acceder a otros paneles, haz clic en el menú desplegable Página principal en la esquina superior izquierda de la página.

Para ver un ejemplo del uso de Grafana, consulta Crea un panel de Grafana.

Accede a las alertas

Prometheus Alertmanager recopila alertas del servidor de Prometheus. Puedes ver estas alertas en un panel de Grafana. Para ver las alertas, debes acceder al panel:

  1. El contenedor en el Pod alertmanager-0 escucha en el puerto TCP 9093. Reenvía un puerto local al puerto 9093 en el Pod:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] port-forward \
       -n kube-system alertmanager-0 50001:9093
  2. Desde un navegador web, ve a http://localhost:50001.

Cambia la configuración de Prometheus Alertmanager

Puedes cambiar la configuración predeterminada de Prometheus Alertmanager si editas el archivo monitoring.yaml del clúster de usuario. Debes hacerlo si deseas enviar alertas a un destino específico, en lugar de mantenerlas en el panel. Puedes obtener información sobre cómo configurar Alertmanager en la documentación de Configuración de Prometheus.

Para cambiar la configuración de Alertmanager, sigue estos pasos:

  1. Realiza una copia del archivo de manifiesto monitoring.yaml del clúster de usuario:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] -n kube-system \
       get monitoring monitoring-sample -o yaml > monitoring.yaml
  2. Para configurar Alertmanager, realiza los cambios en los campos de spec.alertmanager.yml. Cuando termines, guarda el manifiesto que cambiaste.

  3. Aplica el manifiesto al clúster:

    kubectl apply --kubeconfig [USER_CLUSTER_KUBECONIFG] -f monitoring.yaml

Escala recursos de Prometheus

La configuración de supervisión predeterminada admite hasta cinco nodos. Para clústeres más grandes, puedes ajustar los recursos del servidor de Prometheus. La recomendación es de 50m núcleos de CPU y 500Mi de memoria por nodo de clúster. Asegúrate de que el clúster contenga dos nodos, cada uno con recursos suficientes para ajustarse a Prometheus. Para obtener más información, consulta Cambia el tamaño de un clúster de usuario.

Para cambiar los recursos del servidor de Prometheus, sigue estos pasos:

  1. Realiza una copia del archivo de manifiesto monitoring.yaml del clúster de usuario:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] -n kube-system get monitoring monitoring-sample -o yaml > monitoring.yaml
  2. Para anular los recursos, realiza cambios en los campos de spec.resourceOverride. Cuando termines, guarda el manifiesto que cambiaste. Ejemplo:

    spec:
      resourceOverride:
      - component: Prometheus
        resources:
          requests:
            cpu: 300m
            memory: 3000Mi
          limits:
            cpu: 300m
            memory: 3000Mi
    
  3. Aplica el manifiesto al clúster:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] apply -f monitoring.yaml

Crea un panel de Grafana

Implementaste una aplicación que expone una métrica, verificaste que la métrica se exponga y verificaste que Prometheus recopile la métrica. Ahora puedes agregar la métrica a nivel de la aplicación a un panel personalizado de Grafana.

Para crear un panel de Grafana, sigue estos pasos:

  1. Si es necesario, obtén acceso a Grafana.
  2. En el Panel principal, haz clic en el menú desplegable Página principal en la esquina superior izquierda de la página.
  3. En el menú del lado derecho, haz clic en Panel nuevo.
  4. En la sección Panel nuevo, haz clic en Grafo. Aparecerá un panel de grafo vacío.
  5. Haz clic en Título del panel y, luego, en Editar. En el panel Grafo inferior, se abrirá en la pestaña Métricas.
  6. En el menú desplegable Fuente de datos, selecciona usuario. Haz clic en Agregar consulta y, luego, ingresa foo en el campo búsqueda.
  7. Haz clic en el botón Volver al panel en la esquina superior derecha de la pantalla. Se muestra el panel.
  8. Para guardar el panel, haz clic en Guardar panel en la esquina superior derecha de la pantalla. Elige un nombre para el panel y, luego, haz clic en Guardar.

Inhabilita la supervisión en el clúster

Para inhabilitar la supervisión en el clúster, revierte los cambios realizados en el objeto monitoring-sample:

  1. Abre el objeto monitoring-sample para editarlo:

    kubectl --kubeconfig USER_CLUSTER_KUBECONFIG edit \
       monitoring monitoring-sample --namespace kube-system

    Reemplaza USER_CLUSTER_KUBECONFIG por el archivo kubeconfig del clúster de usuario.

  2. Para inhabilitar Prometheus y Grafana, establece enablePrometheus en false:

       apiVersion: addons.k8s.io/v1alpha1
       kind: Monitoring
       metadata:
         labels:
           k8s-app: monitoring-operator
         name: monitoring-sample
         namespace: kube-system
       spec:
         channel: stable
         ...
         enablePrometheus: false
    
  3. Cierra la sesión de edición para guardar los cambios.

  4. Confirma que se hayan borrado los statefulsets prometheus-0, prometheus-1 y grafana-0:

    kubectl --kubeconfig USER_CLUSTER_KUBECONFIG get pods --namespace kube-system

Ejemplo: agrega métricas a nivel de la aplicación a un panel de Grafana

En las siguientes secciones, se explica cómo agregar métricas en una aplicación. En esta sección, completarás las siguientes tareas:

  • Implementar una aplicación de ejemplo que exponga una métrica llamada foo
  • Verificar que Prometheus exponga y extraiga la métrica
  • Crear un panel de Grafana personalizado

Implementa la aplicación de ejemplo

La aplicación de ejemplo se ejecuta en un Pod único. El contenedor del Pod expone una métrica, foo, con un valor constante de 40.

Crea el siguiente manifiesto del Pod, pro-pod.yaml:

apiVersion: v1
kind: Pod
metadata:
  name: prometheus-example
  annotations:
    prometheus.io/scrape: 'true'
    prometheus.io/port: '8080'
    prometheus.io/path: '/metrics'
spec:
  containers:
  - image: k8s.gcr.io/prometheus-dummy-exporter:v0.1.0
    name: prometheus-example
    command:
    - /bin/sh
    - -c
    - ./prometheus_dummy_exporter --metric-name=foo --metric-value=40 --port=8080

Luego, aplica el manifiesto del Pod al clúster de usuario:

kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] apply -f pro-pod.yaml

Verifica que la métrica esté expuesta y recopilada

  1. El contenedor en el Pod prometheus-example escucha en el puerto TCP 8080. Reenvía un puerto local al puerto 8080 en el Pod:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] port-forward prometheus-example 50002:8080
  2. Para verificar que la aplicación exponga la métrica, ejecuta el siguiente comando:

    curl localhost:50002/metrics | grep foo
    

    El comando muestra el siguiente resultado:

    # HELP foo Custom metric
    # TYPE foo gauge
    foo 40
  3. El contenedor en el Pod prometheus-0 escucha en el puerto TCP 9090. Reenvía un puerto local al puerto 9090 en el Pod:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] port-forward prometheus-0 50003:9090
  4. Para verificar que Prometheus copie la métrica, navega a http://localhost:50003/targets, que te llevará al Pod prometheus-0 en el grupo de destino prometheus-io-pods.

  5. Para ver las métricas en Prometheus, navega a http://localhost:50003/graph. En el campo de búsqueda, ingresa foo y, luego, haz clic en Ejecutar. La página debe mostrar la métrica.