Visão geral da observabilidade

Observabilidade se refere ao monitoramento, geração de registros, alertas e outras informações de rastreamento do sistema para visualizar o status e a integridade da infraestrutura e dos serviços. Os componentes de observabilidade do appliance isolado do Google Distributed Cloud (GDC) coletam registros e métricas que ficam visíveis nos painéis do Grafana e que podem ser consultados para identificar problemas operacionais.

Os administradores da plataforma podem usar a plataforma de observabilidade para monitorar clusters de sistema e de usuários e visualizar registros e métricas na interface do usuário (UI) do Grafana. Os operadores de aplicativos podem coletar dados operacionais e de monitoramento na forma de registros, métricas e eventos para os aplicativos deles.

A plataforma de observabilidade implanta os componentes da pilha nos clusters de administrador e de usuário. A instância do Grafana para administradores da plataforma inclui métricas no nível da organização, como utilização da CPU e consumo de armazenamento, além de alertas, registros e métricas dos componentes operacionais de clusters de administrador, sistema e usuário no GDC.

A instância do Grafana para operadores de aplicativos não inclui painéis ou registros padrão para seu projeto. Os painéis criados ficam visíveis apenas quando você ativa a coleta de métricas para seu projeto.

Componentes da plataforma

As pilhas de monitoramento e geração de registros do GDC incluem serviços de código aberto como parte da plataforma de observabilidade. Esses serviços coletam registros de pods do Kubernetes, máquinas bare metal, switches de rede e dispositivos de armazenamento.

Confira detalhes sobre cada componente de observabilidade na tabela a seguir.

Componente Tipo Cluster Descrição
anthos-prometheus-k8s StatefulSet Somente do sistema Prometheus (https://prometheus.io/docs/introduction/overview ):
Um banco de dados de série temporal para coletar e armazenar métricas e avaliar alertas. Ele adiciona rótulos como pares de chave-valor e coleta métricas de nós do Kubernetes, pods, máquinas bare metal, switches de rede e dispositivos de armazenamento. O banco de dados armazena métricas do cluster de usuário no mesmo cluster e agrega métricas de todos os clusters no cluster de administrador.
grafana StatefulSet Somente sistema Grafana (https://grafana.com/docs/grafana/latest/):
Uma interface do usuário para visualizar painéis de métricas e alertas. Confira as métricas coletadas pelo Prometheus e consulte os registros do Loki. Ele permite que os usuários visualizem painéis de métricas e alertas.
alertmanager StatefulSet Somente sistema Alertmanager (https://prometheus.io/docs/alerting/latest/alertmanager/):
Um gerenciador definido pelo usuário que envia alertas quando os registros ou as métricas indicam que os componentes do sistema estão falhando ou não estão operando normalmente. Ele gerencia o roteamento, o silenciamento e a agregação de alertas do Prometheus.
loki StatefulSet Somente sistema Loki (https://grafana.com/docs/loki/latest/):
um banco de dados de séries temporais para armazenar registros de vários componentes e agregar registros de todos os clusters.
audit-logs-loki StatefulSet Somente sistema Loki:
Uma instância secundária para coletar registros de longo prazo necessários para fins de auditoria. Ele agrega registros de todos os clusters.
anthos-log-forwarder DaemonSet Todos os clusters Fluent Bit (https://docs.fluentbit.io/manual):
Um processador que extrai registros de vários componentes e os injeta no Loki. Ele coleta registros de vários locais e os processa e encaminha. Ele é executado em todos os nós de todos os clusters.
anthos-audit-logs-forwarder DaemonSet Todos os clusters Fluent Bit:
Uma instância secundária para carregar registros de longa duração para fins de auditoria.
audit-log-failure-detector DaemonSet Todos os clusters Um componente do GDC que detecta e informa falhas na coleta de registro de auditoria. Ele é executado em todos os nós de todos os clusters.
logmon-operator Implantação Todos os clusters O operador Logmon do GDC que implanta componentes da pilha de observabilidade.

O GDC também usa recursos personalizados que o GKE Enterprise desenvolveu para configurar a geração de registros e o monitoramento. Com esses recursos personalizados, é possível configurar destinos de extração e regras de alerta do Prometheus, configurações do Alertmanager, painéis do Grafana e destinos de extração de registros.