Vista geral da observabilidade

A observabilidade refere-se à monitorização, ao registo, aos alertas e a outras informações de acompanhamento do sistema para ver o estado e o bom funcionamento da infraestrutura e dos serviços. Os componentes de observabilidade do dispositivo isolado do Google Distributed Cloud (GDC) recolhem registos e métricas que ficam visíveis nos painéis de controlo do Grafana e que pode consultar para detetar problemas operacionais.

Os administradores da plataforma podem usar a plataforma de observabilidade para monitorizar os clusters de sistemas e de utilizadores, bem como visualizar registos e métricas na interface do utilizador (IU) do Grafana. Os operadores de aplicações podem recolher dados de monitorização e operacionais sob a forma de registos, métricas e eventos para as respetivas aplicações.

A plataforma de observabilidade implementa os respetivos componentes da pilha nos clusters de administrador e de utilizador. A instância do Grafana para administradores da plataforma inclui métricas ao nível da organização, como a utilização da CPU e o consumo de armazenamento, e alertas, registos e métricas dos componentes operáveis dos clusters de administrador, do sistema e de utilizador no GDC.

A instância do Grafana para operadores de aplicações não inclui painéis de controlo nem registos predefinidos para o seu projeto. Quando cria painéis de controlo, estes só ficam visíveis quando ativa a recolha de métricas para o seu projeto.

Componentes da plataforma

As stacks de monitorização e registo da GDC incluem serviços de código aberto como parte da plataforma de observabilidade. Estes serviços recolhem registos de pods do Kubernetes, máquinas sem sistema operativo, comutadores de rede e dispositivos de armazenamento.

Reveja a tabela seguinte para ver detalhes sobre cada componente de observabilidade.

Componente Tipo Cluster Descrição
anthos-prometheus-k8s StatefulSet Apenas sistema Prometheus (https://prometheus.io/docs/introduction/overview ):
Uma base de dados de séries cronológicas para recolher e armazenar métricas e avaliar alertas. Adiciona etiquetas como pares de chave-valor e recolhe métricas de nós do Kubernetes, pods, máquinas bare metal, comutadores de rede e dispositivos de armazenamento. A base de dados armazena métricas do cluster de utilizadores no mesmo cluster e agrega métricas de todos os clusters no cluster de administrador.
grafana StatefulSet Apenas sistema Grafana (https://grafana.com/docs/grafana/latest/):
Uma interface do utilizador para visualizar painéis de controlo de métricas e alertas. Veja as métricas que o Prometheus recolhe e consulte os registos do Loki. Permite aos utilizadores visualizar painéis de controlo de métricas e alertas.
alertmanager StatefulSet Apenas sistema Alertmanager (https://prometheus.io/docs/alerting/latest/alertmanager/):
um gestor definido pelo utilizador que envia alertas quando os registos ou as métricas indicam que os componentes do sistema estão a falhar ou não estão a funcionar normalmente. Gerem o encaminhamento, o silenciamento e a agregação de alertas do Prometheus.
loki StatefulSet Apenas sistema Loki (https://grafana.com/docs/loki/latest/):
Uma base de dados de séries cronológicas para armazenar registos de vários componentes e registos agregados de todos os clusters.
audit-logs-loki StatefulSet Apenas sistema Loki:
uma instância secundária para recolher registos a longo prazo necessários para fins de auditoria. Agrega registos de todos os clusters.
anthos-log-forwarder DaemonSet Todos os clusters Fluent Bit (https://docs.fluentbit.io/manual):
um processador que extrai registos de vários componentes e os injeta no Loki. Recolhe registos de várias localizações e, em seguida, processa-os e encaminha-os. É executado em todos os nós de todos os clusters.
anthos-audit-logs-forwarder DaemonSet Todos os clusters Fluent Bit:
uma instância secundária para carregar registos de maior duração para fins de auditoria.
audit-log-failure-detector DaemonSet Todos os clusters Um componente do GDC que deteta e comunica falhas na recolha de registos de auditoria. É executado em todos os nós de todos os clusters.
logmon-operator Implementação Todos os clusters O operador GDC Logmon que implementa componentes da pilha de observabilidade.

O GDC também tira partido dos recursos personalizados que o GKE Enterprise desenvolveu para configurar o registo e a monitorização. Estes recursos personalizados permitem-lhe configurar destinos de recolha do Prometheus e regras de alerta, configurações do Alertmanager, painéis de controlo do Grafana e destinos de recolha de registos.