A observabilidade refere-se à monitorização, ao registo, aos alertas e a outras informações de acompanhamento do sistema para ver o estado e o bom funcionamento da infraestrutura e dos serviços. Os componentes de observabilidade do dispositivo isolado do Google Distributed Cloud (GDC) recolhem registos e métricas que ficam visíveis nos painéis de controlo do Grafana e que pode consultar para detetar problemas operacionais.
Os administradores da plataforma podem usar a plataforma de observabilidade para monitorizar os clusters de sistemas e de utilizadores, bem como visualizar registos e métricas na interface do utilizador (IU) do Grafana. Os operadores de aplicações podem recolher dados de monitorização e operacionais sob a forma de registos, métricas e eventos para as respetivas aplicações.
A plataforma de observabilidade implementa os respetivos componentes da pilha nos clusters de administrador e de utilizador. A instância do Grafana para administradores da plataforma inclui métricas ao nível da organização, como a utilização da CPU e o consumo de armazenamento, e alertas, registos e métricas dos componentes operáveis dos clusters de administrador, do sistema e de utilizador no GDC.
A instância do Grafana para operadores de aplicações não inclui painéis de controlo nem registos predefinidos para o seu projeto. Quando cria painéis de controlo, estes só ficam visíveis quando ativa a recolha de métricas para o seu projeto.
Componentes da plataforma
As stacks de monitorização e registo da GDC incluem serviços de código aberto como parte da plataforma de observabilidade. Estes serviços recolhem registos de pods do Kubernetes, máquinas sem sistema operativo, comutadores de rede e dispositivos de armazenamento.
Reveja a tabela seguinte para ver detalhes sobre cada componente de observabilidade.
Componente | Tipo | Cluster | Descrição |
---|---|---|---|
anthos-prometheus-k8s |
StatefulSet | Apenas sistema | Prometheus (https://prometheus.io/docs/introduction/overview ): Uma base de dados de séries cronológicas para recolher e armazenar métricas e avaliar alertas. Adiciona etiquetas como pares de chave-valor e recolhe métricas de nós do Kubernetes, pods, máquinas bare metal, comutadores de rede e dispositivos de armazenamento. A base de dados armazena métricas do cluster de utilizadores no mesmo cluster e agrega métricas de todos os clusters no cluster de administrador. |
grafana |
StatefulSet | Apenas sistema | Grafana (https://grafana.com/docs/grafana/latest/): Uma interface do utilizador para visualizar painéis de controlo de métricas e alertas. Veja as métricas que o Prometheus recolhe e consulte os registos do Loki. Permite aos utilizadores visualizar painéis de controlo de métricas e alertas. |
alertmanager |
StatefulSet | Apenas sistema | Alertmanager (https://prometheus.io/docs/alerting/latest/alertmanager/): um gestor definido pelo utilizador que envia alertas quando os registos ou as métricas indicam que os componentes do sistema estão a falhar ou não estão a funcionar normalmente. Gerem o encaminhamento, o silenciamento e a agregação de alertas do Prometheus. |
loki |
StatefulSet | Apenas sistema | Loki (https://grafana.com/docs/loki/latest/): Uma base de dados de séries cronológicas para armazenar registos de vários componentes e registos agregados de todos os clusters. |
audit-logs-loki |
StatefulSet | Apenas sistema | Loki: uma instância secundária para recolher registos a longo prazo necessários para fins de auditoria. Agrega registos de todos os clusters. |
anthos-log-forwarder |
DaemonSet | Todos os clusters | Fluent Bit (https://docs.fluentbit.io/manual): um processador que extrai registos de vários componentes e os injeta no Loki. Recolhe registos de várias localizações e, em seguida, processa-os e encaminha-os. É executado em todos os nós de todos os clusters. |
anthos-audit-logs-forwarder |
DaemonSet | Todos os clusters | Fluent Bit: uma instância secundária para carregar registos de maior duração para fins de auditoria. |
audit-log-failure-detector |
DaemonSet | Todos os clusters | Um componente do GDC que deteta e comunica falhas na recolha de registos de auditoria. É executado em todos os nós de todos os clusters. |
logmon-operator |
Implementação | Todos os clusters | O operador GDC Logmon que implementa componentes da pilha de observabilidade. |
O GDC também tira partido dos recursos personalizados que o GKE Enterprise desenvolveu para configurar o registo e a monitorização. Estes recursos personalizados permitem-lhe configurar destinos de recolha do Prometheus e regras de alerta, configurações do Alertmanager, painéis de controlo do Grafana e destinos de recolha de registos.