Observabilidade se refere ao monitoramento, geração de registros, alertas e outras informações de rastreamento do sistema para visualizar o status e a integridade da infraestrutura e dos serviços. Os componentes de observabilidade do appliance isolado do Google Distributed Cloud (GDC) coletam registros e métricas que ficam visíveis nos painéis do Grafana e que podem ser consultados para identificar problemas operacionais.
Os administradores da plataforma podem usar a plataforma de observabilidade para monitorar clusters de sistema e de usuários e visualizar registros e métricas na interface do usuário (UI) do Grafana. Os operadores de aplicativos podem coletar dados operacionais e de monitoramento na forma de registros, métricas e eventos para os aplicativos deles.
A plataforma de observabilidade implanta os componentes da pilha nos clusters de administrador e de usuário. A instância do Grafana para administradores da plataforma inclui métricas no nível da organização, como utilização da CPU e consumo de armazenamento, além de alertas, registros e métricas dos componentes operacionais de clusters de administrador, sistema e usuário no GDC.
A instância do Grafana para operadores de aplicativos não inclui painéis ou registros padrão para seu projeto. Os painéis criados ficam visíveis apenas quando você ativa a coleta de métricas para seu projeto.
Componentes da plataforma
As pilhas de monitoramento e geração de registros do GDC incluem serviços de código aberto como parte da plataforma de observabilidade. Esses serviços coletam registros de pods do Kubernetes, máquinas bare metal, switches de rede e dispositivos de armazenamento.
Confira detalhes sobre cada componente de observabilidade na tabela a seguir.
Componente | Tipo | Cluster | Descrição |
---|---|---|---|
anthos-prometheus-k8s |
StatefulSet | Somente do sistema | Prometheus (https://prometheus.io/docs/introduction/overview ): Um banco de dados de série temporal para coletar e armazenar métricas e avaliar alertas. Ele adiciona rótulos como pares de chave-valor e coleta métricas de nós do Kubernetes, pods, máquinas bare metal, switches de rede e dispositivos de armazenamento. O banco de dados armazena métricas do cluster de usuário no mesmo cluster e agrega métricas de todos os clusters no cluster de administrador. |
grafana |
StatefulSet | Somente sistema | Grafana (https://grafana.com/docs/grafana/latest/): Uma interface do usuário para visualizar painéis de métricas e alertas. Confira as métricas coletadas pelo Prometheus e consulte os registros do Loki. Ele permite que os usuários visualizem painéis de métricas e alertas. |
alertmanager |
StatefulSet | Somente sistema | Alertmanager (https://prometheus.io/docs/alerting/latest/alertmanager/): Um gerenciador definido pelo usuário que envia alertas quando os registros ou as métricas indicam que os componentes do sistema estão falhando ou não estão operando normalmente. Ele gerencia o roteamento, o silenciamento e a agregação de alertas do Prometheus. |
loki |
StatefulSet | Somente sistema | Loki (https://grafana.com/docs/loki/latest/): um banco de dados de séries temporais para armazenar registros de vários componentes e agregar registros de todos os clusters. |
audit-logs-loki |
StatefulSet | Somente sistema | Loki: Uma instância secundária para coletar registros de longo prazo necessários para fins de auditoria. Ele agrega registros de todos os clusters. |
anthos-log-forwarder |
DaemonSet | Todos os clusters | Fluent Bit (https://docs.fluentbit.io/manual): Um processador que extrai registros de vários componentes e os injeta no Loki. Ele coleta registros de vários locais e os processa e encaminha. Ele é executado em todos os nós de todos os clusters. |
anthos-audit-logs-forwarder |
DaemonSet | Todos os clusters | Fluent Bit: Uma instância secundária para carregar registros de longa duração para fins de auditoria. |
audit-log-failure-detector |
DaemonSet | Todos os clusters | Um componente do GDC que detecta e informa falhas na coleta de registro de auditoria. Ele é executado em todos os nós de todos os clusters. |
logmon-operator |
Implantação | Todos os clusters | O operador Logmon do GDC que implanta componentes da pilha de observabilidade. |
O GDC também usa recursos personalizados que o GKE Enterprise desenvolveu para configurar a geração de registros e o monitoramento. Com esses recursos personalizados, é possível configurar destinos de extração e regras de alerta do Prometheus, configurações do Alertmanager, painéis do Grafana e destinos de extração de registros.