Esta página foi traduzida pela API Cloud Translation.

Visão geral da observabilidade

Observabilidade se refere ao monitoramento, geração de registros, alertas e outras informações de rastreamento do sistema para visualizar o status e a integridade da infraestrutura e dos serviços. Os componentes de observabilidade do appliance isolado do Google Distributed Cloud (GDC) coletam registros e métricas que ficam visíveis nos painéis do Grafana e que podem ser consultados para identificar problemas operacionais.

Os administradores da plataforma podem usar a plataforma de observabilidade para monitorar clusters de sistema e de usuários e visualizar registros e métricas na interface do usuário (UI) do Grafana. Os operadores de aplicativos podem coletar dados operacionais e de monitoramento na forma de registros, métricas e eventos para os aplicativos deles.

A plataforma de observabilidade implanta os componentes da pilha nos clusters de administrador e de usuário. A instância do Grafana para administradores da plataforma inclui métricas no nível da organização, como utilização da CPU e consumo de armazenamento, além de alertas, registros e métricas dos componentes operacionais de clusters de administrador, sistema e usuário no GDC.

A instância do Grafana para operadores de aplicativos não inclui painéis ou registros padrão para seu projeto. Os painéis criados ficam visíveis apenas quando você ativa a coleta de métricas para seu projeto.

Componentes da plataforma

As pilhas de monitoramento e geração de registros do GDC incluem serviços de código aberto como parte da plataforma de observabilidade. Esses serviços coletam registros de pods do Kubernetes, máquinas bare metal, switches de rede e dispositivos de armazenamento.

Confira detalhes sobre cada componente de observabilidade na tabela a seguir.

Componente	Tipo	Cluster	Descrição
`anthos-prometheus-k8s`	StatefulSet	Somente do sistema	Prometheus (https://prometheus.io/docs/introduction/overview ): Um banco de dados de série temporal para coletar e armazenar métricas e avaliar alertas. Ele adiciona rótulos como pares de chave-valor e coleta métricas de nós do Kubernetes, pods, máquinas bare metal, switches de rede e dispositivos de armazenamento. O banco de dados armazena métricas do cluster de usuário no mesmo cluster e agrega métricas de todos os clusters no cluster de administrador.
`grafana`	StatefulSet	Somente sistema	Grafana (https://grafana.com/docs/grafana/latest/): Uma interface do usuário para visualizar painéis de métricas e alertas. Confira as métricas coletadas pelo Prometheus e consulte os registros do Loki. Ele permite que os usuários visualizem painéis de métricas e alertas.
`alertmanager`	StatefulSet	Somente sistema	Alertmanager (https://prometheus.io/docs/alerting/latest/alertmanager/): Um gerenciador definido pelo usuário que envia alertas quando os registros ou as métricas indicam que os componentes do sistema estão falhando ou não estão operando normalmente. Ele gerencia o roteamento, o silenciamento e a agregação de alertas do Prometheus.
`loki`	StatefulSet	Somente sistema	Loki (https://grafana.com/docs/loki/latest/): um banco de dados de séries temporais para armazenar registros de vários componentes e agregar registros de todos os clusters.
`audit-logs-loki`	StatefulSet	Somente sistema	Loki: Uma instância secundária para coletar registros de longo prazo necessários para fins de auditoria. Ele agrega registros de todos os clusters.
`anthos-log-forwarder`	DaemonSet	Todos os clusters	Fluent Bit (https://docs.fluentbit.io/manual): Um processador que extrai registros de vários componentes e os injeta no Loki. Ele coleta registros de vários locais e os processa e encaminha. Ele é executado em todos os nós de todos os clusters.
`anthos-audit-logs-forwarder`	DaemonSet	Todos os clusters	Fluent Bit: Uma instância secundária para carregar registros de longa duração para fins de auditoria.
`audit-log-failure-detector`	DaemonSet	Todos os clusters	Um componente do GDC que detecta e informa falhas na coleta de registro de auditoria. Ele é executado em todos os nós de todos os clusters.
`logmon-operator`	Implantação	Todos os clusters	O operador `Logmon` do GDC que implanta componentes da pilha de observabilidade.

O GDC também usa recursos personalizados que o GKE Enterprise desenvolveu para configurar a geração de registros e o monitoramento. Com esses recursos personalizados, é possível configurar destinos de extração e regras de alerta do Prometheus, configurações do Alertmanager, painéis do Grafana e destinos de extração de registros.