Verificação de integridade para o GKE na AWS

O recurso de verificação de integridade monitora regularmente a integridade do plano de controle do cluster e vários componentes críticos e ajuda a detectar possíveis problemas com os clusters.

Se precisar de mais ajuda, entre em contato com o Cloud Customer Care.

Problemas foram detectados

O verificador de integridade do cluster detecta e alerta você sobre os seguintes problemas em um cluster:

  • Integridade de kube-scheduler em nós do plano de controle: se kube-scheduler não estiver íntegro, isso sugere que o cluster está com problemas para atribuir pods a nós. Para investigar mais, examine o registro de pod kube-scheduler.

  • Integridade do kube-controller-manager em nós do plano de controle: o kube-controller-manager monitora vários controladores, como os ReplicaSet, Deployment e controladores de namespace, entre outros. Se o kube-controller-manager for considerado não íntegro, isso sugere que um ou mais dos controladores que ele gerencia pode não estar funcionando corretamente. Para determinar o problema preciso, é possível examinar o registro do pod kube-controller-manager, que pode fornecer mais informações sobre os controladores com falha.

  • Capacidade do volume raiz: o verificador de integridade verifica a capacidade suficiente no volume raiz de cada nó do plano de controle. Se a capacidade disponível estiver abaixo de 512 MB, o verificador de integridade alertará você sobre o risco de ficar sem espaço em disco.

Como visualizar eventos de verificação de integridade

Para ver alertas do verificador de integridade de um cluster específico, execute o seguinte comando:

gcloud container aws clusters describe CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION

Substitua:

  • CLUSTER_NAME: o nome do cluster.
  • GOOGLE_CLOUD_LOCATION: o nome do local do Google Cloud que gerencia o cluster

Veja um trecho do tipo de saída esperada:

{
  "name": "some-cluster-name",
  "description": "test-cluster",
  ...
  "errors": [
  {
    "message": "Replica (replica-name)": kube-controller-manager is unhealthy"
  },
  {
    "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left"
  }
  ]
  ...
}

Neste exemplo, a mensagem de erro indica que um componente kube-controller-manager não está íntegro e que a capacidade no volume raiz de um nó do plano de controle está ficando baixa.

A seguir

Se precisar de mais ajuda, entre em contato com o Cloud Customer Care.