Diagnosticar problemas de cluster

O recurso de verificação de integridade monitora regularmente a integridade do plano de controle do cluster e de vários componentes críticos e ajuda a detectar e diagnosticar possíveis problemas com seus clusters.

Se precisar de assistência adicional, entre em contato com o Atendimento ao Cliente da Cloud .

Problemas detectados

O verificador de integridade do cluster detecta e alerta você sobre os seguintes problemas em um cluster:

  • Integridade kube-scheduler nos nós do plano de controle : se o kube-scheduler não estiver íntegro, isso sugere que o cluster está com problemas para atribuir pods aos nós. Para investigar mais a fundo, você pode examinar o log de pods kube-scheduler .

  • Integridade kube-controller-manager nos nós do plano de controle : O kube-controller-manager monitora vários controladores, como os controladores ReplicaSet, Deployment e Namespace, entre outros. Se o kube-controller-manager for considerado iníquo, isso sugere que um ou mais controladores que ele gerencia podem não estar funcionando corretamente. Para determinar o problema exato, você pode examinar o log do pod kube-controller-manager , que pode fornecer mais informações sobre o(s) controlador(es) com defeito.

  • Capacidade do volume raiz : O verificador de integridade verifica se há capacidade suficiente no volume raiz de cada nó do plano de controle. Se a capacidade disponível for inferior a 512 MB, o verificador de integridade alerta sobre o risco potencial de falta de espaço em disco.

Ver eventos de verificação de saúde

Para visualizar alertas do verificador de integridade de um cluster específico, execute o seguinte comando:

gcloud container aws clusters describe CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION

Substitua o seguinte:

  • CLUSTER_NAME : nome do seu cluster
  • GOOGLE_CLOUD_LOCATION : o nome do Google Cloudlocal que gerencia o cluster

Aqui está um trecho do tipo de saída que você pode esperar:

{
  "name": "some-cluster-name",
  "description": "test-cluster",
  ...
  "errors": [
  {
    "message": "Replica (replica-name)": kube-controller-manager is unhealthy"
  },
  {
    "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left"
  }
  ]
  ...
}

Neste exemplo, a mensagem de erro indica que um componente kube-controller-manager não está íntegro e que a capacidade no volume raiz de um nó do plano de controle está ficando baixa.

O que vem a seguir

Se precisar de assistência adicional, entre em contato com o Atendimento ao Cliente da Cloud .