Diagnosticar problemas de clústeres

La función de comprobación del estado monitoriza periódicamente el estado del plano de control del clúster y de varios componentes críticos, y te ayuda a detectar y diagnosticar posibles problemas en tus clústeres.

Si necesitas más ayuda, ponte en contacto con el servicio de atención al cliente de Cloud.

Problemas detectados

El comprobador de estado del clúster detecta los siguientes problemas en un clúster y te avisa de ellos:

  • Estado kube-scheduler de los nodos del plano de control: si el estado kube-scheduler no es bueno, significa que el clúster tiene problemas para asignar pods a los nodos. Para investigar más a fondo, puedes examinar el kube-schedulerregistro de Pod

  • Estado kube-controller-manager de los nodos del plano de control: kube-controller-managermonitoriza varios controladores, como los controladores ReplicaSet, Deployment y Namespace, entre otros. Si el kube-controller-manager se considera no saludable, significa que es posible que uno o varios de los controladores que gestiona no funcionen correctamente. Para determinar el problema exacto, puedes examinar el registro de pods kube-controller-manager, que puede proporcionar más información sobre los controladores que no funcionan correctamente.

  • Capacidad del volumen raíz: el comprobador de estado comprueba que haya capacidad suficiente en el volumen raíz de cada nodo del plano de control. Si la capacidad disponible es inferior a 512 MB, el comprobador de estado te alertará del posible riesgo de quedarte sin espacio en el disco.

Ver eventos de comprobación del estado

Para ver las alertas del comprobador de estado de un clúster específico, ejecuta el siguiente comando:

gcloud container aws clusters describe CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION

Haz los cambios siguientes:

  • CLUSTER_NAME: el nombre de tu clúster
  • GOOGLE_CLOUD_LOCATION: el nombre de la Google Cloud ubicación que gestiona el clúster

Aquí tienes un fragmento del tipo de resultado que puedes esperar:

{
  "name": "some-cluster-name",
  "description": "test-cluster",
  ...
  "errors": [
  {
    "message": "Replica (replica-name)": kube-controller-manager is unhealthy"
  },
  {
    "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left"
  }
  ]
  ...
}

En este ejemplo, el mensaje de error indica que un componente kube-controller-manager no está en buen estado y que la capacidad del volumen raíz de un nodo del plano de control está disminuyendo.

Siguientes pasos

Si necesitas más ayuda, ponte en contacto con el servicio de atención al cliente de Cloud.