Si los trabajos de Google Distributed Cloud agotan el tiempo de espera y crees que no se debe a un problema subyacente con tu instalación, puedes aumentar el intervalo de tiempo de espera. En este documento se describe cómo ajustar los intervalos de tiempo de espera de los trabajos de máquinas y los trabajos por lotes mediante anotaciones en la especificación de configuración.
Tipos de trabajo y errores
Hay dos tipos de comandos y rutinas de Google Distributed Cloud: trabajos de máquina y trabajos por lotes. Hay muchos factores que pueden influir en el tiempo que tarda en completarse un trabajo, como la configuración del hardware, la configuración de la red y la configuración del clúster. Google Distributed Cloud tiene tiempos de espera predeterminados diseñados para adaptarse a las instalaciones habituales.
Estos son algunos ejemplos de mensajes de error de tiempo de espera de trabajos:
Un mensaje de error de tiempo de espera de una tarea de máquina (ajustado para mayor claridad) de un registro previo al vuelo, como
bmctl-workspace/cluster1/logs/preflight-20210501-000426/172.18.0.4
:Pod:172.18.0.4-machine-preflf3a32c8a2f7a2449545c7e8ff954c961-652st Result:Failed Reason:DeadlineExceeded Time:Wed Feb 3 16:59:56 2021
El resultado de
kubectl logs
de un pod fallido podría mostrar un mensaje similar deDeadlineExceeded
(envuelto):cluster-cluster1 172.18.0.4-machine-preflf3a32c8a2f7a2449545c7e8ff954c961-652st ● 0/1 0 DeadlineExceeded 192.168.122.180 bmctl-control-plane 7m12
Ajustar el intervalo de tiempo de espera de los trabajos de la máquina
Un trabajo de máquina es una rutina que se ejecuta solo en una máquina, como una comprobación previa que se limita a una sola máquina. Los trabajos de máquinas de Google Distributed Cloud tienen un tiempo de espera predeterminado de 900 segundos (15 minutos). Puedes ajustar el intervalo de tiempo de espera de los trabajos de la máquina con la anotación baremetal.cluster.gke.io/machine-job-deadline-seconds
en el archivo de configuración del clúster.
En el siguiente ejemplo se define el intervalo de tiempo de espera de la tarea de la máquina en 1800 segundos (30 minutos):
apiVersion: baremetal.cluster.gke.io/v1
kind: Cluster
metadata:
name: cluster1
namespace: cluster-cluster1
annotations:
baremetal.cluster.gke.io/machine-job-deadline-seconds: "1800"
spec:
...
El valor del intervalo de tiempo de espera se aplica cuando creas clústeres con bmctl create cluster
o cuando actualizas clústeres con bmctl upgrade
cluster
. El nuevo intervalo se usa en todos los trabajos de una sola máquina, incluidos bmctl check preflight
, bmctl check -c CLUSTER_NAME
y otros.
Ajustar el intervalo de tiempo de espera de los trabajos por lotes
Un trabajo por lotes es una rutina que se ejecuta en varias máquinas, como una comprobación previa de una red. El intervalo de tiempo de espera predeterminado de los trabajos por lotes de Google Distributed Cloud depende del número de máquinas de la red. El intervalo de tiempo de espera predeterminado es de 900 segundos, más 20 segundos adicionales por cada máquina.
Por ejemplo, si tu trabajo por lotes se ejecuta en 60 máquinas, el intervalo de tiempo de espera predeterminado es de 2100 segundos (900 + (20 * 60) = 2100) o 35 minutos.
Puedes ajustar el intervalo de tiempo de espera de los trabajos por lotes con la anotación baremetal.cluster.gke.io/batch-job-deadline-seconds
en el archivo de configuración del clúster.
En el siguiente ejemplo se define el intervalo de tiempo de espera de la tarea por lotes en 10.800 segundos (3 horas):
apiVersion: baremetal.cluster.gke.io/v1
kind: Cluster
metadata:
name: cluster1
namespace: cluster-cluster1
annotations:
baremetal.cluster.gke.io/batch-job-deadline-seconds: "10800"
spec:
...
El valor del intervalo de tiempo de espera se aplica cuando creas clústeres con bmctl create cluster
o cuando actualizas clústeres con bmctl upgrade
cluster
.
Siguientes pasos
Si necesitas más ayuda, ponte en contacto con el servicio de atención al cliente de Cloud. También puedes consultar la sección Obtener asistencia para obtener más información sobre los recursos de asistencia, incluidos los siguientes:
- Requisitos para abrir un caso de asistencia.
- Herramientas para ayudarte a solucionar problemas, como la configuración de tu entorno, los registros y las métricas.
- Componentes admitidos.