En esta página, se describen problemas conocidos con los que puedes encontrarte cuando usas Batch.
Si necesitas más ayuda para usar Batch, consulta la documentación de Solución de problemas o Obtén asistencia.
Es posible que Pub/Sub no envíe notificaciones sobre estados intermedios durante los cambios rápidos
Es posible que Pub/Sub no envíe notificaciones para todos los estados intermedios cuando un trabajo o una tarea cambian muy rápido. Por ejemplo, supongamos que una tarea cambia rápidamente de estado de ASSIGNED
a RUNNING
y, luego, a FAILED
. En ese caso, es posible que no recibas una notificación que indique que la tarea alcanzó el estado RUNNING
.
Para mitigar este problema, te recomendamos que, cuando quieras ver el historial de estado completo de un trabajo o una tarea, consultes los eventos de estado en lugar de las notificaciones de Pub/Sub.
Para obtener más información sobre las notificaciones de Pub/Sub, consulta Supervisa el estado de los trabajos con las notificaciones de Pub/Sub y BigQuery.
Los registros de tiempo de espera no indican si se excedió el tiempo de espera de la tarea o del ejecutable.
Cuando un trabajo falla por exceder un tiempo de espera, los registros asociados al trabajo no indican si la falla se debió al tiempo de espera de la tarea pertinente o al tiempo de espera del ejecutable pertinente.
Para solucionar este problema, establece diferentes valores de tiempo de espera para las tareas y los elementos ejecutables. Luego, puedes identificar si una falla se produjo por exceder el tiempo de espera de la tarea o el ejecutable relevantes con el siguiente procedimiento:
Identifica la tarea, el ejecutable y la hora de una falla por tiempo de espera excedido.
Busca un registro que mencione el código de salida de tiempo de espera excedido,
50005
. Este registro tiene untextPayload
similar al siguiente mensaje:Task task/JOB_UID-group0-TASK_INDEX/0/0 runnable RUNNABLE_INDEX...exitCode 50005
En ese registro, anota
TASK_INDEX
como la tarea con errores,RUNNABLE_INDEX
como el ejecutable con errores y el valortimestamp
del registro como la hora del error por tiempo de espera excedido.
Identifica la hora de inicio de la tarea fallida.
Busca el evento de estado que menciona el siguiente mensaje:
Task state is updated from ASSIGNED to RUNNING
A partir de ese evento de estado, registra el campo
eventTime
como la hora de inicio de la tarea fallida.
Calcula el tiempo de ejecución total de la tarea con errores, \({failedTaskRunTime}\), con la siguiente fórmula:
\[{failedTaskRunTime}={failureTime}-{failedTaskStartTime}\]
Reemplaza los siguientes valores:
- \({failureTime}\): Es la hora de la falla por tiempo de espera excedido.
- \({failedTaskStartTime}\): Es la hora de inicio de la tarea fallida.
Identifica el tiempo de espera excedido:
Si \({failedTaskRunTime}\) coincide con el tiempo de espera que configuraste para la tarea con errores, significa que se superó el tiempo de espera de esa tarea y se produjo el error.
De lo contrario, se excedió el tiempo de espera que configuraste para el ejecutable fallido y se produjo la falla.
Es posible que se retrasen o impidan los trabajos que consumen reservas
Cuando intentas crear y ejecutar un trabajo que consume reservas de Compute Engine, es posible que Batch retrase o impida incorrectamente la ejecución del trabajo. Específicamente, Batch requiere que los proyectos tengan suficientes cuotas de recursos de Compute Engine, incluso cuando esas cuotas de recursos se usen en reservas no consumidas.
Soluciona el problema
Para solucionar este problema en un trabajo, agrega una etiqueta con el nombre goog-batch-skip-quota-check
y el valor true
al campo labels
a nivel del trabajo.
Esta etiqueta hace que Batch omita la verificación de las cuotas de recursos de tu proyecto antes de intentar crear un trabajo.
Por ejemplo, para evitar o resolver este problema en un trabajo de secuencia de comandos básico que puede consumir reservas, crea y ejecuta un trabajo con la siguiente configuración JSON:
{
"taskGroups": [
{
"taskSpec": {
"runnables": [
{
"script": {
"text": "echo Hello world from task ${BATCH_TASK_INDEX}"
}
}
]
},
"taskCount": 3
}
],
"allocationPolicy": {
"instances": [
{
VM_RESOURCES
}
],
},
"labels": {
"goog-batch-skip-quota-check": "true"
},
"logsPolicy": {
"destination": "CLOUD_LOGGING"
}
}
Reemplaza VM_RESOURCES
por los recursos de VM que coincidan con la reserva que deseas que consuma el trabajo.
Para obtener más instrucciones, consulta Crea y ejecuta un trabajo que pueda consumir VMs reservadas y Define etiquetas personalizadas para el trabajo.
Identifica el problema
Este problema no se indica con ningún mensaje de error específico. En cambio, este problema puede ocurrir en las siguientes circunstancias:
Si tu proyecto reserva todos los recursos para los que tiene cuota, este problema impide cualquier trabajo que especifique esos recursos.
Por ejemplo, supongamos que tu proyecto tiene lo siguiente:
- Una cuota máxima de 16 GPU H100
- Una reserva de un solo proyecto no consumida para 2 VMs de
a3-highgpu-8g
, que reserva 16 GPUs H100 en total.
En esta situación, el problema impide que tu proyecto programe y ejecute cualquier trabajo que esté configurado correctamente para consumir cualquiera de las GPUs H100 reservadas.
Si tu proyecto reserva algunos de los recursos para los que tiene cuota, es posible que este problema impida o retrase los trabajos que especifican esos recursos.
Por ejemplo, supongamos que tu proyecto tiene lo siguiente:
- Una cuota máxima de 16 GPU H100
- Una reserva de un solo proyecto no consumida para 1 VM
a3-highgpu-8g
, que reserva 8 GPUs H100 en total. - Una VM de
a3-highgpu-8g
configurada para no consumir ninguna reserva y que se borra y se vuelve a crear ocasionalmente. (Esta VM usa 8 GPUs H100 sin reservar cuando existe).
En esta situación, el problema solo permite que tu proyecto programe y comience a ejecutar cualquier trabajo que esté configurado correctamente para consumir cualquiera de las GPUs H100 reservadas cuando no exista la VM
a3-highgpu-8g
.
Es posible que los trabajos fallen cuando se especifican imágenes de SO de VM de Compute Engine (o personalizadas) con kernels desactualizados
Un trabajo puede fallar si especifica una imagen de SO de VM de Compute Engine que no tiene la versión más reciente del kernel. Este problema también afecta a las imágenes personalizadas basadas en imágenes de SO de VM de Compute Engine. Las imágenes públicas de Compute Engine que causan este problema no se identifican fácilmente y están sujetas a cambios en cualquier momento.
Este problema no se indica con un mensaje de error específico. En cambio, considera este problema si tienes un trabajo que falla de forma inesperada y especifica una imagen de SO de VM de Compute Engine o una imagen personalizada similar.
Para evitar o resolver este problema, puedes hacer lo siguiente:
- Siempre que sea posible, usa imágenes de Batch o imágenes personalizadas basadas en imágenes de Batch, que no se ven afectadas por este problema.
- Si no puedes usar una imagen de Batch, prueba la versión más reciente de tu imagen preferida de Compute Engine. En general, es más probable que las versiones más recientes de las imágenes de Compute Engine tengan la versión más reciente del kernel que las versiones anteriores.
- Si la versión más reciente de una imagen específica no funciona, es posible que debas probar con otro SO o crear una imagen personalizada. Por ejemplo, si la versión más reciente de Debian 11 no funciona, puedes intentar crear una imagen personalizada a partir de una VM de Compute Engine que ejecute Debian 11 y que hayas actualizado para usar la versión más reciente del kernel.
Este problema se debe a una versión del kernel obsoleta en la imagen de SO de la VM, lo que provoca que la VM se reinicie. Cuando un trabajo especifica cualquier imagen de SO de la VM que no sea de Batch o que no se base en una imagen de Batch, Batch instala los paquetes requeridos en las VMs del trabajo después de que se inician. Los paquetes requeridos pueden variar para diferentes trabajos y cambiar con el tiempo, y es posible que requieran que la imagen de SO de tu VM tenga la versión del kernel más reciente. Este problema aparece cuando la actualización de la versión del kernel requiere que se reinicie la VM, lo que provoca que falle la instalación del paquete y el trabajo.
Para obtener más información sobre las imágenes del SO de la VM, consulta Descripción general del entorno del SO para las VMs de un trabajo.
Es posible que los trabajos que usan GPU y las imágenes del SO de la VM con kernels desactualizados fallen solo cuando se instalan los controladores automáticamente.
Este problema está estrechamente relacionado con Es posible que los trabajos fallen cuando se especifican imágenes del SO de VM de Compute Engine (o personalizadas) con kernels desactualizados. Específicamente, los trabajos que especifican una imagen de SO de VM de Compute Engine (o personalizada) sin el kernel más reciente y que usan GPUs podrían fallar solo si intentas instalar los controladores de GPU automáticamente. Para estos trabajos, también puedes resolver las fallas instalando los controladores de GPU de forma manual.
Para obtener más información sobre las GPUs, consulta Crea y ejecuta un trabajo que use GPUs.