이 페이지에서는 Batch를 사용하는 동안 발생할 수 있는 알려진 문제를 설명합니다.
Batch 사용에 대한 추가 도움이 필요한 경우 문제 해결 문서 또는 지원 받기를 참조하세요.
제한 시간 로그는 태스크 또는 실행 가능 항목의 제한 시간이 초과되었는지 여부를 나타내지 않습니다.
제한 시간을 초과하여 작업이 실패하면 작업과 연결된 로그는 관련 태스크의 제한 시간 또는 관련 실행 가능 항목의 제한 시간으로 인해 실패가 발생했는지 여부를 나타내지 않습니다.
이 문제를 해결하려면 태스크 및 실행 가능 항목에 서로 다른 제한 시간 값을 설정합니다. 그런 후 다음 절차를 수행하여 관련 태스크 또는 실행 가능 항목의 제한 시간을 초과하여 실패했는지 확인할 수 있습니다.
제한 시간 초과 실패의 태스크, 실행 가능 항목, 시간을 확인합니다.
초과된 제한 시간 종료 코드
50005
를 언급하는 로그를 찾습니다. 이 로그에는 다음 메시지와 유사한textPayload
가 있습니다.Task task/JOB_UID-group0-TASK_INDEX/0/0 runnable RUNNABLE_INDEX...exitCode 50005
이 로그에서
TASK_INDEX
를 실패한 태스크로,RUNNABLE_INDEX
를 실패한 실행 가능 항목으로, 로그의timestamp
값을 제한 시간 초과 실패 시간으로 기록합니다.
실패한 태스크의 시작 시간을 확인합니다.
다음 메시지가 언급된 상태 이벤트를 찾습니다.
Task state is updated from ASSIGNED to RUNNING
이 상태 이벤트에서
eventTime
필드를 실패한 태스크의 시작 시간으로 기록합니다.
다음 수식을 사용하여 실패한 태스크의 총 실행 시간 \({failedTaskRunTime}\)을 계산합니다.
\[{failedTaskRunTime}={failureTime}-{failedTaskStartTime}\]
다음 값을 바꿉니다.
- \({failureTime}\): 제한 시간 초과 실패의 시간입니다.
- \({failedTaskStartTime}\): 실패한 태스크의 시작 시간입니다.
초과된 제한 시간을 확인합니다.
\({failedTaskRunTime}\) 이 실패한 태스크에 구성된 제한 시간과 일치하면 실패한 태스크의 제한 시간이 초과되어 실패한 것입니다.
그렇지 않으면 실패한 실행 가능 항목에 구성된 제한 시간이 초과되어 실패한 것입니다.
예약을 사용하는 작업이 지연되거나 차단될 수 있음
Compute Engine 예약을 사용하는 작업을 만들고 실행하려고 시도하면 Batch에서 작업을 잘못 지연하거나 실행하지 못할 수 있습니다. 특히 Batch는해당 리소스 할당량이 소비되지 않은 예약에서 사용되는 경우에도 프로젝트에 충분한 Compute Engine 리소스 할당량을 요구합니다.
문제 해결 방법
작업에 대한 문제를 해결하려면 이름이 goog-batch-skip-quota-check
이고 값이 true
인 라벨을 작업 수준 labels
필드에 추가합니다.
이 라벨을 사용하면 작업을 만들기 전에 Batch에서 프로젝트의 리소스 할당량 확인을 건너뜁니다.
예를 들어 예약을 사용할 수 있는 기본 스크립트 작업에 대해 이 문제를 방지하거나 해결하려면 다음 JSON 구성을 사용하여 작업을 만들고 실행합니다.
{
"taskGroups": [
{
"taskSpec": {
"runnables": [
{
"script": {
"text": "echo Hello world from task ${BATCH_TASK_INDEX}"
}
}
]
},
"taskCount": 3
}
],
"allocationPolicy": {
"instances": [
{
VM_RESOURCES
}
],
},
"labels": {
"goog-batch-skip-quota-check": "true"
},
"logsPolicy": {
"destination": "CLOUD_LOGGING"
}
}
VM_RESOURCES
를 작업에서 사용할 예약과 일치하는 VM 리소스로 바꿉니다.
자세한 내용은 예약된 VM을 사용할 수 있는 작업 만들기 및 실행과 작업의 커스텀 라벨 정의를 참조하세요.
문제 파악
이 문제는 특정 오류 메시지로 표시되지 않습니다. 대신 다음과 같은 상황에서 이 문제가 발생할 수 있습니다.
프로젝트가 할당량이 있는 모든 리소스를 예약하면 이 문제로 인해 해당 리소스를 지정하는 모든 작업이 차단됩니다.
예를 들어 프로젝트에 다음이 있다고 가정합니다.
- H100 GPU의 최대 할당량은 16입니다.
- 2개의
a3-highgpu-8g
VM에 대한 소비되지 않은 단일 프로젝트 예약으로, 총 16개의 H100 GPU를 예약합니다.
이 시나리오에서는 이 문제로 인해 프로젝트에서 예약된 H100 GPU를 사용하도록 올바르게 구성된 작업을 예약하고 실행할 수 없습니다.
프로젝트에 할당량이 있는 리소스 중 일부가 예약되어 있는 경우 이 문제로 인해 해당 리소스를 지정하는 작업이 차단되거나 지연될 수 있습니다.
예를 들어 프로젝트에 다음이 있다고 가정합니다.
- H100 GPU의 최대 할당량은 16입니다.
a3-highgpu-8g
VM 1개에 대한 소비되지 않은 단일 프로젝트 예약으로 총 8개의 H100 GPU를 예약합니다.- 예약을 사용하지 않도록 구성된
a3-highgpu-8g
VM은 때때로 삭제되고 재생성됩니다 (이 VM은 존재할 경우 예약되지 않은 H100 GPU 8개를 사용합니다.)
이 시나리오에서는 이 문제로 인해
a3-highgpu-8g
VM이 없는 경우에만 프로젝트가 예약된 H100 GPU를 사용하도록 올바르게 구성된 작업만 예약하고 실행할 수 있게 합니다.
오래된 커널이 있는 Compute Engine(또는 커스텀) VM OS 이미지를 지정할 때 작업이 실패할 수 있음
최신 커널 버전이 없는 Compute Engine VM OS 이미지를 지정하면 작업이 실패할 수 있습니다. 이 문제는 Compute Engine VM OS 이미지를 기반으로 하는 커스텀 이미지에도 영향을 줍니다. 이 문제의 원인인 Compute Engine 공개 이미지는 쉽게 식별되지 않으며 언제든지 변경될 수 있습니다.
이 문제는 특정 오류 메시지로 표시되지 않습니다. 대신 작업이 예기치 않게 실패하고 Compute Engine VM OS 이미지 또는 유사한 커스텀 이미지를 지정하는 경우 이 문제를 고려하세요.
이 문제를 방지하거나 해결하려면 다음을 수행하면 됩니다.
- 가능한 경우 이 문제의 영향을 받지 않는 Batch 이미지를 기반으로 하는 Batch 이미지 또는 커스텀 이미지를 사용하세요.
- Batch 이미지를 사용할 수 없는 경우 원하는 Compute Engine 이미지의 최신 버전을 사용해 보세요. 일반적으로 최신 버전의 Compute Engine 이미지는 이전 버전보다 최신 커널 버전일 가능성이 더 높습니다.
- 최신 버전의 특정 이미지가 작동하지 않으면 다른 OS를 사용해 보거나 커스텀 이미지를 만들어야 할 수 있습니다. 예를 들어 최신 버전의 Debian 11이 작동하지 않으면 Debian 11을 실행하고 최신 커널 버전을 사용하도록 업데이트한 Compute Engine VM에서 커스텀 이미지를 만들어 볼 수 있습니다.
이 문제는 VM OS 이미지의 오래된 커널 버전으로 인해 VM이 재부팅되어 발생합니다. 작업이 Batch에서 시작되지 않거나 Batch 이미지를 기반으로 VM OS 이미지를 지정할 경우 Batch는 작업 시작 후 VM에 필요한 패키지를 설치합니다. 필요한 패키지는 작업마다 다르며 시간이 지남에 따라 변경될 수 있고, VM OS 이미지가 최신 커널 버전을 필요로 할 수 있습니다. 이 문제는 커널 버전 업데이트 시 VM을 재부팅해야 할 때 발생합니다. 이로 인해 패키지 설치 및 작업이 실패합니다.
VM OS 이미지에 대한 자세한 내용은 작업 VM의 OS 환경 개요를 참조하세요.
오래된 커널의 GPU 및 VM OS 이미지를 사용하는 작업은 드라이버를 자동으로 설치할 때만 실패할 수 있음
이 문제는 오래된 커널이 있는 Compute Engine(또는 커스텀) VM OS 이미지를 지정할 때 작업이 실패할 수 있음과 밀접한 관련이 있습니다. 특히 최신 커널 없이 Compute Engine(또는 커스텀) VM OS 이미지를 지정하고 GPU를 사용하는 작업은 GPU 드라이버를 자동으로 설치하려고 시도하는 경우에만 실패할 수 있습니다. 이러한 작업의 경우 GPU 드라이버를 수동으로 설치하여 오류를 해결할 수도 있습니다.
GPU에 대한 자세한 내용은 GPU를 사용하는 작업 만들기 및 실행을 참조하세요.