이 문서에서는 그래픽 처리 장치(GPU)를 사용하는 작업을 만들고 실행하는 방법을 설명합니다.
선택적으로 작업에서 실행되는 VM에 하나 이상의 GPU를 추가하는 Batch 작업을 만들 수 있습니다. GPU를 사용하는 작업의 일반적인 사용 사례에는 집중적인 데이터 처리 및 머신러닝(ML) 워크로드가 있습니다.
시작하기 전에
- Batch를 사용한 적이 없으면 Batch 시작하기를 검토하고 프로젝트 및 사용자 기본 요건을 완료하여 Batch를 사용 설정하세요.
-
작업을 생성하는 데 필요한 권한을 얻으려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.
- 프로젝트에 대한 일괄 작업 편집자(
roles/batch.jobsEditor
) - 기본적으로 기본 Compute Engine 서비스 계정인 작업의 서비스 계정에 대한 서비스 계정 사용자(
roles/iam.serviceAccountUser
)
역할 부여에 대한 자세한 내용은 액세스 관리를 참조하세요.
- 프로젝트에 대한 일괄 작업 편집자(
GPU를 사용하는 작업 만들기
선택적으로 작업을 실행하는 각 VM에 하나 이상의 그래픽 처리 단위(GPU)를 추가하는 작업을 만들 수 있습니다. GPU를 사용하는 작업을 만들려면 다음을 수행합니다.
- GPU를 사용하기 위한 작업 요구사항 섹션을 검토하여 작업을 만드는 데 사용할 수 있는 방법을 확인합니다.
- 선택한 방법으로 작업을 만듭니다. 권장 방법을 사용하여 작업을 만드는 방법의 예시는 GPU를 사용하는 작업 만들기를 참조하세요.
GPU를 사용하기 위한 작업 요구사항
GPU를 사용하려면 작업에서 다음 작업을 모두 수행해야 합니다.
GPU 드라이버 설치
필요한 GPU 드라이버를 설치하려면 다음 방법 중 하나를 선택합니다.
드라이버 자동 설치(권장): 예시에 표시된 것처럼 Batch가 타사 위치에서 필요한 GPU 드라이버를 가져와 사용자를 대신하여 작업을 설치하게 하려면 작업의
installGpuDrivers
필드를true
로 설정합니다.수동으로 드라이버 설치: 이 방법은 다음 중 하나라도 해당하는 경우 필요합니다.
- 작업은 스크립트와 컨테이너 실행 가능 항목을 모두 사용하며 인터넷 액세스 권한이 없습니다. 작업에 있는 액세스 권한에 대한 자세한 내용은 Batch 네트워킹 개요를 참조하세요.
- 작업은 커스텀 VM 이미지를 사용합니다.
필요한 GPU 드라이버를 수동으로 설치하려면 다음 방법을 사용하는 것이 좋습니다.
GPU 드라이버가 포함된 커스텀 VM 이미지를 만듭니다.
GPU 드라이버를 설치하려면 사용하려는 OS에 따라 설치 스크립트를 실행합니다.
작업에 실행 가능한 컨테이너가 있고 Container-Optimized OS를 사용하지 않는 경우 NVIDIA Container Toolkit도 설치해야 합니다.
Compute Engine 인스턴스 템플릿을 사용하여 커스텀 VM 이미지로 작업을 만들고 제출합니다. 작업의
installGpuDrivers
필드를false
(기본값)로 설정합니다.
VM 리소스 정의
GPU를 사용하려면 작업에서 GPU의 유형 및 개수와 작업의 VM에 호환되는 머신 유형을 지정해야 합니다. 작업의 VM에 대해 리소스를 정의하려면 다음 방법 중 하나를 선택합니다.
- 리소스를 직접 정의(권장): 예시에 표시된 것처럼 작업의 VM에 직접 리소스를 정의하려면
policy
필드를 사용합니다. - 템플릿에서 리소스 정의: Compute Engine 인스턴스 템플릿을 지정하여 작업 VM에 대한 리소스를 정의합니다. 작업 정의에 인스턴스 템플릿을 포함할 경우 이 방법을 사용해야 합니다.
모든 컨테이너에 GPU 마운트
GPU를 사용하려는 컨테이너 실행 가능한 작업이 작업에 포함된 경우 작업에 대한 VM 이미지를 기반으로 실행 가능한 각 컨테이너에 GPU를 마운트해야 합니다.
- 작업에서 기본 VM 이미지를 사용하고 컨테이너 실행 가능 항목만 있거나 Container-Optimized OS의 커스텀 이미지를 사용하는 경우 다음을 수행합니다.
options
필드에--privileged
플래그를 지정합니다.volumes
필드에/var/lib/nvidia/lib64:/usr/local/nvidia/lib64
및/var/lib/n
vidia/bin:/usr/local/nvidia/bin
경로를 지정합니다.
- 그 외에 작업에서 기본 VM 이미지를 사용하고 컨테이너 및 스크립트 실행 가능 항목이 있는 경우 또는 작업이 Container-Optimized OS가 아닌 커스텀 VM 이미지를 사용하는 경우 다음을 수행합니다.
options
필드에--gpus all
플래그를 지정합니다.
GPU를 사용하는 작업 만들기
이 섹션에서는 권장 방법을 사용하여 GPU를 사용하는 작업을 만드는 방법에 대한 예시를 제공합니다. 작업은 필요한 드라이버를 자동으로 설치하고 직접 사용하는 리소스를 정의합니다. 컨테이너 실행 가능 작업이 있는 작업 예시도 GPU를 컨테이너에 마운트합니다. gcloud CLI 또는 Batch API를 사용하여 GPU를 사용하는 작업을 만들 수 있습니다.
gcloud
작업에 GPU를 추가하려면 사용하려는 실행 가능한 유형에 따라 다음 예시 중 하나를 참조하세요.
컨테이너 작업에 GPU 추가
gcloud CLI를 사용하여 기본 이미지를 사용하는 GPU가 포함된 컨테이너 작업을 만들려면 gcloud batch jobs submit
명령어를 사용합니다.
예를 들어 GPU가 포함된 컨테이너 작업을 만들려면 다음 안내를 따르세요.
현재 디렉터리에 다음 콘텐츠로
hello-world-container-job-gpu.json
이라는 JSON 파일을 만듭니다.{ "taskGroups": [ { "taskSpec": { "runnables": [ { "container": { "imageUri": "gcr.io/google_containers/cuda-vector-add:v0.1", "volumes": [ "/var/lib/nvidia/lib64:/usr/local/nvidia/lib64", "/var/lib/nvidia/bin:/usr/local/nvidia/bin" ], "options": "--privileged" } } ], }, "taskCount": 3, "parallelism": 1 } ], "allocationPolicy": { "instances": [ { "installGpuDrivers": INSTALL_GPU_DRIVERS, "policy": { "machineType": "MACHINE_TYPE", "accelerators": [ { "type": "GPU_TYPE", "count": GPU_COUNT } ] } } ], "location": { "allowedLocations": [ "ALLOWED_LOCATIONS" ] } } }
다음을 바꿉니다.
INSTALL_GPU_DRIVERS
: 선택사항.true
로 설정되면 Batch가 타사 위치에서policy
필드에 지정한 GPU 유형에 필요한 드라이버를 가져오고 Batch가 이를 자동으로 설치합니다. 이 필드를false
(기본값)로 설정하면 이 작업에 GPU를 사용하도록 GPU 드라이버를 수동으로 설치해야 합니다.MACHINE_TYPE
: 작업의 VM에 대해 사전 정의되거나 커스텀일 수 있는 머신 유형입니다. 머신 유형은 사용할 수 있는 GPU 유형을 제한합니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.GPU_TYPE
: GPU 유형입니다.gcloud compute accelerator-types list
명령어를 사용하여 사용 가능한 GPU 유형 목록을 볼 수 있습니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.GPU_COUNT
:type
필드에 지정한 유형의 GPU 수입니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.ALLOWED_LOCATIONS
: 선택사항. 작업의 VM 인스턴스가 실행될 수 있는 위치입니다(예:regions/us-central1, zones/us-central1-a
는us-central1-a
영역을 허용). 허용된 위치를 지정하는 경우 리전과 하나 이상의 영역을 선택해야 합니다. 선택한 위치에 이 작업에 사용하려는 GPU 유형이 포함되어야 합니다. 자세한 내용은allowedLocations
배열 필드를 참조하세요.
다음 명령어를 실행합니다.
gcloud batch jobs submit example-job-gpu \ --location us-central1 \ --config hello-world-container-job-gpu.json
스크립트 작업에 GPU 추가
gcloud CLI를 사용하여 기본 이미지를 사용하는 GPU가 포함된 스크립트 작업을 만들려면 gcloud batch jobs submit
명령어를 사용합니다.
예를 들어 GPU가 포함된 스크립트 작업을 만들려면 다음 안내를 따르세요.
현재 디렉터리에 다음 콘텐츠로
hello-world-script-job-gpu.json
이라는 JSON 파일을 만듭니다.{ "taskGroups": [ { "taskSpec": { "runnables": [ { "script": { "text": "echo Hello world from task ${BATCH_TASK_INDEX}." } } ] }, "taskCount": 3, "parallelism": 1 } ], "allocationPolicy": { "instances": [ { "installGpuDrivers": INSTALL_GPU_DRIVERS, "policy": { "machineType": "MACHINE_TYPE", "accelerators": { "type": "GPU_TYPE", "count": GPU_COUNT } ] } } ], "location": { "allowedLocations": [ "ALLOWED_LOCATIONS" ] } } }
다음을 바꿉니다.
INSTALL_GPU_DRIVERS
: 선택사항.true
로 설정되면 Batch가 타사 위치에서policy
필드에 지정한 GPU 유형에 필요한 드라이버를 가져오고 Batch가 이를 자동으로 설치합니다. 이 필드를false
(기본값)로 설정하면 이 작업에 GPU를 사용하도록 GPU 드라이버를 수동으로 설치해야 합니다.MACHINE_TYPE
: 작업의 VM에 대해 사전 정의되거나 커스텀일 수 있는 머신 유형입니다. 머신 유형은 사용할 수 있는 GPU 유형을 제한합니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.GPU_TYPE
: GPU 유형입니다.gcloud compute accelerator-types list
명령어를 사용하여 사용 가능한 GPU 유형 목록을 볼 수 있습니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.GPU_COUNT
:type
필드에 지정한 유형의 GPU 수입니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.ALLOWED_LOCATIONS
: 선택사항. 작업의 VM 인스턴스가 실행될 수 있는 위치입니다(예:regions/us-central1, zones/us-central1-a
는us-central1-a
영역을 허용). 허용된 위치를 지정하는 경우 리전과 하나 이상의 영역을 선택해야 합니다. 선택한 위치에 이 작업에 사용하려는 GPU 유형이 포함되어야 합니다. 자세한 내용은allowedLocations
배열 필드를 참조하세요.
다음 명령어를 실행합니다.
gcloud batch jobs submit example-job-gpu \ --location us-central1 \ --config hello-world-script-job-gpu.json
컨테이너 및 스크립트 작업에 GPU 추가
gcloud CLI를 사용하여 기본 이미지를 사용하는 GPU가 포함된 컨테이너 및 스크립트 작업을 만들려면 gcloud batch jobs submit
명령어를 사용합니다.
예를 들어 GPU가 포함된 컨테이너 및 스크립트 작업을 만들려면 다음을 실행합니다.
현재 디렉터리에 다음 콘텐츠로
hello-world-container-script-job-gpu.json
이라는 JSON 파일을 만듭니다.{ "taskGroups": [ { "taskSpec": { "runnables": [ { "container": { "imageUri": "gcr.io/google_containers/cuda-vector-add:v0.1", "options": "--gpus all" } }, { "script": { "text": "echo Hello world from script task ${BATCH_TASK_INDEX}." } } ] }, "taskCount": 3, "parallelism": 1 } ], "allocationPolicy": { "instances": [ { "installGpuDrivers": INSTALL_GPU_DRIVERS, "policy": { "machineType": "MACHINE_TYPE", "accelerators": [ { "type": "GPU_TYPE", "count": GPU_COUNT } ] } } ], "location": { "allowedLocations": [ "ALLOWED_LOCATIONS" ] } } }
다음을 바꿉니다.
INSTALL_GPU_DRIVERS
: 선택사항.true
로 설정되면 Batch가 타사 위치에서policy
필드에 지정한 GPU 유형에 필요한 드라이버를 가져오고 Batch가 이를 자동으로 설치합니다. 이 필드를false
(기본값)로 설정하면 이 작업에 GPU를 사용하도록 GPU 드라이버를 수동으로 설치해야 합니다.MACHINE_TYPE
: 작업의 VM에 대해 사전 정의되거나 커스텀일 수 있는 머신 유형입니다. 머신 유형은 사용할 수 있는 GPU 유형을 제한합니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.GPU_TYPE
: GPU 유형입니다.gcloud compute accelerator-types list
명령어를 사용하여 사용 가능한 GPU 유형 목록을 볼 수 있습니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.GPU_COUNT
:type
필드에 지정한 유형의 GPU 수입니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.ALLOWED_LOCATIONS
: 선택사항. 작업의 VM 인스턴스가 실행될 수 있는 위치입니다(예:regions/us-central1, zones/us-central1-a
는us-central1-a
영역을 허용). 허용된 위치를 지정하는 경우 리전과 하나 이상의 영역을 선택해야 합니다. 선택한 위치에 이 작업에 사용하려는 GPU 유형이 포함되어야 합니다. 자세한 내용은allowedLocations
배열 필드를 참조하세요.
다음 명령어를 실행합니다.
gcloud batch jobs submit example-job-gpu \ --location us-central1 \ --config hello-world-container-script-job-gpu.json
API
작업에 GPU를 추가하려면 사용하려는 실행 가능한 유형에 따라 다음 예시 중 하나를 참조하세요.
컨테이너 작업에 GPU 추가
Batch API를 사용하여 기본 이미지를 사용하는 GPU가 포함된 컨테이너 작업을 만들려면 jobs.create
메서드를 사용합니다.
예를 들어 GPU가 포함된 컨테이너 작업을 만들려면 다음 요청을 수행합니다.
POST https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/jobs?job_id=example-job-gpu
{
"taskGroups": [
{
"taskSpec": {
"runnables": [
{
"container": {
"imageUri": "gcr.io/google_containers/cuda-vector-add:v0.1",
"volumes": [
"/var/lib/nvidia/lib64:/usr/local/nvidia/lib64",
"/var/lib/nvidia/bin:/usr/local/nvidia/bin"
],
"options": "--privileged"
}
}
],
},
"taskCount": 3,
"parallelism": 1
}
],
"allocationPolicy": {
"instances": [
{
"installGpuDrivers": INSTALL_GPU_DRIVERS,
"policy": {
"machineType": "MACHINE_TYPE",
"accelerators": [
{
"type": "GPU_TYPE",
"count": GPU_COUNT
}
]
}
}
],
"location": {
"allowedLocations": [
"ALLOWED_LOCATIONS"
]
}
}
}
다음을 바꿉니다.
PROJECT_ID
: 프로젝트의 프로젝트 ID입니다.INSTALL_GPU_DRIVERS
: 선택사항.true
로 설정되면 Batch가 타사 위치에서policy
필드에 지정한 GPU 유형에 필요한 드라이버를 가져오고 Batch가 이를 자동으로 설치합니다. 이 필드를false
(기본값)로 설정하면 이 작업에 GPU를 사용하도록 GPU 드라이버를 수동으로 설치해야 합니다.MACHINE_TYPE
: 작업의 VM에 대해 사전 정의되거나 커스텀일 수 있는 머신 유형입니다. 머신 유형은 사용할 수 있는 GPU 유형을 제한합니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.GPU_TYPE
: GPU 유형입니다.gcloud compute accelerator-types list
명령어를 사용하여 사용 가능한 GPU 유형 목록을 볼 수 있습니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.GPU_COUNT
:type
필드에 지정한 유형의 GPU 수입니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.ALLOWED_LOCATIONS
: 선택사항. 작업의 VM 인스턴스가 실행될 수 있는 위치입니다(예:regions/us-central1, zones/us-central1-a
는us-central1-a
영역을 허용). 허용된 위치를 지정하는 경우 리전과 하나 이상의 영역을 선택해야 합니다. 선택한 위치에 이 작업에 사용하려는 GPU 유형이 포함되어야 합니다. 자세한 내용은allowedLocations
배열 필드를 참조하세요.
스크립트 작업에 GPU 추가
Batch API를 사용하여 기본 이미지를 사용하는 GPU가 포함된 스크립트 작업을 만들려면 jobs.create
메서드를 사용합니다.
예를 들어 GPU가 포함된 스크립트 작업을 만들려면 다음 요청을 수행합니다.
POST https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/jobs?job_id=example-job-gpu
{
"taskGroups": [
{
"taskSpec": {
"runnables": [
{
"script": {
"text": "echo Hello world from task ${BATCH_TASK_INDEX}."
}
}
]
},
"taskCount": 3,
"parallelism": 1
}
],
"allocationPolicy": {
"instances": [
{
"installGpuDrivers": INSTALL_GPU_DRIVERS,
"policy": {
"machineType": "MACHINE_TYPE",
"accelerators": [
{
"type": "GPU_TYPE",
"count": GPU_COUNT
}
]
}
}
],
"location": {
"allowedLocations": [
"ALLOWED_LOCATIONS"
]
}
}
}
다음을 바꿉니다.
PROJECT_ID
: 프로젝트의 프로젝트 ID입니다.INSTALL_GPU_DRIVERS
: 선택사항.true
로 설정되면 Batch가 타사 위치에서policy
필드에 지정한 GPU 유형에 필요한 드라이버를 가져오고 Batch가 이를 자동으로 설치합니다. 이 필드를false
(기본값)로 설정하면 이 작업에 GPU를 사용하도록 GPU 드라이버를 수동으로 설치해야 합니다.MACHINE_TYPE
: 작업의 VM에 대해 사전 정의되거나 커스텀일 수 있는 머신 유형입니다. 머신 유형은 사용할 수 있는 GPU 유형을 제한합니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.GPU_TYPE
: GPU 유형입니다.gcloud compute accelerator-types list
명령어를 사용하여 사용 가능한 GPU 유형 목록을 볼 수 있습니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.GPU_COUNT
:type
필드에 지정한 유형의 GPU 수입니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.ALLOWED_LOCATIONS
: 선택사항. 작업의 VM 인스턴스가 실행될 수 있는 위치입니다(예:regions/us-central1, zones/us-central1-a
는us-central1-a
영역을 허용). 허용된 위치를 지정하는 경우 리전과 하나 이상의 영역을 선택해야 합니다. 선택한 위치에 이 작업에 사용하려는 GPU 유형이 포함되어야 합니다. 자세한 내용은allowedLocations
배열 필드를 참조하세요.
컨테이너 및 스크립트 작업에 GPU 추가
Batch API를 사용하여 기본 이미지를 사용하는 GPU가 포함된 컨테이너 및 스크립트 작업을 만들려면 jobs.create
메서드를 사용합니다.
예를 들어 GPU가 포함된 컨테이너 및 스크립트 작업을 만들려면 다음 요청을 수행합니다.
POST https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/jobs?job_id=example-job-gpu
{
"taskGroups": [
{
"taskSpec": {
"runnables": [
{
"container": {
"imageUri": "gcr.io/google_containers/cuda-vector-add:v0.1",
"options": "--gpus all"
}
},
{
"script": {
"text": "echo Hello world from script task ${BATCH_TASK_INDEX}."
}
}
]
},
"taskCount": 3,
"parallelism": 1
}
],
"allocationPolicy": {
"instances": [
{
"installGpuDrivers": INSTALL_GPU_DRIVERS,
"policy": {
"machineType": "MACHINE_TYPE",
"accelerators": [
{
"type": "GPU_TYPE",
"count": GPU_COUNT
}
]
}
}
],
"location": {
"allowedLocations": [
"ALLOWED_LOCATIONS"
]
}
}
}
다음을 바꿉니다.
PROJECT_ID
: 프로젝트의 프로젝트 ID입니다.INSTALL_GPU_DRIVERS
: 선택사항.true
로 설정되면 Batch가 타사 위치에서policy
필드에 지정한 GPU 유형에 필요한 드라이버를 가져오고 Batch가 이를 자동으로 설치합니다. 이 필드를false
(기본값)로 설정하면 이 작업에 GPU를 사용하도록 GPU 드라이버를 수동으로 설치해야 합니다.MACHINE_TYPE
: 작업의 VM에 대해 사전 정의되거나 커스텀일 수 있는 머신 유형입니다. 머신 유형은 사용할 수 있는 GPU 유형을 제한합니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.GPU_TYPE
: GPU 유형입니다.gcloud compute accelerator-types list
명령어를 사용하여 사용 가능한 GPU 유형 목록을 볼 수 있습니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.GPU_COUNT
:type
필드에 지정한 유형의 GPU 수입니다. GPU가 포함된 작업을 만들려면 이 필드가 필요합니다.ALLOWED_LOCATIONS
: 선택사항. 작업의 VM 인스턴스가 실행될 수 있는 위치입니다(예:regions/us-central1, zones/us-central1-a
는us-central1-a
영역을 허용). 허용된 위치를 지정하는 경우 리전과 하나 이상의 영역을 선택해야 합니다. 선택한 위치에 이 작업에 사용하려는 GPU 유형이 포함되어야 합니다. 자세한 내용은allowedLocations
배열 필드를 참조하세요.
다음 단계
- 작업을 만들거나 실행하는 데 문제가 있는 경우 문제 해결을 참조하세요.
- 작업 및 태스크 보기
- 작업 만들기 옵션 자세히 알아보기