GPU를 사용하는 작업 만들기 및 실행

이 문서에서는 그래픽 처리 장치(GPU)를 사용하는 작업을 만들고 실행하는 방법을 설명합니다.

일괄 작업을 만들 때 작업을 실행하는 VM에 하나 이상의 GPU를 선택적으로 추가할 수 있습니다. GPU를 사용하는 작업의 일반적인 사용 사례에는 집중적인 데이터 처리 및 머신러닝(ML) 워크로드가 있습니다.

시작하기 전에

GPU를 사용하는 작업 만들기

GPU를 사용하는 작업을 만들려면 다음을 수행합니다.

  1. GPU를 사용하기 위한 작업 요구사항 섹션을 검토하여 작업을 만드는 데 사용할 수 있는 방법을 확인합니다.
  2. 선택한 방법으로 작업을 만듭니다. 권장 방법을 사용하여 작업을 만드는 방법의 예시는 GPU를 사용하는 작업 예시 만들기 섹션을 참조하세요.

GPU를 사용하기 위한 작업 요구사항

GPU를 사용하려면 작업에서 다음 작업을 모두 수행해야 합니다.

작업의 이러한 요구사항을 충족하는 방법을 결정했으면 작업의 GPU와 위치도 정의해야 합니다. 작업의 VM은 각각 지정된 유형의 GPU를 한 개 이상 사용할 수 있습니다. 작업의 VM에 허용되는 위치(또는 정의되지 않은 경우 작업 위치)에는 지정된 유형의 GPU가 있어야 합니다. GPU 유형, GPU 번호, 작업에 유효한 위치를 정의하는 방법에 대한 자세한 내용은 예시를 참조하세요.

GPU 드라이버 설치

필요한 GPU 드라이버를 설치하려면 다음 방법 중 하나를 선택합니다.

호환되는 VM 리소스 정의

작업에서 GPU 이외의 VM 리소스(instances[] 하위 필드)를 정의하는 경우 이러한 VM 리소스를 호환되는 방식으로 정의해야 합니다.

GPU를 포함한 작업 VM의 리소스를 정의하려면 다음 방법만 사용하면 됩니다.

  • 리소스를 직접 정의(권장): 예시에 표시된 것처럼 작업의 VM에 직접 리소스를 정의하려면 policy 필드를 사용합니다.
  • 템플릿에서 리소스 정의: Compute Engine 인스턴스 템플릿을 지정하여 작업 VM에 대한 리소스를 정의합니다.

또한 정의하는 모든 리소스는 작업의 GPU 유형 및 개수와 호환되어야 합니다. GPU와 함께 사용할 수 있는 VM 리소스에 대한 자세한 내용은 Compute Engine 문서의 GPU 플랫폼을 참조하세요.

GPU를 사용하는 예시 작업 만들기

gcloud CLI 또는 Batch API를 사용하여 GPU를 사용하는 작업을 만들 수 있습니다.

gcloud

  1. 작업의 구성 세부정보, accelerators[] 필드의 typecount 하위 필드, 이러한 유형의 GPU가 있는 위치를 지정하는 JSON 파일을 만듭니다.

    예를 들어 GPU를 사용하고, 필요한 GPU 드라이버를 자동으로 설치하고, 작업 VM에 허용되는 위치를 지정하는 기본 스크립트 작업을 만들려면 다음 콘텐츠로 JSON 파일을 만듭니다.

    {
        "taskGroups": [
            {
                "taskSpec": {
                    "runnables": [
                        {
                            "script": {
                                "text": "echo Hello world from task ${BATCH_TASK_INDEX}."
                            }
                        }
                    ]
                },
                "taskCount": 3,
                "parallelism": 1
            }
        ],
        "allocationPolicy": {
            "instances": [
                {
                    "installGpuDrivers": INSTALL_GPU_DRIVERS,
                    "policy": {
                        "accelerators": [
                            {
                                "type": "GPU_TYPE",
                                "count": GPU_COUNT
                            }
                        ]
                    }
                }
            ],
            "location": {
                "allowedLocations": [
                    "ALLOWED_LOCATIONS"
                ]
            }
        }
    }
    

    다음을 바꿉니다.

    • INSTALL_GPU_DRIVERS: 선택사항. true로 설정되면 Batch가 타사 위치에서 policy 필드에 지정한 GPU 유형에 필요한 드라이버를 가져오고 Batch가 이를 자동으로 설치합니다. 이 필드를 false(기본값)로 설정하면 이 작업에 GPU를 사용하도록 GPU 드라이버를 수동으로 설치해야 합니다.

    • GPU_TYPE: GPU 유형입니다. gcloud compute accelerator-types list 명령어를 사용하여 사용 가능한 GPU 유형 목록을 볼 수 있습니다.

    • GPU_COUNT: 지정된 유형의 GPU 수입니다.

    • ALLOWED_LOCATIONS: (선택사항) 작업의 VM 인스턴스를 실행할 수 있는 위치(예: regions/us-central1, zones/us-central1-a)는 us-central1-a 영역을 허용합니다. 허용된 위치를 지정하는 경우 리전과 하나 이상의 영역(선택사항)을 선택해야 합니다. 선택한 위치에 이 작업에 사용하려는 GPU 유형이 포함되어야 합니다. 그렇지 않고 이 필드를 생략하면 작업 위치에 GPU 유형이 있어야 합니다. 자세한 내용은 allowedLocations[] 필드를 참조하세요.

  2. 작업을 만들고 실행하려면 gcloud batch jobs submit 명령어를 사용합니다.

    gcloud batch jobs submit JOB_NAME \
        --location LOCATION \
        --config JSON_CONFIGURATION_FILE
    

    다음을 바꿉니다.

    • JOB_NAME: 작업의 이름

    • LOCATION: 작업의 위치입니다.

    • JSON_CONFIGURATION_FILE: 작업의 구성 세부정보가 포함된 JSON 파일의 경로입니다.

API

작업의 구성 세부 정보, accelerators[] 필드의 typecount 하위 필드, 이러한 유형의 GPU가 있는 위치를 지정하는 jobs.create 메서드에 대해 POST 요청을 실행합니다.

예를 들어 GPU를 사용하고, 필요한 GPU 드라이버를 자동으로 설치하고, 작업 VM에 허용되는 위치를 지정하는 기본 스크립트 작업을 만들려면 다음 콘텐츠로 JSON 파일을 만듭니다.

POST https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/jobs?job_id=JOB_NAME

{
    "taskGroups": [
        {
            "taskSpec": {
                "runnables": [
                    {
                        "script": {
                            "text": "echo Hello world from task ${BATCH_TASK_INDEX}."
                        }
                    }
                ]
            },
            "taskCount": 3,
            "parallelism": 1
        }
    ],
    "allocationPolicy": {
        "instances": [
            {
                "installGpuDrivers": INSTALL_GPU_DRIVERS,
                "policy": {
                    "accelerators": [
                        {
                            "type": "GPU_TYPE",
                            "count": GPU_COUNT
                        }
                    ]
                }
            }
        ],
        "location": {
            "allowedLocations": [
                "ALLOWED_LOCATIONS"
            ]
        }
    }
}

다음을 바꿉니다.

  • PROJECT_ID: 프로젝트의 프로젝트 ID

  • LOCATION: 작업의 위치

  • JOB_NAME: 작업의 이름입니다.

  • INSTALL_GPU_DRIVERS: (선택사항) true로 설정되면 Batch가 타사 위치에서 policy 필드에 지정한 GPU 유형에 필요한 드라이버를 가져오고 Batch가 이를 자동으로 설치합니다. 이 필드를 false(기본값)로 설정하면 이 작업에 GPU를 사용하도록 GPU 드라이버를 수동으로 설치해야 합니다.

  • GPU_TYPE: GPU 유형입니다. gcloud compute accelerator-types list 명령어를 사용하여 사용 가능한 GPU 유형 목록을 볼 수 있습니다.

  • GPU_COUNT: 지정된 유형의 GPU 수입니다.

  • ALLOWED_LOCATIONS: (선택사항) 작업의 VM 인스턴스를 실행할 수 있는 위치(예: regions/us-central1, zones/us-central1-a)는 us-central1-a 영역을 허용합니다. 허용된 위치를 지정하는 경우 리전과 하나 이상의 영역(선택사항)을 선택해야 합니다. 선택한 위치에 이 작업에 사용하려는 GPU 유형이 포함되어야 합니다. 그렇지 않고 이 필드를 생략하면 작업 위치에 GPU 유형이 있어야 합니다. 자세한 내용은 allowedLocations[] 필드를 참조하세요.

다음 단계