GPU VM으로 MIG 만들기


이 문서에서는 GPU가 연결된 가상 머신 (VM) 인스턴스로 관리형 인스턴스 그룹 (MIG)을 만드는 방법을 설명합니다. 크기 조절 요청을 사용하여 그룹에 GPU VM을 한 번에 모두 추가하는 방법을 설명합니다.

크기 조절 요청을 사용하면 MIG에서 GPU VM을 더 쉽게 가져올 수 있습니다. 요청에서 해당 VM을 실행할 GPU VM의 수와 기간을 지정합니다. 기본 스케줄러 메커니즘인 동적 워크로드 스케줄러 (DWS)는 요청된 기간 및 리소스 가용성을 기반으로 Compute Engine 전반에서 생성된 크기 조절 요청을 예약합니다. 리소스를 사용할 수 있게 되면 MIG는 VM을 자동으로 만듭니다.

이러한 VM에서 실행 중인 작업이 요청된 기간보다 일찍 완료되면 해당 VM을 삭제할 수 있습니다. 그렇지 않으면 기간이 종료되면 MIG에서 VM을 자동으로 삭제합니다.

MIG를 만드는 다른 기본 시나리오도 참조하세요.

시작하기 전에

  • 요청 중인 리소스에 대해 GPU 할당량이 충분한지 확인하려면 GPU 할당량 확인을 참조하세요.
  • 할당량 사용량을 알아보려면 GPU VM 및 선점형 할당량을 참고하세요.
  • 아직 인증을 설정하지 않았다면 설정합니다. 인증은 Google Cloud 서비스 및 API에 액세스하기 위해 ID를 확인하는 프로세스입니다. 로컬 개발 환경에서 코드 또는 샘플을 실행하려면 다음 옵션 중 하나를 선택하여 Compute Engine에 인증하면 됩니다.

    Select the tab for how you plan to use the samples on this page:

    Console

    When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

    gcloud

    1. Install the Google Cloud CLI, then initialize it by running the following command:

      gcloud init
    2. Set a default region and zone.
    3. REST

      로컬 개발 환경에서 이 페이지의 REST API 샘플을 사용하려면 gcloud CLI에 제공한 사용자 인증 정보를 사용합니다.

        Install the Google Cloud CLI, then initialize it by running the following command:

        gcloud init

      자세한 내용은 Google Cloud 인증 문서의 REST 사용을 위한 인증을 참고하세요.

제한사항

MIG에서 크기 조절 요청을 만들기 위한 제한사항을 검토합니다.

MIG 만들기 및 GPU VM을 한 번에 모두 추가

그룹에서 MIG를 만들고 GPU VM을 한 번에 모두 추가하려면 다음을 수행합니다.

  1. MIG를 만들기 위해 필요한 인스턴스 템플릿을 만듭니다. MIG는 인스턴스 템플릿을 기반으로 그룹의 각 VM을 만듭니다. 템플릿에서 GPU VM의 구성과 크기 조절 요청을 사용하는 데 필요한 추가 구성을 지정합니다.

    인스턴스 템플릿에 대한 자세한 내용은 인스턴스 템플릿 정보를 참고하세요.

  2. MIG 및 크기 조절 요청을 만들어 GPU VM을 한 번에 모두 추가합니다.

인스턴스 템플릿 만들기

이 섹션에 설명된 대로 인스턴스 템플릿을 만든 다음 이 템플릿을 사용하여 MIG를 만듭니다.

콘솔

  1. 인스턴스 템플릿 페이지로 이동합니다.

    인스턴스 템플릿으로 이동

  2. 인스턴스 템플릿 만들기를 클릭합니다.

  3. 이름 필드에 인스턴스 템플릿의 이름을 입력합니다.

  4. 머신 구성 섹션에서 다음을 수행합니다.

    1. GPU 탭을 클릭합니다.
    2. GPU 유형 목록에서 GPU 유형을 선택합니다.
    3. GPU 수 목록에서 GPU 수를 선택합니다.
    4. 머신 유형 목록에서 머신 유형을 선택합니다.
  5. (선택사항) 부팅 디스크 유형 또는 이미지를 변경하려면 부팅 디스크 섹션에서 변경을 클릭합니다. 그런 다음 안내에 따라 부팅 디스크를 변경합니다.

  6. 고급 옵션 섹션을 펼친 후 다음을 수행합니다.

    1. 관리 섹션을 펼칩니다.
    2. 예약 목록에서 사용 안함을 선택합니다.
  7. 만들기를 클릭합니다.

gcloud

instance-templates create 명령어를 사용하여 인스턴스 템플릿을 만듭니다.

다음 명령어는 딥 러닝 VM 이미지를 기반으로 전역 인스턴스 템플릿을 만듭니다.

gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
    --machine-type=MACHINE_TYPE \
    --image-project=deeplearning-platform-release \
    --image-family=common-cu121 \
    --maintenance-policy=TERMINATE \
    --reservation-affinity=none

다음을 바꿉니다.

  • INSTANCE_TEMPLATE_NAME: 인스턴스 템플릿의 이름
  • MACHINE_TYPE: GPU를 지원하는 머신 유형. N1 머신 유형을 지정하는 경우 VM에 연결할 GPU 유형 및 개수를 지정하기 위해 --accelerator 플래그를 포함합니다.

REST

instanceTemplates.insert 메서드에 대해 POST 요청을 수행하여 인스턴스 템플릿을 만듭니다.

다음 요청은 딥 러닝 VM 이미지를 기반으로 전역 인스턴스 템플릿을 만듭니다.

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/global/instanceTemplates

{
  "name": "INSTANCE_TEMPLATE_NAME",
  "properties": {
    "machineType": "MACHINE_TYPE",
    "disks": [
      {
        "boot": true,
        "mode": "READ_WRITE",
        "type": "PERSISTENT",
        "initializeParams": {
          "sourceImage": "projects/deeplearning-platform-release/global/images/family/common-cu121"
        }
      }
    ],
    "networkInterfaces": [
      {
        "accessConfigs": [
          {
            "name": "external-IP",
            "type": "ONE_TO_ONE_NAT"
          }
        ],
        "network": "global/networks/default"
      }
    ],
    "reservationAffinity": {
      "consumeReservationType": "NO_RESERVATION"
    },
    "scheduling": {
      "onHostMaintenance": "TERMINATE"
    }
  }
}

다음을 바꿉니다.

  • PROJECT_ID: MIG를 만들려는 프로젝트의 ID
  • INSTANCE_TEMPLATE_NAME: 인스턴스 템플릿의 이름
  • MACHINE_TYPE: GPU를 지원하는 머신 유형. N1 머신 유형을 지정하는 경우 VM에 연결할 GPU 유형 및 개수를 지정하기 위해 guestAccelerators 필드를 포함합니다.

MIG 만들기 및 GPU VM을 한 번에 모두 추가

이 섹션에 설명된 대로 MIG를 만듭니다. MIG에서 크기 조절 요청을 사용하려면 자동 확장을 구성해서는 안 되며 복구를 사용 중지해야 합니다.

콘솔

  1. 인스턴스 그룹 페이지로 이동합니다.

    인스턴스 그룹으로 이동

  2. 인스턴스 그룹 만들기를 클릭합니다.

  3. 다음 입력란에 정보를 입력합니다.

    1. 이름: 그룹 이름을 입력합니다.
    2. 인스턴스 템플릿: 이전 섹션에서 구성한 인스턴스 템플릿을 선택합니다.
    3. 위치 섹션에서 다음을 수행합니다.
      1. 단일 영역을 선택합니다.
      2. 리전영역 목록에서 그룹을 만들 위치를 선택합니다.

    다음 단계에서 자동 확장 구성을 삭제하고 수리를 사용 중지하면 인스턴스 수 필드가 수정 가능하도록 사용 설정됩니다.

  4. 다음과 같이 자동 확장 구성을 삭제합니다.

    1. 자동 확장 섹션에서 자동 확장 모드 목록을 클릭한 후 자동 확장 구성 삭제를 클릭합니다.
    2. 자동 확장 구성을 삭제할까요? 대화상자에서 삭제를 클릭합니다.
  5. 다음과 같이 MIG에서 복구를 사용 중지합니다.

    VM 인스턴스 수명 주기 필드에서 실패 시 기본 작업작업 없음으로 설정합니다.

  6. 크기 조절 요청을 만들기 위한 GPU VM 수와 실행 기간을 지정합니다.

    1. 인스턴스 수 필드에 한 번에 만들려는 GPU VM 수를 입력합니다.

      인스턴스 그룹 만들기 페이지의 인스턴스 수 필드

    2. 크기 조절 요청을 사용하여 한 번에 모든 VM 만들기 체크박스를 선택합니다. 실행 시간을 입력할 필드가 표시됩니다.

    3. 요청된 실행 기간 필드와 단위 목록에서 GPU VM의 실행 기간을 지정합니다. 기간은 1시간~7일 사이여야 합니다.

  7. 만들기를 클릭합니다.

gcloud

  1. instance-groups managed create 명령어를 사용하여 영역 MIG를 만듭니다.

    gcloud compute instance-groups managed create INSTANCE_GROUP_NAME \
       --template=INSTANCE_TEMPLATE_NAME \
       --size=0 \
       --zone=ZONE \
       --default-action-on-vm-failure=do_nothing
    
  2. MIG에서 instance-groups managed resize-requests create 명령어를 사용하여 크기 조절 요청을 만듭니다. 원하는 GPU VM 수와 해당 VM을 실행할 기간을 지정합니다.

    gcloud compute instance-groups managed resize-requests create INSTANCE_GROUP_NAME \
       --resize-request=RESIZE_REQUEST_NAME \
       --resize-by=COUNT \
       --requested-run-duration=RUN_DURATION\
       --zone=ZONE
    

다음을 바꿉니다.

  • INSTANCE_GROUP_NAME: MIG 이름
  • INSTANCE_TEMPLATE_NAME: GPU VM의 인스턴스 템플릿 이름
  • ZONE: Compute Engine에서 사용할 수 있는 영역 중 하나
  • RESIZE_REQUEST_NAME: 크기 조절 요청의 이름
  • COUNT: 그룹에 한 번에 모두 추가할 VM 수
  • RUN_DURATION: 요청된 VM을 실행할 기간. 값 형식은 각각 d, h, m, s를 사용해서 일, 시간, 분, 초로 지정해야 합니다. 예를 들어 30분이면 30m을 지정하고 1일 2시간 3분 4초면 1d2h3m4s를 지정합니다. 값은 10분~7일 사이여야 합니다.

REST

  1. instanceGroupManagers.insert 메서드POST 요청을 전송하여 영역 MIG를 만듭니다.

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instanceGroupManagers
    
    {
     "versions": [
       {
         "instanceTemplate": "global/instanceTemplates/INSTANCE_TEMPLATE_NAME"
       }
     ],
     "name": "INSTANCE_GROUP_NAME",
     "targetSize": 0,
     "instanceLifecyclePolicy": {
       "defaultActionOnFailure": "DO_NOTHING"
     }
    }
    
  2. MIG에서 instanceGroupManagerResizeRequests.insert 메서드에 대해 POST 요청을 실행하여 크기 조절 요청을 만듭니다. 요청 본문에서 한 번에 만들려는 GPU VM의 수와 해당 VM을 실행할 기간을 지정합니다.

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instanceGroupManagers/INSTANCE_GROUP_NAME/resizeRequests
    
    {
     "name": "RESIZE_REQUEST_NAME",
     "resizeBy": COUNT,
     "requestedRunDuration": {
       "seconds": "RUN_DURATION"
     }
    }
    

다음을 바꿉니다.

  • PROJECT_ID: MIG를 만들려는 프로젝트의 ID
  • INSTANCE_GROUP_NAME: MIG 이름
  • INSTANCE_TEMPLATE_NAME: GPU VM의 인스턴스 템플릿 이름
  • ZONE: Compute Engine에서 사용할 수 있는 영역 중 하나
  • RESIZE_REQUEST_NAME: 크기 조절 요청의 이름
  • COUNT: 그룹에 한 번에 모두 추가할 VM 수
  • RUN_DURATION: MIG에서 자동으로 삭제되기 전까지 요청된 VM을 실행하려는 기간(초). 값은 600초(10분)를 나타내는 600에서 604,800초(7일)를 나타내는 604800 사이여야 합니다.

생성한 크기 조절 요청은 MIG가 요청한 모든 GPU VM을 만들 때까지 ACCEPTED 상태로 유지됩니다. 그룹에 있는 모든 GPU VM이 생성되면 요청 상태가 SUCCEEDED로 변경됩니다.

다음 단계