GKE의 AI/ML 워크로드용 액셀러레이터 사용 옵션 정보


이 페이지에서는 AI/ML 워크로드의 요구사항에 따라 GPU 또는 TPU와 같은 컴퓨팅 가속기를 확보하는 데 사용할 수 있는 기법을 설명합니다. 이러한 기법을 GKE에서는 가속기 사용 옵션이라고 합니다. 다양한 소비 옵션을 이해하면 리소스 활용도를 최적화하여 리소스 부족을 방지하고, 리소스를 확보할 가능성을 높이며, 비용과 성능의 균형을 맞출 수 있습니다.

이 페이지는 머신러닝 (ML) 엔지니어와 협력하여 AI/ML 워크로드를 성공적으로 배포하는 데 필요한 리소스를 확보하는 플랫폼 관리자 및 운영자를 대상으로 합니다.

Google Cloud 콘텐츠에서 참조하는 일반적인 역할 및 예시 태스크에 대해 자세히 알아보려면 일반 GKE 사용자 역할 및 태스크를 참조하세요.

소비 옵션 이해

다음 옵션 중에서 선택하여 GKE에서 가속기를 사용할 수 있습니다.

  • 주문형: 미리 용량을 준비하지 않고 GKE에서 TPU 또는 GPU를 사용합니다. 리소스를 요청하기 전에 특정 유형 및 수량의 가속기에 대한 주문형 할당량이 충분해야 합니다. 주문형은 가장 유연한 소비 옵션이지만 요청을 충족할 만큼 충분한 주문형 리소스가 제공된다고 보장할 수는 없습니다.
  • 예약: 설정된 기간 동안 리소스를 예약합니다. 예약은 다음 중 하나일 수 있습니다.
    • 미래용 예약: 일반적으로 미래의 특정 시간에 더 긴 기간 동안 리소스를 예약합니다. 해당 기간 동안 예약된 리소스에 독점적으로 액세스할 수 있습니다. 미래용 예약에는 기술계정 관리자 (TAM)와의 협의가 필요합니다. 자세한 내용은 TPUGPU 안내를 참고하세요.
    • 최대 90일간의 미래용 예약 (캘린더 모드): 사용 가능한 날짜를 제안하는 캘린더 어드바이저와 함께 지정된 기간의 용량을 요청합니다. 최대 90일간의 미래용 예약 (캘린더 모드)은 단기 사용에 더 유연하며 셀프 서비스 용량 검색을 제공합니다. 자세한 내용은 캘린더 모드의 미래용 예약 요청을 참고하세요.
    • 온디맨드 예약: 온디맨드 옵션과 마찬가지로 용량을 사용할 수 있게 되는 즉시 프로비저닝되도록 온디맨드 예약을 요청할 수 있습니다. 예약이 활성 상태인 동안 리소스 사용 여부와 관계없이 비용을 지불합니다.
  • Flex-start: 예약 없이 단기 워크로드에 대해 밀도 높게 할당된 리소스를 확보합니다. 특정 수의 GPU 또는 TPU를 요청하면 용량이 확보될 때 Compute Engine에서 이를 프로비저닝합니다. GPU 또는 TPU는 최대 7일 동안 중단 없이 실행됩니다. 자세한 내용은 유연한 시작 프로비저닝을 참고하세요.
  • 스팟: 스팟 VM을 프로비저닝하여 상당한 할인을 받을 수 있지만 스팟 VM은 언제든지 30초 경고와 함께 선점될 수 있습니다. 자세한 내용은 스팟 VM을 참고하세요.

GKE의 가속기 할당량 이해

할당량과 시스템 한도는 모든 Google Cloud 사용자의 리소스 가용성을 지원하기 위해 Google Cloud 리소스 사용을 제한합니다. 할당량에는 기본값이 있지만 일반적으로 조정을 요청할 수 있습니다. 시스템 한도는 변경할 수 없는 고정 값입니다. 기본적으로 프로젝트에는 일반적으로 상당한 액셀러레이터 할당량이 제공되지 않습니다. 특정 가속기 유형 및 리전의 할당량을 요청하고 승인을 받아야 합니다.

워크로드에 필요한 할당량을 관리할 때는 다음 특성을 고려하세요.

  • 각 소비 옵션에 필요한 할당량을 요청해야 합니다. 각 소비 옵션에 필요한 할당량을 확인하려면 소비 옵션 선택 표에 나열된 해당 '할당량' 매개변수를 참고하세요. 할당량이 충분하지 않으면 클러스터, 노드 풀을 만들거나 액셀러레이터가 필요한 워크로드를 배포하려고 하면 Quota exceeded 오류가 발생합니다.

  • Autopilot에서 커스텀 컴퓨팅 클래스를 사용하는 경우 할당량을 요청해야 합니다. 컴퓨팅 클래스 요구사항을 충족하기 위해 프로비저닝된 노드는 지정된 액셀러레이터에 대한 프로젝트의 할당량을 계속 사용합니다.

  • Google Cloud 무료 체험 계정은 GPU 및 TPU와 같은 고가치 리소스의 할당량 상향 조정을 요청하는 데 제한이 있습니다. 액셀러레이터 할당량에 액세스하려면 유료 계정으로 업그레이드하세요.

할당량을 확인하고 요청하려면 Google Cloud 콘솔의 할당량 페이지로 이동하세요. 액셀러레이터 할당량을 필터링하고 증가를 요청할 수 있습니다.

소비 옵션 선택

다음 고려사항을 사용하여 AI/ML 워크로드에 가장 적합한 소비 옵션을 선택하세요.

  • 워크로드 유형: 구현하려는 워크로드 유형을 고려합니다. 학습 또는 추론 워크로드를 실행하는 경우 GKE 요구사항이 다릅니다.
    • 학습: 상당한 메모리가 있는 고성능 리소스가 필요합니다. 학습 워크로드에는 일반적으로 잘 정의된 수명이 있습니다. 이러한 워크로드는 리소스 소비가 갑자기 급증할 가능성이 적기 때문에 계획하기가 더 쉬운 경우가 많습니다.
    • 추론: 일반적으로 확장성과 낮은 비용에 최적화된 액셀러레이터가 필요합니다. 추론 워크로드에는 리소스 소비가 갑자기 급증하는 동안 상당한 액셀러레이터 메모리가 필요할 수 있습니다.
  • 구현 단계에 따른 수명: 개념 증명 (POC), 플랫폼 평가, 애플리케이션 개발 또는 테스트, 프로덕션화 또는 최적화를 실행하는 경우 비즈니스 목표를 고려하세요.
  • 프로비저닝 시간: 워크로드에 즉시 실행이 필요한지 아니면 나중에 실행해도 되는지 결정합니다. 향후 실행이 가능한 경우 시작 시간이 얼마나 유연할 수 있는지 확인합니다.
  • 비용과 성능 간 균형: 워크로드 성능 요구사항과 예산 제약 조건을 평가하여 가장 비용 효율적인 액셀러레이터를 선택합니다. 액셀러레이터의 비용과 성능 특성 간의 절충점을 고려하세요. 새로운 가속기를 사용하면 비용 대비 성능 비율이 향상될 수 있습니다.

다음 표를 사용하여 소비 옵션을 선택합니다.

워크로드 유형 프로비저닝 시간 수명 권장 소비 옵션
  • 파운데이션 모델 사전 학습 또는 멀티 호스트 추론과 같은 장기 실행 대규모 워크로드
  • 프로덕션 워크로드.
즉시 (승인된 예약 포함) 장기 (예약당)

A4X, A4 또는 A3 Ultra를 제외한 GPU 또는 TPU를 사용하려면 온디맨드 예약을 사용하세요.

  • 비용: 전체 예약 기간에 대한 비용이 청구됩니다.
  • 할당량: 용량이 제공되기 전에 할당량이 자동으로 증가합니다.

G2, A2, A3 High 또는 A3 Mega 가속기를 사용하려면 미래용 예약을 사용하세요.

  • 비용: 전체 예약 기간에 대한 비용이 청구됩니다.
  • 할당량: 용량이 제공되기 전에 할당량이 자동으로 증가합니다.
  • 정확한 시작 시간이 필요한 모델 미세 조정, 시뮬레이션 또는 일괄 추론과 같은 단기 분산 워크로드
  • 플랫폼 평가, 벤치마킹 또는 최적화 테스트를 위한 워크로드입니다.
즉시 (승인된 예약 포함) 최대 90일

최대 90일 동안의 미래 예약 (캘린더 모드):

  • 비용: 할인 (최대 53%) 예약 기간에 대한 요금이 청구됩니다.
  • 할당량: 할당량이 청구되지 않습니다.
  • 지원되는 가속기: A4, A3 Ultra, TPU v5e, TPU v5p, TPU Trillium
  • 시작 시간이 유연한 소규모 모델 학습, 미세 조정 또는 확장 가능한 추론과 같은 배치 워크로드
  • POC 또는 통합 테스트용 워크로드
주문형 (제공 가능 여부에 따라 다름) 할당당 최대 7일

Flex-start 프로비저닝 모드:

  • 비용: 할인 (최대 53%) 사용한 만큼만 지불합니다.
  • 할당량: GPU 선점형 할당량 또는 TPU 선점형 할당량에 요금이 청구됩니다.
  • 지원되는 가속기: A4X를 제외한 모든 GPU 제품군 모든 TPU 버전
  • CI/CD, 데이터 분석, 고성능 컴퓨팅 (HPC)과 같은 우선순위가 낮고 내결함성이 있는 워크로드
  • 중단 가능성이 높은 워크로드
주문형 (제공 가능 여부에 따라 다름) 가변적이며 30초 경고와 함께 선점될 수 있음

스팟 VM:

  • 비용: 대폭 할인 (60~91%) 사용한 만큼만 지불합니다.
  • 할당량: GPU 선점형 할당량 또는 TPU 선점형 할당량에 요금이 청구됩니다.
  • 지원되는 가속기: A4X를 제외한 모든 GPU 제품군 모든 TPU 버전
  • 즉시 실행해야 하는 범용 워크로드
즉시 (제공 가능 여부에 따라 다름) 제한 없음

주문형 (GPU 또는 TPU):

  • 비용: 사용한 만큼만 지불합니다.
  • 할당량: GPU 또는 TPU 주문형 할당량에 요금이 청구됩니다.
  • 지원되는 가속기: A4X, A4, A3 Ultra를 제외한 모든 GPU 계열 모든 TPU 버전

다음 단계