이 페이지에서는 AI/ML 워크로드의 요구사항에 따라 GPU 또는 TPU와 같은 컴퓨팅 가속기를 확보하는 데 사용할 수 있는 기법을 설명합니다. 이러한 기법을 GKE에서는 가속기 사용 옵션이라고 합니다. 다양한 소비 옵션을 이해하면 리소스 활용도를 최적화하여 리소스 부족을 방지하고, 리소스를 확보할 가능성을 높이며, 비용과 성능의 균형을 맞출 수 있습니다.
이 페이지는 머신러닝 (ML) 엔지니어와 협력하여 AI/ML 워크로드를 성공적으로 배포하는 데 필요한 리소스를 확보하는 플랫폼 관리자 및 운영자를 대상으로 합니다.
Google Cloud 콘텐츠에서 참조하는 일반적인 역할 및 예시 태스크에 대해 자세히 알아보려면 일반 GKE 사용자 역할 및 태스크를 참조하세요.
소비 옵션 이해
다음 옵션 중에서 선택하여 GKE에서 가속기를 사용할 수 있습니다.
- 주문형: 미리 용량을 준비하지 않고 GKE에서 TPU 또는 GPU를 사용합니다. 리소스를 요청하기 전에 특정 유형 및 수량의 가속기에 대한 주문형 할당량이 충분해야 합니다. 주문형은 가장 유연한 소비 옵션이지만 요청을 충족할 만큼 충분한 주문형 리소스가 제공된다고 보장할 수는 없습니다.
- 예약: 설정된 기간 동안 리소스를 예약합니다. 예약은 다음 중 하나일 수 있습니다.
- 미래용 예약: 일반적으로 미래의 특정 시간에 더 긴 기간 동안 리소스를 예약합니다. 해당 기간 동안 예약된 리소스에 독점적으로 액세스할 수 있습니다. 미래용 예약에는 기술계정 관리자 (TAM)와의 협의가 필요합니다. 자세한 내용은 TPU 및 GPU 안내를 참고하세요.
- 최대 90일간의 미래용 예약 (캘린더 모드): 사용 가능한 날짜를 제안하는 캘린더 어드바이저와 함께 지정된 기간의 용량을 요청합니다. 최대 90일간의 미래용 예약 (캘린더 모드)은 단기 사용에 더 유연하며 셀프 서비스 용량 검색을 제공합니다. 자세한 내용은 캘린더 모드의 미래용 예약 요청을 참고하세요.
- 온디맨드 예약: 온디맨드 옵션과 마찬가지로 용량을 사용할 수 있게 되는 즉시 프로비저닝되도록 온디맨드 예약을 요청할 수 있습니다. 예약이 활성 상태인 동안 리소스 사용 여부와 관계없이 비용을 지불합니다.
- Flex-start: 예약 없이 단기 워크로드에 대해 밀도 높게 할당된 리소스를 확보합니다. 특정 수의 GPU 또는 TPU를 요청하면 용량이 확보될 때 Compute Engine에서 이를 프로비저닝합니다. GPU 또는 TPU는 최대 7일 동안 중단 없이 실행됩니다. 자세한 내용은 유연한 시작 프로비저닝을 참고하세요.
- 스팟: 스팟 VM을 프로비저닝하여 상당한 할인을 받을 수 있지만 스팟 VM은 언제든지 30초 경고와 함께 선점될 수 있습니다. 자세한 내용은 스팟 VM을 참고하세요.
GKE의 가속기 할당량 이해
할당량과 시스템 한도는 모든 Google Cloud 사용자의 리소스 가용성을 지원하기 위해 Google Cloud 리소스 사용을 제한합니다. 할당량에는 기본값이 있지만 일반적으로 조정을 요청할 수 있습니다. 시스템 한도는 변경할 수 없는 고정 값입니다. 기본적으로 프로젝트에는 일반적으로 상당한 액셀러레이터 할당량이 제공되지 않습니다. 특정 가속기 유형 및 리전의 할당량을 요청하고 승인을 받아야 합니다.
워크로드에 필요한 할당량을 관리할 때는 다음 특성을 고려하세요.
각 소비 옵션에 필요한 할당량을 요청해야 합니다. 각 소비 옵션에 필요한 할당량을 확인하려면 소비 옵션 선택 표에 나열된 해당 '할당량' 매개변수를 참고하세요. 할당량이 충분하지 않으면 클러스터, 노드 풀을 만들거나 액셀러레이터가 필요한 워크로드를 배포하려고 하면
Quota exceeded
오류가 발생합니다.Autopilot에서 커스텀 컴퓨팅 클래스를 사용하는 경우 할당량을 요청해야 합니다. 컴퓨팅 클래스 요구사항을 충족하기 위해 프로비저닝된 노드는 지정된 액셀러레이터에 대한 프로젝트의 할당량을 계속 사용합니다.
Google Cloud 무료 체험 계정은 GPU 및 TPU와 같은 고가치 리소스의 할당량 상향 조정을 요청하는 데 제한이 있습니다. 액셀러레이터 할당량에 액세스하려면 유료 계정으로 업그레이드하세요.
할당량을 확인하고 요청하려면 Google Cloud 콘솔의 할당량 페이지로 이동하세요. 액셀러레이터 할당량을 필터링하고 증가를 요청할 수 있습니다.
소비 옵션 선택
다음 고려사항을 사용하여 AI/ML 워크로드에 가장 적합한 소비 옵션을 선택하세요.
- 워크로드 유형: 구현하려는 워크로드 유형을 고려합니다.
학습 또는 추론 워크로드를 실행하는 경우 GKE 요구사항이 다릅니다.
- 학습: 상당한 메모리가 있는 고성능 리소스가 필요합니다. 학습 워크로드에는 일반적으로 잘 정의된 수명이 있습니다. 이러한 워크로드는 리소스 소비가 갑자기 급증할 가능성이 적기 때문에 계획하기가 더 쉬운 경우가 많습니다.
- 추론: 일반적으로 확장성과 낮은 비용에 최적화된 액셀러레이터가 필요합니다. 추론 워크로드에는 리소스 소비가 갑자기 급증하는 동안 상당한 액셀러레이터 메모리가 필요할 수 있습니다.
- 구현 단계에 따른 수명: 개념 증명 (POC), 플랫폼 평가, 애플리케이션 개발 또는 테스트, 프로덕션화 또는 최적화를 실행하는 경우 비즈니스 목표를 고려하세요.
- 프로비저닝 시간: 워크로드에 즉시 실행이 필요한지 아니면 나중에 실행해도 되는지 결정합니다. 향후 실행이 가능한 경우 시작 시간이 얼마나 유연할 수 있는지 확인합니다.
- 비용과 성능 간 균형: 워크로드 성능 요구사항과 예산 제약 조건을 평가하여 가장 비용 효율적인 액셀러레이터를 선택합니다. 액셀러레이터의 비용과 성능 특성 간의 절충점을 고려하세요. 새로운 가속기를 사용하면 비용 대비 성능 비율이 향상될 수 있습니다.
다음 표를 사용하여 소비 옵션을 선택합니다.
워크로드 유형 | 프로비저닝 시간 | 수명 | 권장 소비 옵션 |
---|---|---|---|
|
즉시 (승인된 예약 포함) | 장기 (예약당) | A4X, A4 또는 A3 Ultra를 제외한 GPU 또는 TPU를 사용하려면 온디맨드 예약을 사용하세요.
|
G2, A2, A3 High 또는 A3 Mega 가속기를 사용하려면 미래용 예약을 사용하세요.
|
|||
|
즉시 (승인된 예약 포함) | 최대 90일 |
|
|
주문형 (제공 가능 여부에 따라 다름) | 할당당 최대 7일 |
|
|
주문형 (제공 가능 여부에 따라 다름) | 가변적이며 30초 경고와 함께 선점될 수 있음 |
|
|
즉시 (제공 가능 여부에 따라 다름) | 제한 없음 |
다음 단계
- GKE의 GPU 자세히 알아보기
- GKE의 TPU 자세히 알아보기
- GKE의 AI/ML 추론에 대해 자세히 알아보세요.