할당량

이 문서에서는 Cloud TPU에 적용되는 할당량을 설명합니다. Cloud TPU 가격 책정에 대한 자세한 내용은 Cloud TPU 가격 책정을 참조하세요.

할당량은 하드웨어, 소프트웨어, 네트워크 구성요소를 포함하여 Google Cloud 프로젝트에서 사용할 수 있는 공유 Google Cloud 리소스의 양을 제한합니다. 따라서 할당량은 다음을 수행하는 시스템에 속합니다.

  • Google Cloud 제품 및 서비스 사용 또는 소비량을 모니터링합니다.
  • 공정성 보장 및 사용량 급증 방지 등의 이유로 리소스 소비를 제한합니다.
  • 사전 정의된 제한사항을 자동으로 적용하는 구성을 유지합니다.
  • 할당량을 요청하거나 변경할 수 있는 수단을 제공합니다.

대부분의 경우 할당량이 초과되면 시스템에서 관련 Google 리소스에 대한 액세스를 즉시 차단하고 수행하려는 작업이 실패합니다. 대부분의 경우 할당량은 각 Google Cloud 프로젝트에 적용되며 해당 Google Cloud 프로젝트를 사용하는 모든 애플리케이션과 IP 주소 전반에 공유됩니다.

할당량 설정

할당량은 사용 중인 TPU 버전에 따라 다르게 부여됩니다. TPU v4 이상에서는 할당량이 Cloud TPU 칩 또는 TensorCore의 기준으로 지정됩니다. 모든 TPU v4는 슬라이스로 처리되므로 단일 TPU 기기의 개념이 없습니다. 할당량은 모든 슬라이스 조합에서 사용할 수 있습니다. 예를 들어 v4-32 슬라이스에 대해 할당량이 있으면 이 할당량을 사용하여 4개의 v4-8 슬라이스를 만들 수 있습니다.

추론을 위해 v5e 인스턴스(v5litepod-1, v5litepod-4, v5litepod-8)를 만들려면 주문형 TPU의 경우 tpu-v5s-litepod-serving, 선점형 TPU의 경우 tpu-v5s-litepod-serving-preemptible, 예약 TPU의 경우 tpu-v5s-litepod-serving-reserved 서빙 할당량 유형이 필요합니다.

TPU v2 및 v3의 경우 TensorCore의 기준으로 할당량이 지정됩니다. 단일 Cloud TPU 기기는 4개의 TPU 칩과 8개의 TensorCore, TPU 칩당 2개의 TensorCore로 구성됩니다. TPU v2 및 v3에는 단일 기기 및 TPU Pod에 대해 별개의 할당량이 포함됩니다. v2-8 또는 v3-8 TPU에는 v2 또는 v3 TPU Pod 할당량을 사용할 수 없습니다. 예를 들어 v3-32 슬라이스에 대한 할당량이 있으면 이를 사용하여 4개의 v3-8 TPU를 만들 수 없습니다.

TPU 칩 및 TensorCore에 대한 자세한 내용은 TPU 시스템 아키텍처를 참조하세요.

할당량 유형

예약, 주문형, 선점형 Cloud TPU 리소스에는 별도의 할당량이 적용됩니다. 다음 표에서는 각 할당량 유형의 기능을 비교합니다.

할당량 유형 설명 기본값 요청 방법 TPU 생성 플래그
예약됨 예약된 TPU의 할당량입니다. 예약을 사용하면 높은 수준의 확신으로 Cloud TPU 용량을 확보할 수 있습니다. 예약 인스턴스는 용량 부족으로부터 보호되지만 중단될 수 있습니다. 예약 리소스에 액세스하려면 약정 사용 할인(CUD)이 있어야 합니다. 0 예약을 요청하려면 Cloud TPU 가입 양식을 작성합니다. --reserved 플래그를 사용합니다.
주문형 예약되지 않고 선점되지 않은 TPU의 할당량입니다. Cloud TPU 리소스의 할당량 한도까지 요청할 수 있지만 리소스의 가용성이 보장되지는 않습니다. v3-8 및 v2-8: TensorCore 16개
기타: 0개
추가 할당량 요청을 참조하세요. 플래그가 필요하지 않으며 기본적으로 선택되어 있습니다.
선점형 선점형 TPU의 할당량입니다. Cloud TPU 서비스는 우선순위가 더 높은 작업을 위해 추가 리소스가 필요한 경우 언제든지 이러한 TPU를 종료할 수 있습니다. 리소스 가용성은 보장되지 않습니다. 자세한 내용은 선점형 TPU를 참조하세요. v3-8 및 v2-8: TensorCore 48개
기타: 0개
추가 할당량 요청을 참조하세요. --preemptible 플래그 또는 큐에 추가된 리소스 요청에 --best-effort 플래그를 사용합니다.

추가 할당량 보기 및 요청

Google Cloud 콘솔의 할당량 페이지에서 Google Cloud 프로젝트에 할당된 할당량을 확인할 수 있습니다. Cloud TPU 할당량이 추가로 필요한 경우 할당량 페이지에서 요청하면 됩니다. 자세한 내용은 더 높은 할당량 한도 요청을 참조하세요.