추론 워크로드의 TPU 컬렉션 스케줄링

Trillium(v6e)에는 동일한 모델의 복제본을 서빙하기 위한 단일 또는 멀티 호스트 TPU 슬라이스 집합을 그룹화할 수 있는 "컬렉션 스케줄링" 기능이 포함되어 있습니다. 이 기능은 Cloud TPU와 GKE 구성 모두에서 사용할 수 있습니다.

이 문서에서는 Cloud TPU API에서 컬렉션 스케줄링을 사용하는 방법에 대해 설명합니다. GKE에서 컬렉션 스케줄링을 사용하는 방법은 GKE 문서를 참조하세요.

추론 워크로드에 대해 컬렉션을 만들면Google Cloud 는 추론 워크로드의 운영 중단을 최소화하고 효율적으로 관리합니다. 이 기능은 고가용성이 중요한 추론 워크로드에 유용합니다. Google Cloud 는 수신되는 트래픽을 관리하도록 컬렉션에 대해 고가용성을 보장합니다. 항상 컬렉션 내의 일부 슬라이스가 수신되는 트래픽을 처리할 수 있습니다.

컬렉션의 각 TPU 슬라이스에는 동일한 가속기 유형 및 토폴로지가 포함됩니다.

Cloud TPU API에서 컬렉션 만들기

Cloud TPU API를 사용해 큐에 추가된 리소스를 요청할 때는 --workload-type=AVAILABILITY-OPTIMIZED 플래그를 사용하여 컬렉션을 만듭니다. 이 플래그는 해당 리소스가 가용성 중심의 워크로드에 사용된다는 것을 Cloud TPU 인프라에 알립니다.

다음 명령어는 Cloud TPU API를 사용하여 컬렉션을 프로비저닝합니다.

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

--node-count 플래그는 큐에 추가된 리소스에서 사용자가 원하는 슬라이스 수를 지정합니다. 이렇게 하면 TPU 슬라이스 컬렉션이 생성됩니다.

선택사항: --node-prefix 플래그는 슬라이스 이름에 대한 프리픽스를 지정합니다.