추론 워크로드의 TPU 수집 예약

Trillium (v6e)에는 동일한 모델의 복제본을 제공하기 위한 단일 또는 멀티호스트 TPU 슬라이스 집합을 그룹화할 수 있는 '수집 예약'이라는 기능이 포함되어 있습니다. 이 기능은 Cloud TPU 구성과 GKE 구성 모두에서 사용할 수 있습니다.

이 문서에서는 Cloud TPU API로 수집 예약을 사용하는 방법을 설명합니다. GKE에서 수집 예약을 사용하는 방법에 관한 자세한 내용은 GKE 문서를 참고하세요.

추론 워크로드의 컬렉션을 만들면Google Cloud 가 추론 워크로드 작업의 중단을 제한하고 간소화합니다. 이는 고가용성이 중요한 추론 워크로드에 유용합니다. Google Cloud 는 수집이 수신 트래픽을 관리할 수 있도록 고가용성을 보장합니다. 수집 내 슬라이스의 일부는 항상 수신 트래픽을 처리하는 데 사용할 수 있습니다.

컬렉션의 각 TPU 슬라이스는 동일한 가속기 유형과 토폴로지를 갖습니다.

수집 예약은 v6e에만 적용됩니다.

Cloud TPU API에서 컬렉션 만들기

Cloud TPU API를 사용하여 큐에 추가된 리소스를 요청할 때는 --workload-type = AVAILABILITY-OPTIMIZED 플래그를 사용하여 컬렉션을 만듭니다. 이 플래그는 Cloud TPU 인프라에 가용성 중심 워크로드에 사용하도록 설계되었음을 나타냅니다.

다음 명령어는 Cloud TPU API를 사용하여 컬렉션을 프로비저닝합니다.

gcloud alpha compute tpus queued-resources create serving-QR \
   --project=$PROJECT_ID \
   --zone=${ZONE} \
   --accelerator-type ${ACCELERATOR_TYPE} \
   --node-count ${NODE_COUNT} \
   --node-prefix "servingTPU" \
   --workload-type = AVAILABILITY-OPTIMIZED

--node-count 플래그는 대기열에 추가할 리소스의 슬라이스 수를 지정합니다. 이렇게 하면 TPU 슬라이스 모음이 생성됩니다.

선택사항: --node-prefix 플래그는 슬라이스 이름의 접두사를 지정합니다.