Trillium(v6e)에는 동일한 모델의 복제본을 서빙하기 위한 단일 또는 멀티 호스트 TPU 슬라이스 집합을 그룹화할 수 있는 "컬렉션 스케줄링" 기능이 포함되어 있습니다. 이 기능은 Cloud TPU와 GKE 구성 모두에서 사용할 수 있습니다.
이 문서에서는 Cloud TPU API에서 컬렉션 스케줄링을 사용하는 방법에 대해 설명합니다. GKE에서 컬렉션 스케줄링을 사용하는 방법은 GKE 문서를 참조하세요.
추론 워크로드에 대해 컬렉션을 만들면Google Cloud 는 추론 워크로드의 운영 중단을 최소화하고 효율적으로 관리합니다.
이 기능은 고가용성이 중요한 추론 워크로드에 유용합니다. Google Cloud 는 수신되는 트래픽을 관리하도록 컬렉션에 대해 고가용성을 보장합니다. 항상 컬렉션 내의 일부 슬라이스가 수신되는 트래픽을 처리할 수 있습니다.
컬렉션의 각 TPU 슬라이스에는 동일한 가속기 유형 및 토폴로지가 포함됩니다.
Cloud TPU API에서 컬렉션 만들기
Cloud TPU API를 사용해 큐에 추가된 리소스를 요청할 때는 --workload-type=AVAILABILITY-OPTIMIZED 플래그를 사용하여 컬렉션을 만듭니다. 이 플래그는 해당 리소스가 가용성 중심의 워크로드에 사용된다는 것을 Cloud TPU 인프라에 알립니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[],[],null,["# TPU collection scheduling for inference workloads\n=================================================\n\nTrillium (v6e) includes a feature called \"collection scheduling\" that lets\nyou group a set of TPU slices, single or multi-host, intended to serve replicas\nof the same model. This feature is available for both Cloud TPU and GKE configurations.\n\nThis document is about using collection scheduling with the\nCloud TPU API. See the\n[GKE documentation](/kubernetes-engine/docs/concepts/tpus#collection-scheduling)\nfor more information about using collection scheduling with GKE.\n\nBy creating a collection for\nyour inference workload,\nGoogle Cloud limits and streamlines\ninterruptions to the operations of inference workloads.\nThis is useful for inference workloads where high availability\nis a concern. Google Cloud ensures high availability\nfor the collection to manage incoming traffic. A portion of\nslices within a collection is always available to handle incoming traffic.\n\nEach TPU slice in a collection will have the same accelerator type and topology.\n| **Note:** Collection scheduling only applies to v6e.\n\n### Create a collection from the Cloud TPU API\n\nWhen you request a queued resource using the Cloud TPU API,\nyou use the `--workload-type=AVAILABILITY-OPTIMIZED` flag to create a\ncollection. This flag indicates to the Cloud TPU infrastructure that it is\nmeant to be used for availability-focused workloads.\n\nThe following command provisions a collection using the\nCloud TPU API: \n\n```bash\ngcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \\\n --project=PROJECT_ID \\\n --zone=ZONE \\\n --accelerator-type=ACCELERATOR_TYPE \\\n --runtime-version=RUNTIME_VERSION \\\n --node-count=NODE_COUNT \\\n --node-prefix=NODE_PREFIX \\\n --workload-type=AVAILABILITY-OPTIMIZED\n```\n\nThe `--node-count` flag specifies the number of slices you want in your\nqueued resource. This creates a collection of TPU slices.\n\nOptional: The `--node-prefix` flag specifies a prefix for the slice names.\n| **Note:** The supported accelerator types are described in [v6e supported configurations](/tpu/docs/v6e#configurations)."]]