단일 VM에 연결된 8개의 칩(v6e-8)이 있는 슬라이스는 추론에 최적화되어 단일 서빙 워크로드에서 8개의 칩을 모두 사용할 수 있습니다. Cloud에서 Pathways를 사용하여 멀티 호스트 추론을 실행할 수 있습니다. 자세한 내용은 Pathways를 사용하여 멀티 호스트 추론 실행을 참고하세요.
각 TPU v6e VM에는 1개, 4개 또는 8개의 칩이 포함될 수 있습니다. 4칩의 작은 슬라이스는 동일한 비균일 메모리 액세스(NUMA) 노드를 갖게 됩니다. NUMA 노드에 대한 자세한 내용은 Wikipedia에서 비균일 메모리 액세스를 참고하세요.
v6e 슬라이스는 각각 TPU 칩 4개가 있는 절반 호스트 VM을 사용하여 생성됩니다. 이 규칙에는 두 가지 예외가 있습니다.
v6e-1: 테스트를 위해 설계된 단일 칩 VM
v6e-8: 단일 VM에 8개의 칩이 모두 연결되어 추론 사용 사례에 최적화된 전체 호스트 VM
다음 표에서는 TPU v6e VM 유형을 비교합니다.
VM 유형
VM당 vCPU 수
VM당 RAM(GB)
VM당 NUMA 노드 수
1칩 VM
44
176
1
4칩 VM
180
720
1
8칩 VM
180
1440
2
v6e 구성 지정
TPU API를 사용하여 TPU v6e 슬라이스를 할당할 때 AcceleratorType 매개변수를 사용하여 크기와 모양을 지정합니다.
GKE를 사용하는 경우 --machine-type 플래그를 사용하여 사용하려는 TPU를 지원하는 머신 유형을 지정합니다. 자세한 내용은 GKE 문서의 GKE에서 TPU 계획을 참고하세요.
AcceleratorType 사용
TPU 리소스를 할당할 때 AcceleratorType을 사용하여 슬라이스에서 TensorCore 수를 지정합니다. AcceleratorType에 지정하는 값은 v$VERSION-$TENSORCORE_COUNT 형식의 문자열입니다.
예를 들어 v6e-8은 TensorCore 8개가 있는 v6e TPU 슬라이스를 지정합니다.
다음 예시에서는 AcceleratorType을 사용하여 TensorCore 32개가 포함된 TPU v6e 슬라이스를 만드는 방법을 보여줍니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[],[],null,["# TPU v6e\n=======\n\nThis document describes the architecture and supported configurations of\nCloud TPU v6e (Trillium).\n\nTrillium is Cloud TPU's latest generation AI accelerator. On all technical\nsurfaces, such as the API and logs, and throughout this document, Trillium will\nbe referred to as v6e.\n\nWith a 256-chip footprint per Pod, v6e shares many similarities with\n[v5e](/tpu/docs/v5e). This system is optimized to be the highest value product for\ntransformer, text-to-image, and convolutional neural network (CNN) training,\nfine-tuning, and serving.\n\nSystem architecture\n-------------------\n\nEach v6e chip contains one TensorCore. Each TensorCore has 2 matrix-multiply\nunits (MXU), a vector unit, and a scalar unit. The following table shows the key\nspecifications and their values for TPU v6e compared to TPU v5e.\n\nSupported configurations\n------------------------\n\nThe following table shows the 2D slice shapes that are supported for v6e:\n\n| **Note:** The 8-chip (2x4) configuration attached to 2 VMs is only supported when using the GKE API.\n\nSlices with 8 chips (`v6e-8`) attached to a single VM are optimized for\ninference, allowing all 8 chips to be used in a single serving workload. You can\nperform multi-host inference using Pathways on Cloud. For more information, see\n[Perform multihost inference using Pathways](/ai-hypercomputer/docs/workloads/pathways-on-cloud/multihost-inference)\n\nFor information about the number of VMs for each topology, see\n[VM Types](#vm-types).\n\n### VM types\n\nEach TPU v6e VM can contain 1, 4, or 8 chips. 4-chip and smaller\nslices have the same non-uniform memory access (NUMA) node. For more information\nabout NUMA nodes, see [Non-uniform memory\naccess](https://en.wikipedia.org/wiki/Non-uniform_memory_access) on Wikipedia.\n\nv6e slices are created using half-host VMs, each with 4 TPU chips. There are two\nexceptions to this rule:\n\n- `v6e-1`: A VM with only a single chip, primarily intended for testing\n- `v6e-8`: A full-host VM that has been optimized for an inference use case with all 8 chips attached to a single VM.\n\nThe following table shows a comparison of TPU v6e VM types:\n\n| **Note:** We don't recommend using a full-host VM (`v6e-8` with one VM) for dual networks due to performance impacts.\n\nSpecify v6e configuration\n-------------------------\n\nWhen you allocate a TPU v6e slice using the TPU API, you specify its size and\nshape using the [`AcceleratorType`](#accelerator-type) parameter.\n\nIf you're using GKE, use the `--machine-type` flag to specify a\nmachine type that supports the TPU you want to use. For more information, see\n[Plan TPUs in GKE](/kubernetes-engine/docs/concepts/plan-tpus) in the GKE\ndocumentation.\n\n### Use `AcceleratorType`\n\nWhen you allocate TPU resources, you use `AcceleratorType` to specify the number\nof TensorCores in a slice. The value you specify for\n`AcceleratorType` is a string with the format: `v$VERSION-$TENSORCORE_COUNT`.\nFor example, `v6e-8` specifies a v6e TPU slice with 8 TensorCores.\n\nThe following example shows how to create a TPU v6e slice with 32 TensorCores\nusing `AcceleratorType`: \n\n### gcloud\n\n```bash\n $ gcloud compute tpus tpu-vm create tpu-name \\\n --zone=zone \\\n --accelerator-type=v6e-32 \\\n --version=v2-alpha-tpuv6e\n```\n\n### Console\n\n1. In the Google Cloud console, go to the **TPUs** page:\n\n [Go to TPUs](https://console.cloud.google.com/compute/tpus)\n2. Click **Create TPU**.\n\n3. In the **Name** field, enter a name for your TPU.\n\n4. In the **Zone** box, select the zone where you want to create the TPU.\n\n5. In the **TPU type** box, select `v6e-32`.\n\n6. In the **TPU software version** box, select `v2-alpha-tpuv6e`. When\n creating a Cloud TPU VM, the TPU software version specifies the\n version of the TPU runtime to install. For more information, see [TPU VM\n images](/tpu/docs/runtimes).\n\n7. Click the **Enable queueing** toggle.\n\n8. In the **Queued resource name** field, enter a name for your queued\n resource request.\n\n9. Click **Create**.\n\nWhat's next\n-----------\n\n- Run [training and inference using TPU v6e](/tpu/docs/v6e-intro)"]]