TPU v5p
이 문서에서는 Cloud TPU v5p의 아키텍처와 지원되는 구성에 대해 설명합니다.
시스템 아키텍처
이 섹션에서는 v5p 버전과 관련된 시스템 아키텍처를 설명합니다. 각 TensorCore에는 4개의 행렬 곱셈 단위(MXU), 벡터 단위, 스칼라 단위가 있습니다.
단일 v5p 포드에는 8,960개의 칩이 있습니다. 예약할 수 있는 가장 큰 작업은 96 큐브(6,144 칩) 작업입니다.
다음 표는 v5p의 주요 사양을 보여줍니다.
주요 사양 | v5p 값 |
---|---|
칩당 최고 컴퓨팅(bf16) | 459TFLOPs |
HBM2e 용량 및 대역폭 | 95GB, 2,765GBps |
TPU Pod 크기 | 칩 8,960개 |
상호 연결 토폴로지 | 3D 토러스 * |
Interchip Interconnect BW | 4,800Gbps |
구성
TPU v5p 포드는 재구성이 가능한 고속 링크로 상호 연결된 8,960개의 칩으로 구성되어 있습니다. TPU v5p의 유연한 네트워킹을 사용하면 다양한 방식으로 칩을 동일한 크기의 슬라이스로 연결할 수 있습니다. gcloud compute tpus tpu-vm create
명령어를 사용하여 TPU 슬라이스를 만들 때 AcceleratorType
또는 AcceleratorConfig
매개변수를 사용하여 유형과 형태를 지정합니다.
다음 표는 v5p에서 지원되는 가장 일반적인 단일 슬라이스 모양과 큐브 1개보다 큰 대부분의 큐브 형태를 보여줍니다. 최대 v5p 형태는 16x16x24(칩 6,144개, 큐브 96개)입니다.
슬라이스 모양 | VM 크기 | 코어 수 | 칩 수 | 머신 수 | 큐브 수 | 왜곡 지원 여부 |
2x2x1 | 전체 호스트 | 8 | 4 | 1 | 해당 사항 없음 | 해당 사항 없음 |
2x2x2 | 전체 호스트 | 16 | 8 | 2 | 해당 사항 없음 | 해당 사항 없음 |
2x4x4 | 전체 호스트 | 64 | 32 | 8 | 해당 사항 없음 | 해당 사항 없음 |
4x4x4 | 전체 호스트 | 128 | 64 | 16 | 1 | 해당 사항 없음 |
4x4x8 | 전체 호스트 | 256 | 128 | 32 | 2 | 예 |
4x8x8 | 전체 호스트 | 512 | 256 | 64 | 4 | 예 |
8x8x8 | 전체 호스트 | 1024 | 512 | 128 | 8 | 해당 사항 없음 |
8x8x16 | 전체 호스트 | 2048 | 1024 | 256 | 16 | 예 |
8x16x16 | 전체 호스트 | 4096 | 2048 | 512 | 32 | 예 |
16x16x16 | 전체 호스트 | 8192 | 4096 | 1024 | 64 | 해당 사항 없음 |
16x16x24 | 전체 호스트 | 12288 | 6144 | 1536 | 96 | 해당 사항 없음 |
단일 슬라이스 학습은 최대 6,144개의 칩에 지원됩니다. 멀티슬라이스를 사용하여 18,432개 칩으로 확장할 수 있습니다. 멀티슬라이스 세부정보는 Cloud TPU 멀티슬라이스 개요를 참조하세요.
AcceleratorType 매개변수 사용
TPU 리소스를 할당할 때는 --accelerator-type
인수를 사용하여 슬라이스의 TensorCore 수를 지정합니다. --accelerator-type
은 형식이 지정된 문자열 'v$VERSION_NUMBER
p-$CORES_COUNT
'입니다.
예를 들어 v5p-32
는 32개의 TensorCore(칩 16개)가 있는 v5p TPU 슬라이스를 지정합니다.
v5p 학습 작업용으로 TPU를 프로비저닝하려면 CLI 또는 TPU API 만들기 요청에 다음 가속기 유형 중 하나를 사용합니다.
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128(전체 큐브/랙)
- v5p-256(큐브 2개)
- v5p-512
- v5p-1024 ... v5p-12288
AcceleratorConfig 매개변수 사용
v5p 이상 Cloud TPU 버전의 경우 AcceleratorConfig가 Cloud TPU v4와 거의 동일한 방식으로 사용됩니다. 차이점은 TPU 유형을 --type=v4
로 지정하는 대신 사용 중인 TPU 버전으로 지정한다는 것입니다(예: v5p 출시 버전의 경우 --type=v5p
).
Cloud TPU ICI 복원력
ICI 복원력은 큐브 간에 TPU를 연결하는 광 연결 및 광학 회로 스위치(OCS)의 내결함성을 개선하는 데 도움이 됩니다. (큐브 내의 ICI 연결은 영향을 받지 않는 구리 연결을 사용합니다.) ICI 복원력은 OCS 및 광 ICI 결함에 대해 ICI 연결을 라우팅할 수 있게 해줍니다. 그 결과 ICI 성능에 일시적인 성능 저하가 발생하는 대신 TPU 슬라이스의 예약 가용성이 향상됩니다.
Cloud TPU v4와 마찬가지로 ICI 복원력은 큐브가 1개 이상인 v5p 슬라이스에 기본적으로 사용 설정됩니다.
- 가속기 유형 지정 시 v5p-128
- 가속기 구성 지정 시 4x4x4
VM, 호스트, 슬라이스 속성
속성 | TPU 값 |
v5p 칩 수 | 4 |
vCPU 개수 | 208개(NUMA 간 성능 저하를 방지하기 위해 NUMA 바인딩을 사용하는 경우 절반만 사용 가능) |
RAM(GB) | 448개(NUMA 간 성능 저하를 방지하기 위해 NUMA 바인딩을 사용하는 경우 절반만 사용 가능) |
NUMA 노드 수 | 2 |
NIC 처리량(Gbps) | 200 |
포드의 TensorCore, 칩, 호스트/VM, 큐브 수 간의 관계:
코어 | 칩 | 호스트/VM | 큐브 | |
---|---|---|---|---|
호스트 | 8 | 4 | 1 | |
큐브(랙) | 128 | 64 | 16 | 1 |
지원되는 최대 슬라이스 | 12288 | 6144 | 1536 | 96 |
v5p 전체 포드 | 17920 | 8960 | 2240 | 140 |