TPU v5p

이 문서에서는 Cloud TPU v5p의 아키텍처와 지원되는 구성을 설명합니다.

시스템 아키텍처

이 섹션에서는 v5p 버전과 관련된 시스템 아키텍처를 설명합니다. 각 TensorCore에는 4개의 행렬 곱셈 단위(MXU), 벡터 단위, 스칼라 단위가 있습니다.

단일 v5p 슬라이스에는 8,960개의 칩이 있습니다. 예약할 수 있는 가장 큰 작업은 96 큐브(6,144 칩) 작업입니다.

다음 표는 v5p의 주요 사양을 보여줍니다.

주요 사양	v5p 값
칩당 최고 컴퓨팅(bf16)	459 TFLOPs
HBM2e 용량 및 대역폭	95GB, 2765GBps
TPU Pod 크기	8960개 칩
상호 연결 토폴로지	3D 토러스 *
Interchip Interconnect BW	4800Gbps

구성

TPU v5p 포드는 재구성이 가능한 고속 링크로 상호 연결된 8,960개의 칩으로 구성되어 있습니다. TPU v5p의 유연한 네트워킹을 사용하면 다양한 방식으로 칩을 동일한 크기의 슬라이스로 연결할 수 있습니다. gcloud compute tpus tpu-vm create 명령어를 사용하여 TPU 슬라이스를 만들 때 AcceleratorType 파라미터를 사용하여 유형과 형태를 지정합니다.

다음 표는 v5p에서 지원되는 가장 일반적인 단일 슬라이스 모양과 큐브 1개보다 큰 대부분의 큐브 형태를 보여줍니다. 최대 v5p 형태는 16x16x24(6,144개 칩, 96개 큐브)입니다.

토폴로지	코어	칩	호스트	큐브	왜곡 지원 여부
2x2x1	8	4	1	해당 사항 없음	해당 사항 없음
2x2x2	16	8	2	해당 사항 없음	해당 사항 없음
2x4x4	64	32	8	해당 사항 없음	해당 사항 없음
4x4x4	128	64	16	1	해당 사항 없음
4x4x8	256	128	32	2	예
4x8x8	512	256	64	4	예
8x8x8	1024	512	128	8	해당 사항 없음
8x8x16	2048	1024	256	16	예
8x16x16	4096	2048	512	32	예
16x16x16	8192	4096	1024	64	해당 사항 없음
16x16x24	12288	6144	1536	96	해당 사항 없음

단일 슬라이스 학습은 최대 6,144개의 칩에 대해 지원됩니다. 멀티 슬라이스를 사용하여 최대 18432개의 칩까지 확장할 수 있습니다. 멀티 슬라이스에 대한 자세한 내용은 Cloud TPU 멀티 슬라이스 개요를 참조하세요.

AcceleratorType 파라미터 사용

TPU 리소스를 할당할 때 --accelerator-type 인수를 사용하여 슬라이스에서 TensorCore 수를 지정합니다. --accelerator-type은 형식이 지정된 문자열 "v$VERSION_NUMBERp-$CORES_COUNT"입니다. 예를 들어 v5p-32는 32개의 TensorCore(칩 16개)가 있는 v5p TPU 슬라이스를 지정합니다.

v5p 학습 작업용으로 TPU를 프로비저닝하려면 CLI 또는 TPU API 만들기 요청에 다음 가속기 유형 중 하나를 사용합니다.

v5p-8
v5p-16
v5p-32
v5p-64
v5p-128(전체 큐브/랙)
v5p-256(큐브 2개)
v5p-512
v5p-1024 ... v5p-12288

다음 명령어는 학습을 위해 256개의 v5p TensorCore(칩 128개)가 포함된 v5p TPU 슬라이스를 만듭니다.

  $ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5p-256 \
    --version=v2-alpha-tpuv5

TPU 관리에 대한 자세한 내용은 TPU 관리를 참조하세요. Cloud TPU의 시스템 아키텍처에 대한 자세한 내용은 시스템 아키텍처를 참조하세요.

Cloud TPU ICI 복원력

ICI 복원력은 큐브 간에 TPU를 연결하는 광 연결 및 광학 회로 스위치(OCS)의 내결함성을 개선하는 데 도움이 됩니다. (큐브 내의 ICI 연결은 영향을 받지 않는 구리 연결을 사용합니다.) ICI 복원력은 OCS 및 광 ICI 결함에 대해 ICI 연결을 라우팅할 수 있게 해줍니다. 그 결과 ICI 성능에 일시적인 성능 저하가 발생하는 대신 TPU 슬라이스의 예약 가용성이 향상됩니다.

Cloud TPU v4와 마찬가지로 ICI 복원력은 큐브가 1개 이상인 v5p 슬라이스에 기본적으로 사용 설정됩니다.

가속기 유형 지정 시 v5p-128
가속기 구성 지정 시 4x4x4

VM, 호스트, 슬라이스 속성

속성	TPU의 값
v5p 칩 수	4
vCPU 개수	208개(NUMA 간 성능 저하를 방지하기 위해 NUMA 바인딩을 사용하는 경우 절반만 사용 가능)
RAM(GB)	448개(NUMA 간 성능 저하를 방지하기 위해 NUMA 바인딩을 사용하는 경우 절반만 사용 가능)
NUMA 노드 수	2
NIC 처리량(Gbps)	200

포드에서 TensorCore, 칩, 호스트/VM, 큐브 개수 간의 관계:

	코어	칩	호스트/VM	큐브
호스트	8	4	1
큐브(랙)	128	64	16	1
지원되는 가장 큰 슬라이스	12288	6144	1536	96
v5p 전체 포드	17920	8960	2240	140