TPU v5p

이 문서에서는 Cloud TPU v5p의 아키텍처와 지원되는 구성에 대해 설명합니다.

시스템 아키텍처

이 섹션에서는 v5p 버전과 관련된 시스템 아키텍처를 설명합니다. 각 TensorCore에는 4개의 행렬 곱셈 단위(MXU), 벡터 단위, 스칼라 단위가 있습니다.

단일 v5p 포드에는 8,960개의 칩이 있습니다. 예약할 수 있는 가장 큰 작업은 96 큐브(6,144 칩) 작업입니다.

다음 표는 v5p의 주요 사양을 보여줍니다.

주요 사양 v5p 값
칩당 최고 컴퓨팅(bf16) 459TFLOPs
HBM2e 용량 및 대역폭 95GB, 2,765GBps
TPU Pod 크기 칩 8,960개
상호 연결 토폴로지 3D 토러스 *
Interchip Interconnect BW 4,800Gbps

구성

TPU v5p 포드는 재구성이 가능한 고속 링크로 상호 연결된 8,960개의 칩으로 구성되어 있습니다. TPU v5p의 유연한 네트워킹을 사용하면 다양한 방식으로 칩을 동일한 크기의 슬라이스로 연결할 수 있습니다. gcloud compute tpus tpu-vm create 명령어를 사용하여 TPU 슬라이스를 만들 때 AcceleratorType 또는 AcceleratorConfig 매개변수를 사용하여 유형과 형태를 지정합니다.

다음 표는 v5p에서 지원되는 가장 일반적인 단일 슬라이스 모양과 큐브 1개보다 큰 대부분의 큐브 형태를 보여줍니다. 최대 v5p 형태는 16x16x24(칩 6,144개, 큐브 96개)입니다.

슬라이스 모양 VM 크기 코어 수 칩 수 머신 수 큐브 수 왜곡 지원 여부
2x2x1 전체 호스트 8 4 1 해당 사항 없음 해당 사항 없음
2x2x2 전체 호스트 16 8 2 해당 사항 없음 해당 사항 없음
2x4x4 전체 호스트 64 32 8 해당 사항 없음 해당 사항 없음
4x4x4 전체 호스트 128 64 16 1 해당 사항 없음
4x4x8 전체 호스트 256 128 32 2
4x8x8 전체 호스트 512 256 64 4
8x8x8 전체 호스트 1024 512 128 8 해당 사항 없음
8x8x16 전체 호스트 2048 1024 256 16
8x16x16 전체 호스트 4096 2048 512 32
16x16x16 전체 호스트 8192 4096 1024 64 해당 사항 없음
16x16x24 전체 호스트 12288 6144 1536 96 해당 사항 없음

단일 슬라이스 학습은 최대 6,144개의 칩에 지원됩니다. 멀티슬라이스를 사용하여 18,432개 칩으로 확장할 수 있습니다. 멀티슬라이스 세부정보는 Cloud TPU 멀티슬라이스 개요를 참조하세요.

AcceleratorType 매개변수 사용

TPU 리소스를 할당할 때는 --accelerator-type 인수를 사용하여 슬라이스의 TensorCore 수를 지정합니다. --accelerator-type은 형식이 지정된 문자열 'v$VERSION_NUMBERp-$CORES_COUNT'입니다. 예를 들어 v5p-32는 32개의 TensorCore(칩 16개)가 있는 v5p TPU 슬라이스를 지정합니다.

v5p 학습 작업용으로 TPU를 프로비저닝하려면 CLI 또는 TPU API 만들기 요청에 다음 가속기 유형 중 하나를 사용합니다.

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128(전체 큐브/랙)
  • v5p-256(큐브 2개)
  • v5p-512
  • v5p-1024 ... v5p-12288

AcceleratorConfig 매개변수 사용

v5p 이상 Cloud TPU 버전의 경우 AcceleratorConfig가 Cloud TPU v4와 거의 동일한 방식으로 사용됩니다. 차이점은 TPU 유형을 --type=v4로 지정하는 대신 사용 중인 TPU 버전으로 지정한다는 것입니다(예: v5p 출시 버전의 경우 --type=v5p).

Cloud TPU ICI 복원력

ICI 복원력은 큐브 간에 TPU를 연결하는 광 연결 및 광학 회로 스위치(OCS)의 내결함성을 개선하는 데 도움이 됩니다. (큐브 내의 ICI 연결은 영향을 받지 않는 구리 연결을 사용합니다.) ICI 복원력은 OCS 및 광 ICI 결함에 대해 ICI 연결을 라우팅할 수 있게 해줍니다. 그 결과 ICI 성능에 일시적인 성능 저하가 발생하는 대신 TPU 슬라이스의 예약 가용성이 향상됩니다.

Cloud TPU v4와 마찬가지로 ICI 복원력은 큐브가 1개 이상인 v5p 슬라이스에 기본적으로 사용 설정됩니다.

  • 가속기 유형 지정 시 v5p-128
  • 가속기 구성 지정 시 4x4x4

VM, 호스트, 슬라이스 속성

속성 TPU 값
v5p 칩 수 4
vCPU 개수 208개(NUMA 간 성능 저하를 방지하기 위해 NUMA 바인딩을 사용하는 경우 절반만 사용 가능)
RAM(GB) 448개(NUMA 간 성능 저하를 방지하기 위해 NUMA 바인딩을 사용하는 경우 절반만 사용 가능)
NUMA 노드 수 2
NIC 처리량(Gbps) 200

포드의 TensorCore, 칩, 호스트/VM, 큐브 수 간의 관계:

코어 호스트/VM 큐브
호스트 8 4 1
큐브(랙) 128 64 16 1
지원되는 최대 슬라이스 12288 6144 1536 96
v5p 전체 포드 17920 8960 2240 140