TPU v5p
Este documento descreve a arquitetura e as configurações suportadas da Cloud TPU v5p.
Arquitetura do sistema
Esta secção descreve a arquitetura do sistema específica da versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matrizes (MXU), uma unidade vetorial e uma unidade escalar.
Existem 8960 chips numa única fatia v5p. A tarefa mais extensa que pode ser agendada é uma tarefa de 96 cubos (6144 chips).
A tabela seguinte mostra as especificações principais de um v5p.
Principais especificações | Valores v5p |
---|---|
Capacidade de computação máxima por chip (bf16) | 459 TFLOPs |
Capacidade e largura de banda da HBM2e | 95GB, 2765 GBps |
Tamanho do pod TPU | 8960 chips |
Topologia de interligação | Toro 3D * |
Interligação entre chips BW | 4800 Gbps |
Configurações
Um pod de TPUs v5p é composto por 8960 chips interligados com ligações de alta velocidade reconfiguráveis. A rede flexível da TPU v5p permite-lhe ligar os chips numa fatia do mesmo tamanho de várias formas. Quando cria uma fatia de TPU com o comando
gcloud compute tpus tpu-vm create
, especifica o respetivo tipo e forma
com o parâmetro AcceleratorType
.
A tabela seguinte mostra as formas de fatia única mais comuns suportadas com v5p, além da maioria (mas não todas) das formas de cubo completo superiores a 1 cubo. A forma v5p máxima é 16x16x24 (6144 chips, 96 cubos).
Topologia | Cores | Chips | Anfitriões | Cubes | Suporta Twisted? |
2x2x1 | 8 | 4 | 1 | N/A | N/A |
2x2x2 | 16 | 8 | 2 | N/A | N/A |
2x4x4 | 64 | 32 | 8 | N/A | N/A |
4x4x4 | 128 | 64 | 16 | 1 | N/A |
4x4x8 | 256 | 128 | 32 | 2 | Sim |
4x8x8 | 512 | 256 | 64 | 4 | Sim |
8x8x8 | 1024 | 512 | 128 | 8 | N/A |
8x8x16 | 2048 | 1024 | 256 | 16 | Sim |
8x16x16 | 4096 | 2048 | 512 | 32 | Sim |
16x16x16 | 8192 | 4096 | 1024 | 64 | N/A |
16x16x24 | 12288 | 6144 | 1536 | 96 | N/A |
O treino de fatia única é suportado para até 6144 chips. Pode aumentar a escala até 18 432 chips com o Multislice. Para mais informações sobre o Multislice, consulte o artigo Vista geral do Multislice do Cloud TPU.
Usar o parâmetro AcceleratorType
Quando atribui recursos de TPUs, usa o argumento --accelerator-type
para especificar o número de TensorCores numa fatia. --accelerator-type
é uma string formatada "v$VERSION_NUMBER
p-$CORES_COUNT
".
Por exemplo, v5p-32
especifica uma fatia de TPU v5p com 32 TensorCores (16 chips).
Para aprovisionar TPUs para uma tarefa de preparação v5p, use um dos seguintes tipos de aceleradores no seu pedido de criação da API TPU ou da CLI:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (um cubo/rack completo)
- v5p-256 (2 cubos)
- v5p-512
- v5p-1024 … v5p-12288
O seguinte comando cria uma fatia de TPU v5p com 256 TensorCores v5p (128 chips) para a preparação:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
Para mais informações sobre a gestão de TPUs, consulte o artigo Faça a gestão de TPUs. Para mais informações sobre a arquitetura do sistema da Cloud TPU, consulte o artigo Arquitetura do sistema.
Resiliência da ICI do Cloud TPU
A resiliência da ICI ajuda a melhorar a tolerância a falhas das ligações óticas e dos comutadores de circuitos óticos (OCS) que ligam as TPUs entre os cubos. (As ligações ICI num cubo usam ligações de cobre que não são afetadas). A resiliência da ICI permite que as ligações ICI sejam encaminhadas em torno de falhas da ICI ótica e do OCS. Como resultado, melhora a disponibilidade de agendamento de fatias de TPU, com a desvantagem de uma degradação temporária no desempenho do ICI.
Semelhante ao Cloud TPU v4, a resiliência da ICI está ativada por predefinição para fatias v5p com um cubo ou mais:
- v5p-128 quando especifica o tipo de acelerador
- 4x4x4 quando especificar a configuração do acelerador
Propriedades da VM, do anfitrião e da fatia
Propriedade | Valor numa TPU |
# of v5p chips | 4 |
# de vCPUs | 208 (apenas metade é utilizável se usar a associação NUMA para evitar a penalização de desempenho entre NUMAs) |
RAM (GB) | 448 (apenas metade é utilizável se usar a associação NUMA para evitar a penalização de desempenho entre NUMAs) |
# of NUMA Nodes | 2 |
Débito da NIC (Gbps) | 200 |
Relação entre o número de TensorCores, chips, anfitriões/MV e cubos num Pod:
Núcleos | Batatas fritas | Anfitriões/VMs | Cubes | |
---|---|---|---|---|
Anfitrião | 8 | 4 | 1 | |
Cubo (também conhecido como rack) | 128 | 64 | 16 | 1 |
Maior fatia suportada | 12288 | 6144 | 1536 | 96 |
v5p full Pod | 17920 | 8960 | 2240 | 140 |