TPU v5p
Este documento descreve a arquitetura e as configurações suportadas do Cloud TPU v5p
arquitetura do sistema.
Esta seção descreve a arquitetura do sistema específica para a versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matriz (MXU), uma unidade vetorial e uma escalar.
Há 8.960 chips em um único pod v5p. O maior job que pode ser programado é um job de 96 cubos (6144 chips).
A tabela a seguir mostra as principais especificações de um v5p.
Especificações da chave | Valores v5p |
---|---|
Pico de computação por chip (bf16) | 459 TFLOPS |
Capacidade e largura de banda da HBM2e | 95 GB e 2.765 GBps |
Tamanho do Pod de TPU | 8.960 ícones |
Topologia de interconexão | 3D Torus * |
BW da interconexão entre chips | 4.800 Gbps |
Configurações
Um pod TPU v5p é composto por 8.960 chips interconectados com opções reconfiguráveis
links de alta velocidade. A rede flexível da TPU v5p permite conectar os
chips em uma fração do mesmo tamanho de várias maneiras. Quando você cria uma fração de TPU
usando o comando gcloud compute tpus tpu-vm create
, você especifica
o tipo e a forma usando o AcceleratorType
ou AcceleratorConfig
.
A tabela a seguir mostra formas de fração única mais comuns compatíveis com a v5p, além da maioria (mas não todas) formas de cubo completas maiores que 1 cubo. A forma máxima de v5p é 16x16x24 (6144 chips, 96 cubos).
Forma da fatia | Tamanho da VM | No de núcleos | # Chips | Número de máquinas | No de cubos | Compatível com Twisted? |
2x2x1 | Host completo | 8 | 4 | 1 | N/A | N/A |
2x2x2 | Host completo | 16 | 8 | 2 | N/A | N/A |
2x4x4 | Host completo | 64 | 32 | 8 | N/A | N/A |
4x4x4 | Host completo | 128 | 64 | 16 | 1 | N/A |
4x4x8 | Host completo | 256 | 128 | 32 | 2 | Sim |
4x8x8 | Host completo | 512 | 256 | 64 | 4 | Sim |
8x8x8 | Host completo | 1024 | 512 | 128 | 8 | N/A |
8x8x16 | Host completo | 2048 | 1024 | 256 | 16 | Sim |
8x16x16 | Host completo | 4096 | 2048 | 512 | 32 | Sim |
16 x 16 x 16 | Host completo | 8192 | 4096 | 1024 | 64 | N/A |
16x16x24 | Host completo | 12.288 | 6144 | 1.536 | 96 | N/A |
O treinamento de fatia única é compatível com até 6.144 chips. Ele pode ser estendido para 18.432 chips usando o Multislice. Consulte a Visão geral de multislices do Cloud TPU para saber mais detalhes.
Como usar o parâmetro AcceleratorType
Ao alocar recursos de TPU, use o argumento --accelerator-type
para
especificar o número de TensorCores em uma fatia. --accelerator-type
é
uma string formatada
"v$VERSION_NUMBER
p-$CORES_COUNT
".
Por exemplo, v5p-32
especifica uma fatia de TPU v5p com 32 TensorCores (16 chips).
Para provisionar TPUs para um job de treinamento v5p, use uma das opções a seguir. tipos de aceleradores na solicitação de criação da CLI ou da API TPU:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (um cubo/rack completo)
- v5p-256 (2 cubos)
- v5p-512
- v5p-1024 ... v5p-12288
Como usar o parâmetro AcceleratorConfig
Para as versões v5p e posteriores do Cloud TPU, o AcceleratorConfig
é usado da mesma forma que o Cloud TPU v4.
A diferença é
em vez de especificar o tipo de TPU como --type=v4
, você o especifica como
a versão de TPU que você está usando (por exemplo, --type=v5p
para a versão v5p).
Resiliência de ICI do Cloud TPU
A resiliência da ICI ajuda a melhorar a tolerância a falhas de links ópticos e comutadores de circuito óptico (OCS, na sigla em inglês) que conectam TPUs entre cubos. As conexões ICI em um cubo usam links de cobre não afetados. A resiliência de ICI permite que as conexões sejam roteadas em torno de OCS e falhas ópticas de ICI. Como resultado, a disponibilidade de programação de fatias de TPU é melhor, com a compensação de degradação temporária no desempenho do ICI.
Assim como o Cloud TPU v4, a resiliência da ICI é ativada por padrão para frações da v5p que tenham um cubo ou mais:
- v5p-128 ao especificar o tipo de acelerador
- 4x4x4 ao especificar a configuração do acelerador
Propriedades de VM, host e fração
Propriedade | Valor em uma TPU |
No de ícones v5p | 4 |
No de vCPUs | 208 (apenas metade pode ser usada se estiver usando a vinculação do NUMA para evitar penalidades de desempenho entre NUMA) |
RAM (GB) | 448 (apenas metade pode ser usada se você usar a vinculação NUMA para evitar penalidades de desempenho entre NUMA) |
Número de nós NUMA | 2 |
Capacidade de processamento da NIC (Gbps) | 200 |
Relação entre o número de TensorCores, chips, hosts/VMs e cubos em um pod:
Núcleos | Chips | Hosts/VMs | Cubos | |
---|---|---|---|---|
Organizador | 8 | 4 | 1 | |
Cube (também conhecido como rack) | 128 | 64 | 16 | 1 |
Segmento maior com suporte | 12.288 | 6144 | 1.536 | 96 |
Pod completo v5p | 17920 | 8960 | 2240 | 140 |