TPU v5p
Neste documento, descrevemos a arquitetura e as configurações compatíveis do Cloud TPU v5p.
arquitetura do sistema.
Esta seção descreve a arquitetura do sistema específica para a versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matriz (MXU, na sigla em inglês), uma unidade vetorial e uma unidade escalar.
Há 8.960 chips em um único pod v5p. O maior job que pode ser agendado é de 96 cubos (6.144 chips).
A tabela a seguir mostra as principais especificações de uma v5p.
Especificações da chave | Valores v5p |
---|---|
Pico de computação por chip (bf16) | 459 TFLOPs |
Capacidade e largura de banda do HBM2e | 95 GB, 2.765 GBps |
Tamanho do pod de TPU | 8960 chips |
Topologia de interconexão | Torus 3D |
Interchip Interconnect BW | 4.800 Gbps |
Configurações
Um pod TPU v5p é composto por 8.960 chips interconectados com links reconfiguráveis de alta velocidade. A rede flexível da TPU v5p permite conectar os chips em uma fração do mesmo tamanho de várias maneiras. Ao criar uma fração de TPU usando o comando gcloud compute tpus tpu-vm create
, especifique o tipo e a forma usando os parâmetros AcceleratorType
ou AcceleratorConfig
.
A tabela a seguir mostra as formas de fatia única mais comuns compatíveis com a v5p, além da maioria (mas não todas) das formas completas de cubo maiores que 1 cubo. O formato máximo do v5p é 16x16x24 (6.144 ícones, 96 cubos).
Formato da fatia | Tamanho da VM | No de núcleos | # de ícones | No de máquinas | No de cubos | Oferece suporte ao Twisted? |
2x2x1 | Host completo | 8 | 4 | 1 | N/A | N/A |
2x2x2 | Host completo | 16 | 8 | 2 | N/A | N/A |
2x4x4 | Host completo | 64 | 32 | 8 | N/A | N/A |
4x4x4 | Host completo | 128 | 64 | 16 | 1 | N/A |
4x4x8 | Host completo | 256 | 128 | 32 | 2 | Sim |
4x8x8 | Host completo | 512 | 256 | 64 | 4 | Sim |
8x8x8 | Host completo | 1024 | 512 | 128 | 8 | N/A |
8x8x16 | Host completo | 2048 | 1024 | 256 | 16 | Sim |
8x16x16 | Host completo | 4096 | 2048 | 512 | 32 | Sim |
16x16x16 | Host completo | 8192 | 4096 | 1024 | 64 | N/A |
16x16x24 | Host completo | 12.288 | 6144 | 1.536 | 96 | N/A |
O treinamento de fração única é compatível com até 6.144 ícones. Ele é extensível para 18432 chips usando Multislice. Para mais detalhes, consulte a Visão geral de vários pedaços do Cloud TPU.
Como usar o parâmetro AcceleratorType
Ao alocar recursos de TPU, use o argumento --accelerator-type
para especificar o número de TensorCores em uma fração. --accelerator-type
é
uma string formatada
"v$VERSION_NUMBER
p-$CORES_COUNT
".
Por exemplo, v5p-32
especifica uma fração de TPU v5p com 32 TensorCores (16 chips).
Para provisionar TPUs para um job de treinamento v5p, use um dos seguintes tipos de acelerador na solicitação de criação da CLI ou da API TPU:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (um cubo/rack completo)
- v5p-256 (2 cubos)
- v5p-512
- v5p-1024, v5p-12288
Como usar o parâmetro AcceleratorConfig
Nas versões v5p e posteriores do Cloud TPU, o AcceleratorConfig é usado da mesma forma que o Cloud TPU v4. A diferença é que, em vez de especificar o tipo de TPU como --type=v4
, você o especifica como a versão do TPU que está sendo usada (por exemplo, --type=v5p
para a versão v5p).
Resiliência de ICI do Cloud TPU
A resiliência de ICI ajuda a melhorar a tolerância a falhas de links ópticos e chaves de circuito óptico (OCS, na sigla em inglês) que conectam TPUs entre cubos. As conexões ICI dentro de um cubo usam elos de cobre que não são afetados. A resiliência da ICI permite que as conexões da ICI sejam roteadas em torno das falhas de OCS e ICI ópticas. Como resultado, ele melhora a disponibilidade de programação de fatias de TPU, com a compensação da degradação temporária no desempenho do ICI.
Semelhante ao Cloud TPU v4, a resiliência de ICI é ativada por padrão para frações v5p que têm um cubo ou maior:
- v5p-128 ao especificar o tipo de acelerador.
- 4x4x4 ao especificar a configuração do acelerador
Propriedades da VM, do host e da fração
Propriedade | Valor em uma TPU |
Número de ícones v5p | 4 |
No de vCPUs | 208 (apenas metade pode ser usada ao usar a vinculação NUMA para evitar penalidade de desempenho entre NUMA) |
RAM (GB) | 448 (apenas metade pode ser usada ao usar a vinculação NUMA para evitar penalidade de desempenho entre NUMA) |
No de nós NUMA | 2 |
Capacidade de processamento de NIC (Gbps) | 200 |
Relação entre o número de TensorCores, chips, hosts/VMs e cubos em um pod:
Núcleos | Ícones | Hosts/VMs | Cubos | |
---|---|---|---|---|
Organizador | 8 | 4 | 1 | |
Cube (também conhecido como rack) | 128 | 64 | 16 | 1 |
Maior fração com suporte | 12.288 | 6144 | 1.536 | 96 |
Pod completo v5p | 17920 | 8960 | 2240 | 140 |