TPU v5p
Este documento descreve a arquitetura e as configurações suportadas do Cloud TPU v5p
arquitetura do sistema.
Esta seção descreve a arquitetura do sistema específica para a versão v5p. Cada O TensorCore tem quatro unidades de multiplicação de matriz (MXU), uma unidade vetorial e um escalar unidade.
Há 8.960 chips em um único pod v5p. O maior job que pode ser programado é um job de 96 cubos (6.144 chips).
A tabela a seguir mostra as principais especificações de um v5p.
Especificações da chave | Valores v5p |
---|---|
Pico de computação por chip (bf16) | 459 TFLOPs |
Capacidade e largura de banda do HBM2e | 95 GB, 2765 GBps |
Tamanho do Pod de TPU | 8.960 ícones |
Topologia de interconexão | Toro 3D * |
Interchip Interconnect BW | 4.800 Gbps |
Configurações
Um pod TPU v5p é composto por 8.960 chips interconectados com opções reconfiguráveis
links de alta velocidade. A rede flexível da TPU v5p permite conectar
em uma fração do mesmo tamanho de várias maneiras. Quando você cria uma fração de TPU
usando o comando gcloud compute tpus tpu-vm create
, você especifica
o tipo e a forma usando o AcceleratorType
ou AcceleratorConfig
.
A tabela a seguir mostra as formas de fatia única mais comuns com suporte para v5p, além da maioria (mas não todas) as formas de cubo completas maiores que 1 cubo. A forma máxima de v5p é 16x16x24 (6144 chips, 96 cubos).
Formato da fração | Tamanho da VM | No de núcleos | # Chips | Número de máquinas | No de cubos | Suporte a Twisted? |
2x2x1 | Host completo | 8 | 4 | 1 | N/A | N/A |
2x2x2 | Host completo | 16 | 8 | 2 | N/A | N/A |
2x4x4 | Host completo | 64 | 32 | 8 | N/A | N/A |
4x4x4 | Host completo | 128 | 64 | 16 | 1 | N/A |
4x4x8 | Host completo | 256 | 128 | 32 | 2 | Sim |
4x8x8 | Host completo | 512 | 256 | 64 | 4 | Sim |
8x8x8 | Host completo | 1024 | 512 | 128 | 8 | N/A |
8x8x16 | Host completo | 2048 | 1024 | 256 | 16 | Sim |
8x16x16 | Host completo | 4096 | 2048 | 512 | 32 | Sim |
16x16x16 | Host completo | 8192 | 4096 | 1024 | 64 | N/A |
16 x 16 x 24 | Host completo | 12.288 | 6144 | 1.536 | 96 | N/A |
O treinamento de fração única é compatível com até 6.144 ícones. É extensível para 18432 chips usando o multislice. Consulte a Visão geral do Cloud TPU Multislice para detalhes.
Como usar o parâmetro AcceleratorType
Ao alocar recursos de TPU, você usa o argumento --accelerator-type
para
especifique o número de TensorCores em uma fração. --accelerator-type
é
uma string formatada
"v$VERSION_NUMBER
p-$CORES_COUNT
".
Por exemplo, v5p-32
especifica uma fração de TPU v5p com 32 TensorCores (16 chips).
Para provisionar TPUs para um job de treinamento v5p, use um dos seguintes tipos de acelerador na solicitação de criação da API TPU ou da CLI:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (um cubo/rack completo)
- v5p-256 (2 cubos)
- v5p-512
- v5p-1024 e v5p-12288
Como usar o parâmetro AcceleratorConfig
Para as versões v5p e posteriores do Cloud TPU, o AcceleratorConfig
é usado da mesma forma que o Cloud TPU v4.
A diferença é
em vez de especificar o tipo de TPU como --type=v4
, você o especifica como
a versão de TPU que você está usando (por exemplo, --type=v5p
para a versão v5p).
Resiliência de ICI do Cloud TPU
A resiliência da ICI ajuda a melhorar a tolerância a falhas de links ópticos e comutadores de circuito óptico (OCS, na sigla em inglês) que conectam TPUs entre cubos. As conexões ICI em um cubo usam links de cobre não afetados. A resiliência da ICI permite que as conexões ICI sejam roteadas pelo OCS e pela ICI óptica erros. Como resultado, isso melhora a disponibilidade de programação da TPU em frações, com uma degradação temporária no desempenho da ICI.
Assim como o Cloud TPU v4, a resiliência da ICI é ativada por padrão para frações da v5p que tenham um cubo ou mais:
- v5p-128 ao especificar o tipo de acelerador
- 4x4x4 ao especificar a configuração do acelerador
Propriedades de VM, host e fração
Propriedade | Valor em uma TPU |
Número de chips v5p | 4 |
Número de vCPUs | 208 (apenas metade é utilizável se usar a vinculação NUMA para evitar a penalidade de desempenho entre NUMA) |
RAM (GB) | 448 (apenas metade pode ser usada se você usar a vinculação NUMA para evitar penalidades de desempenho entre NUMA) |
Número de nós NUMA | 2 |
Capacidade de processamento da NIC (Gbps) | 200 |
Relação entre o número de TensorCores, chips, hosts/VMs e cubos em um pod:
Núcleos | Salgadinhos | Hosts/VMs | Cubos | |
---|---|---|---|---|
Organizador | 8 | 4 | 1 | |
Cube (também conhecido como rack) | 128 | 64 | 16 | 1 |
Maior fração compatível | 12.288 | 6144 | 1.536 | 96 |
Pod completo v5p | 17920 | 8960 | 2240 | 140 |