TPU v5p
Neste documento, descrevemos a arquitetura e as configurações compatíveis do Cloud TPU v5p.
arquitetura do sistema.
Esta seção descreve a arquitetura do sistema específica para a versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matriz (MXU), uma unidade vetorial e uma unidade escalar.
Há 8.960 chips em um único pod v5p. O maior job que pode ser programado é de 96 cubos (6.144 chips).
A tabela a seguir mostra as principais especificações para uma v5p.
Especificações da chave | Valores v5p |
---|---|
Pico de computação por chip (bf16) | 459 TFLOPs |
Capacidade e largura de banda do HBM2e | 95 GB e 2.765 GBps |
Tamanho do Pod de TPU | 8.960 ícones |
Topologia de interconexão | Toro 3D * |
Interchip Interconnect BW | 4.800 Gbps |
Configurações
Um pod TPU v5p é composto por 8.960 chips interconectados com links de alta velocidade reconfiguráveis. A rede flexível da TPU v5p permite conectar os chips em uma fração do mesmo tamanho de várias maneiras. Ao criar uma fração de TPU com o comando gcloud compute tpus tpu-vm create
, especifique o tipo e a forma dela usando os parâmetros AcceleratorType
ou AcceleratorConfig
.
A tabela a seguir mostra as formas de fração única mais comuns compatíveis com a v5p, além da maioria das formas de cubo completas maiores que um cubo (mas não todas). O formato máximo da v5p é 16 x 16 x 24 (6.144 ícones, 96 cubos).
Formato da fatia | Tamanho da VM | No de núcleos | No de ícones | Número de máquinas | No de cubos | Compatível com Twisted? |
2x2x1 | Host completo | 8 | 4 | 1 | N/A | N/A |
2x2x2 | Host completo | 16 | 8 | 2 | N/A | N/A |
2x4x4 | Host completo | 64 | 32 | 8 | N/A | N/A |
4x4x4 | Host completo | 128 | 64 | 16 | 1 | N/A |
4x4x8 | Host completo | 256 | 128 | 32 | 2 | Sim |
4x8x8 | Host completo | 512 | 256 | 64 | 4 | Sim |
8x8x8 | Host completo | 1024 | 512 | 128 | 8 | N/A |
8x8x16 | Host completo | 2048 | 1024 | 256 | 16 | Sim |
8x16x16 | Host completo | 4096 | 2048 | 512 | 32 | Sim |
16x16x16 | Host completo | 8192 | 4096 | 1024 | 64 | N/A |
16x16x24 | Host completo | 12.288 | 6144 | 1.536 | 96 | N/A |
O treinamento de fração única é compatível com até 6.144 ícones. Ele é extensível para 18.432 chips usando o Multislice. Consulte a Visão geral de multislices do Cloud TPU para mais detalhes.
Como usar o parâmetro AcceleratorType
Ao alocar recursos de TPU, use o argumento --accelerator-type
para especificar o número de TensorCores em uma fração. --accelerator-type
é
uma string formatada
"v$VERSION_NUMBER
p-$CORES_COUNT
".
Por exemplo, v5p-32
especifica uma fração de TPU v5p com 32 TensorCores (16 chips).
Para provisionar TPUs para um job de treinamento v5p, use um dos tipos de acelerador a seguir na solicitação de criação da CLI ou da API TPU:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (um cubo/rack completo)
- v5p-256 (2 cubos)
- v5p-512
- v5p-1024 e v5p-12288
Como usar o parâmetro AcceleratorConfig
Para as versões v5p e posteriores do Cloud TPU, o AcceleratorConfig é usado da mesma forma que o Cloud TPU v4. A diferença é que, em vez de especificar o tipo de TPU como --type=v4
, você o especifica como a versão de TPU usada (por exemplo, --type=v5p
para a versão v5p).
Resiliência de ICI do Cloud TPU
A resiliência de ICI ajuda a melhorar a tolerância a falhas de links ópticos e chaves de circuito óptico (OCS, na sigla em inglês) que conectam TPUs entre cubos. As conexões ICI em um cubo usam links de cobre não afetados. A resiliência da ICI permite que conexões ICI sejam roteadas em torno de falhas de OCS e ICI ópticas. Como resultado, ela melhora a disponibilidade da programação de frações de TPU, com a compensação da degradação temporária no desempenho da ICI.
Semelhante ao Cloud TPU v4, a resiliência ICI é ativada por padrão para frações da v5p que são de um cubo ou mais:
- v5p-128 ao especificar o tipo de acelerador
- 4x4x4 ao especificar a configuração do acelerador
Propriedades de VM, host e fração
Propriedade | Valor em uma TPU |
No de ícones v5p | 4 |
No de vCPUs | 208 (apenas metade pode ser usada se estiver usando a vinculação do NUMA para evitar penalidades de desempenho entre NUMA) |
RAM (GB) | 448 (apenas metade pode ser usada se estiver usando a vinculação do NUMA para evitar penalidades de desempenho de NUMA cruzada) |
No de NUMA nós | 2 |
Capacidade de processamento da placa de rede (Gbps) | 200 |
Relação entre o número de TensorCores, chips, hosts/VMs e cubos em um pod:
Núcleos | Salgadinhos | Hosts/VMs | Cubos | |
---|---|---|---|---|
Organizador | 8 | 4 | 1 | |
Cube (também conhecido como rack) | 128 | 64 | 16 | 1 |
Maior fração compatível | 12.288 | 6144 | 1.536 | 96 |
Pod completo v5p | 17920 | 8960 | 2240 | 140 |