TPU v5p

Neste documento, descrevemos a arquitetura e as configurações compatíveis do Cloud TPU v5p.

arquitetura do sistema.

Esta seção descreve a arquitetura do sistema específica para a versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matriz (MXU, na sigla em inglês), uma unidade vetorial e uma unidade escalar.

Há 8.960 chips em um único pod v5p. O maior job que pode ser agendado é de 96 cubos (6.144 chips).

A tabela a seguir mostra as principais especificações de uma v5p.

Especificações da chave Valores v5p
Pico de computação por chip (bf16) 459 TFLOPs
Capacidade e largura de banda do HBM2e 95 GB, 2.765 GBps
Tamanho do pod de TPU 8960 chips
Topologia de interconexão Torus 3D
Interchip Interconnect BW 4.800 Gbps

Configurações

Um pod TPU v5p é composto por 8.960 chips interconectados com links reconfiguráveis de alta velocidade. A rede flexível da TPU v5p permite conectar os chips em uma fração do mesmo tamanho de várias maneiras. Ao criar uma fração de TPU usando o comando gcloud compute tpus tpu-vm create, especifique o tipo e a forma usando os parâmetros AcceleratorType ou AcceleratorConfig.

A tabela a seguir mostra as formas de fatia única mais comuns compatíveis com a v5p, além da maioria (mas não todas) das formas completas de cubo maiores que 1 cubo. O formato máximo do v5p é 16x16x24 (6.144 ícones, 96 cubos).

Formato da fatia Tamanho da VM No de núcleos # de ícones No de máquinas No de cubos Oferece suporte ao Twisted?
2x2x1 Host completo 8 4 1 N/A N/A
2x2x2 Host completo 16 8 2 N/A N/A
2x4x4 Host completo 64 32 8 N/A N/A
4x4x4 Host completo 128 64 16 1 N/A
4x4x8 Host completo 256 128 32 2 Sim
4x8x8 Host completo 512 256 64 4 Sim
8x8x8 Host completo 1024 512 128 8 N/A
8x8x16 Host completo 2048 1024 256 16 Sim
8x16x16 Host completo 4096 2048 512 32 Sim
16x16x16 Host completo 8192 4096 1024 64 N/A
16x16x24 Host completo 12.288 6144 1.536 96 N/A

O treinamento de fração única é compatível com até 6.144 ícones. Ele é extensível para 18432 chips usando Multislice. Para mais detalhes, consulte a Visão geral de vários pedaços do Cloud TPU.

Como usar o parâmetro AcceleratorType

Ao alocar recursos de TPU, use o argumento --accelerator-type para especificar o número de TensorCores em uma fração. --accelerator-type é uma string formatada "v$VERSION_NUMBERp-$CORES_COUNT". Por exemplo, v5p-32 especifica uma fração de TPU v5p com 32 TensorCores (16 chips).

Para provisionar TPUs para um job de treinamento v5p, use um dos seguintes tipos de acelerador na solicitação de criação da CLI ou da API TPU:

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128 (um cubo/rack completo)
  • v5p-256 (2 cubos)
  • v5p-512
  • v5p-1024, v5p-12288

Como usar o parâmetro AcceleratorConfig

Nas versões v5p e posteriores do Cloud TPU, o AcceleratorConfig é usado da mesma forma que o Cloud TPU v4. A diferença é que, em vez de especificar o tipo de TPU como --type=v4, você o especifica como a versão do TPU que está sendo usada (por exemplo, --type=v5p para a versão v5p).

Resiliência de ICI do Cloud TPU

A resiliência de ICI ajuda a melhorar a tolerância a falhas de links ópticos e chaves de circuito óptico (OCS, na sigla em inglês) que conectam TPUs entre cubos. As conexões ICI dentro de um cubo usam elos de cobre que não são afetados. A resiliência da ICI permite que as conexões da ICI sejam roteadas em torno das falhas de OCS e ICI ópticas. Como resultado, ele melhora a disponibilidade de programação de fatias de TPU, com a compensação da degradação temporária no desempenho do ICI.

Semelhante ao Cloud TPU v4, a resiliência de ICI é ativada por padrão para frações v5p que têm um cubo ou maior:

  • v5p-128 ao especificar o tipo de acelerador.
  • 4x4x4 ao especificar a configuração do acelerador

Propriedades da VM, do host e da fração

Propriedade Valor em uma TPU
Número de ícones v5p 4
No de vCPUs 208 (apenas metade pode ser usada ao usar a vinculação NUMA para evitar penalidade de desempenho entre NUMA)
RAM (GB) 448 (apenas metade pode ser usada ao usar a vinculação NUMA para evitar penalidade de desempenho entre NUMA)
No de nós NUMA 2
Capacidade de processamento de NIC (Gbps) 200

Relação entre o número de TensorCores, chips, hosts/VMs e cubos em um pod:

Núcleos Ícones Hosts/VMs Cubos
Organizador 8 4 1
Cube (também conhecido como rack) 128 64 16 1
Maior fração com suporte 12.288 6144 1.536 96
Pod completo v5p 17920 8960 2240 140