TPU v5p

Neste documento, descrevemos a arquitetura e as configurações compatíveis do Cloud TPU v5p.

arquitetura do sistema.

Esta seção descreve a arquitetura do sistema específica para a versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matriz (MXU), uma unidade vetorial e uma unidade escalar.

Há 8.960 chips em um único pod v5p. O maior job que pode ser programado é de 96 cubos (6.144 chips).

A tabela a seguir mostra as principais especificações para uma v5p.

Especificações da chave Valores v5p
Pico de computação por chip (bf16) 459 TFLOPs
Capacidade e largura de banda do HBM2e 95 GB e 2.765 GBps
Tamanho do Pod de TPU 8.960 ícones
Topologia de interconexão Toro 3D *
Interchip Interconnect BW 4.800 Gbps

Configurações

Um pod TPU v5p é composto por 8.960 chips interconectados com links de alta velocidade reconfiguráveis. A rede flexível da TPU v5p permite conectar os chips em uma fração do mesmo tamanho de várias maneiras. Ao criar uma fração de TPU com o comando gcloud compute tpus tpu-vm create, especifique o tipo e a forma dela usando os parâmetros AcceleratorType ou AcceleratorConfig.

A tabela a seguir mostra as formas de fração única mais comuns compatíveis com a v5p, além da maioria das formas de cubo completas maiores que um cubo (mas não todas). O formato máximo da v5p é 16 x 16 x 24 (6.144 ícones, 96 cubos).

Formato da fatia Tamanho da VM No de núcleos No de ícones Número de máquinas No de cubos Compatível com Twisted?
2x2x1 Host completo 8 4 1 N/A N/A
2x2x2 Host completo 16 8 2 N/A N/A
2x4x4 Host completo 64 32 8 N/A N/A
4x4x4 Host completo 128 64 16 1 N/A
4x4x8 Host completo 256 128 32 2 Sim
4x8x8 Host completo 512 256 64 4 Sim
8x8x8 Host completo 1024 512 128 8 N/A
8x8x16 Host completo 2048 1024 256 16 Sim
8x16x16 Host completo 4096 2048 512 32 Sim
16x16x16 Host completo 8192 4096 1024 64 N/A
16x16x24 Host completo 12.288 6144 1.536 96 N/A

O treinamento de fração única é compatível com até 6.144 ícones. Ele é extensível para 18.432 chips usando o Multislice. Consulte a Visão geral de multislices do Cloud TPU para mais detalhes.

Como usar o parâmetro AcceleratorType

Ao alocar recursos de TPU, use o argumento --accelerator-type para especificar o número de TensorCores em uma fração. --accelerator-type é uma string formatada "v$VERSION_NUMBERp-$CORES_COUNT". Por exemplo, v5p-32 especifica uma fração de TPU v5p com 32 TensorCores (16 chips).

Para provisionar TPUs para um job de treinamento v5p, use um dos tipos de acelerador a seguir na solicitação de criação da CLI ou da API TPU:

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128 (um cubo/rack completo)
  • v5p-256 (2 cubos)
  • v5p-512
  • v5p-1024 e v5p-12288

Como usar o parâmetro AcceleratorConfig

Para as versões v5p e posteriores do Cloud TPU, o AcceleratorConfig é usado da mesma forma que o Cloud TPU v4. A diferença é que, em vez de especificar o tipo de TPU como --type=v4, você o especifica como a versão de TPU usada (por exemplo, --type=v5p para a versão v5p).

Resiliência de ICI do Cloud TPU

A resiliência de ICI ajuda a melhorar a tolerância a falhas de links ópticos e chaves de circuito óptico (OCS, na sigla em inglês) que conectam TPUs entre cubos. As conexões ICI em um cubo usam links de cobre não afetados. A resiliência da ICI permite que conexões ICI sejam roteadas em torno de falhas de OCS e ICI ópticas. Como resultado, ela melhora a disponibilidade da programação de frações de TPU, com a compensação da degradação temporária no desempenho da ICI.

Semelhante ao Cloud TPU v4, a resiliência ICI é ativada por padrão para frações da v5p que são de um cubo ou mais:

  • v5p-128 ao especificar o tipo de acelerador
  • 4x4x4 ao especificar a configuração do acelerador

Propriedades de VM, host e fração

Propriedade Valor em uma TPU
No de ícones v5p 4
No de vCPUs 208 (apenas metade pode ser usada se estiver usando a vinculação do NUMA para evitar penalidades de desempenho entre NUMA)
RAM (GB) 448 (apenas metade pode ser usada se estiver usando a vinculação do NUMA para evitar penalidades de desempenho de NUMA cruzada)
No de NUMA nós 2
Capacidade de processamento da placa de rede (Gbps) 200

Relação entre o número de TensorCores, chips, hosts/VMs e cubos em um pod:

Núcleos Salgadinhos Hosts/VMs Cubos
Organizador 8 4 1
Cube (também conhecido como rack) 128 64 16 1
Maior fração compatível 12.288 6144 1.536 96
Pod completo v5p 17920 8960 2240 140