TPU v5p

Este documento descreve a arquitetura e as configurações suportadas do Cloud TPU v5p

arquitetura do sistema.

Esta seção descreve a arquitetura do sistema específica para a versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matriz (MXU), uma unidade vetorial e uma escalar.

Há 8.960 chips em um único pod v5p. O maior job que pode ser programado é um job de 96 cubos (6144 chips).

A tabela a seguir mostra as principais especificações de um v5p.

Especificações da chave Valores v5p
Pico de computação por chip (bf16) 459 TFLOPS
Capacidade e largura de banda da HBM2e 95 GB e 2.765 GBps
Tamanho do Pod de TPU 8.960 ícones
Topologia de interconexão 3D Torus *
BW da interconexão entre chips 4.800 Gbps

Configurações

Um pod TPU v5p é composto por 8.960 chips interconectados com opções reconfiguráveis links de alta velocidade. A rede flexível da TPU v5p permite conectar os chips em uma fração do mesmo tamanho de várias maneiras. Quando você cria uma fração de TPU usando o comando gcloud compute tpus tpu-vm create, você especifica o tipo e a forma usando o AcceleratorType ou AcceleratorConfig.

A tabela a seguir mostra formas de fração única mais comuns compatíveis com a v5p, além da maioria (mas não todas) formas de cubo completas maiores que 1 cubo. A forma máxima de v5p é 16x16x24 (6144 chips, 96 cubos).

Forma da fatia Tamanho da VM No de núcleos # Chips Número de máquinas No de cubos Compatível com Twisted?
2x2x1 Host completo 8 4 1 N/A N/A
2x2x2 Host completo 16 8 2 N/A N/A
2x4x4 Host completo 64 32 8 N/A N/A
4x4x4 Host completo 128 64 16 1 N/A
4x4x8 Host completo 256 128 32 2 Sim
4x8x8 Host completo 512 256 64 4 Sim
8x8x8 Host completo 1024 512 128 8 N/A
8x8x16 Host completo 2048 1024 256 16 Sim
8x16x16 Host completo 4096 2048 512 32 Sim
16 x 16 x 16 Host completo 8192 4096 1024 64 N/A
16x16x24 Host completo 12.288 6144 1.536 96 N/A

O treinamento de fatia única é compatível com até 6.144 chips. Ele pode ser estendido para 18.432 chips usando o Multislice. Consulte a Visão geral de multislices do Cloud TPU para saber mais detalhes.

Como usar o parâmetro AcceleratorType

Ao alocar recursos de TPU, use o argumento --accelerator-type para especificar o número de TensorCores em uma fatia. --accelerator-type é uma string formatada "v$VERSION_NUMBERp-$CORES_COUNT". Por exemplo, v5p-32 especifica uma fatia de TPU v5p com 32 TensorCores (16 chips).

Para provisionar TPUs para um job de treinamento v5p, use uma das opções a seguir. tipos de aceleradores na solicitação de criação da CLI ou da API TPU:

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128 (um cubo/rack completo)
  • v5p-256 (2 cubos)
  • v5p-512
  • v5p-1024 ... v5p-12288

Como usar o parâmetro AcceleratorConfig

Para as versões v5p e posteriores do Cloud TPU, o AcceleratorConfig é usado da mesma forma que o Cloud TPU v4. A diferença é em vez de especificar o tipo de TPU como --type=v4, você o especifica como a versão de TPU que você está usando (por exemplo, --type=v5p para a versão v5p).

Resiliência de ICI do Cloud TPU

A resiliência da ICI ajuda a melhorar a tolerância a falhas de links ópticos e comutadores de circuito óptico (OCS, na sigla em inglês) que conectam TPUs entre cubos. As conexões ICI em um cubo usam links de cobre não afetados. A resiliência de ICI permite que as conexões sejam roteadas em torno de OCS e falhas ópticas de ICI. Como resultado, a disponibilidade de programação de fatias de TPU é melhor, com a compensação de degradação temporária no desempenho do ICI.

Assim como o Cloud TPU v4, a resiliência da ICI é ativada por padrão para frações da v5p que tenham um cubo ou mais:

  • v5p-128 ao especificar o tipo de acelerador
  • 4x4x4 ao especificar a configuração do acelerador

Propriedades de VM, host e fração

Propriedade Valor em uma TPU
No de ícones v5p 4
No de vCPUs 208 (apenas metade pode ser usada se estiver usando a vinculação do NUMA para evitar penalidades de desempenho entre NUMA)
RAM (GB) 448 (apenas metade pode ser usada se você usar a vinculação NUMA para evitar penalidades de desempenho entre NUMA)
Número de nós NUMA 2
Capacidade de processamento da NIC (Gbps) 200

Relação entre o número de TensorCores, chips, hosts/VMs e cubos em um pod:

Núcleos Chips Hosts/VMs Cubos
Organizador 8 4 1
Cube (também conhecido como rack) 128 64 16 1
Segmento maior com suporte 12.288 6144 1.536 96
Pod completo v5p 17920 8960 2240 140