TPU v5p

Este documento descreve a arquitetura e as configurações suportadas do Cloud TPU v5p

arquitetura do sistema.

Esta seção descreve a arquitetura do sistema específica para a versão v5p. Cada O TensorCore tem quatro unidades de multiplicação de matriz (MXU), uma unidade vetorial e um escalar unidade.

Há 8.960 chips em um único pod v5p. O maior job que pode ser programado é um job de 96 cubos (6144 ícones).

A tabela a seguir mostra as principais especificações para uma v5p.

Especificações da chave Valores v5p
Pico de computação por chip (bf16) 459 TFLOPs
Capacidade e largura de banda do HBM2e 95 GB e 2.765 GBps
Tamanho do Pod de TPU 8.960 ícones
Topologia de interconexão Toro 3D *
Interchip Interconnect BW 4.800 Gbps

Configurações

Um pod TPU v5p é composto por 8.960 chips interconectados com opções reconfiguráveis links de alta velocidade. A rede flexível da TPU v5p permite conectar em uma fração do mesmo tamanho de várias maneiras. Quando você cria uma fração de TPU usando o comando gcloud compute tpus tpu-vm create, você especifica o tipo e a forma usando o AcceleratorType ou AcceleratorConfig.

A tabela a seguir mostra formas de fração única mais comuns compatíveis com a v5p, além da maioria (mas não todas) formas de cubo completas maiores que 1 cubo. O formato máximo v5p é 16 x 16 x 24 (6.144 fichas, 96 cubos).

Formato da fração Tamanho da VM No de núcleos No de ícones Número de máquinas No de cubos Oferece suporte à Twisted?
2x2x1 Host completo 8 4 1 N/A N/A
2x2x2 Host completo 16 8 2 N/A N/A
2x4x4 Host completo 64 32 8 N/A N/A
4x4x4 Host completo 128 64 16 1 N/A
4x4x8 Host completo 256 128 32 2 Sim
4x8x8 Host completo 512 256 64 4 Sim
8x8x8 Host completo 1024 512 128 8 N/A
8x8x16 Host completo 2048 1024 256 16 Sim
8x16x16 Host completo 4096 2048 512 32 Sim
16x16x16 Host completo 8192 4096 1024 64 N/A
16x16x24 Host completo 12.288 6144 1.536 96 N/A

O treinamento de fração única é compatível com até 6.144 ícones. É extensível para 18432 chips usando o Multislice. Consulte a Visão geral de multislices do Cloud TPU para mais detalhes.

Como usar o parâmetro AcceleratorType

Ao alocar recursos de TPU, você usa o argumento --accelerator-type para especifique o número de TensorCores em uma fração. --accelerator-type é uma string formatada "v$VERSION_NUMBERp-$CORES_COUNT". Por exemplo, v5p-32 especifica uma fração de TPU v5p com 32 TensorCores (16 chips).

Para provisionar TPUs para um job de treinamento v5p, use uma das opções a seguir. tipos de aceleradores na solicitação de criação da CLI ou da API TPU:

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128 (um cubo/rack completo)
  • v5p-256 (2 cubos)
  • v5p-512
  • v5p-1024 e v5p-12288

Como usar o parâmetro AcceleratorConfig

Para as versões v5p e posteriores do Cloud TPU, o AcceleratorConfig é usado da mesma forma que o Cloud TPU v4. A diferença é em vez de especificar o tipo de TPU como --type=v4, você o especifica como a versão de TPU que você está usando (por exemplo, --type=v5p para a versão v5p).

Resiliência de ICI do Cloud TPU

A resiliência da ICI ajuda a melhorar a tolerância a falhas de links ópticos e comutadores de circuito óptico (OCS, na sigla em inglês) que conectam TPUs entre cubos. As conexões ICI em um cubo usam links de cobre não afetados. A resiliência da ICI permite que as conexões ICI sejam roteadas pelo OCS e pela ICI óptica erros. Como resultado, isso melhora a disponibilidade de programação da TPU em frações, com uma degradação temporária no desempenho da ICI.

Assim como o Cloud TPU v4, a resiliência da ICI é ativada por padrão para frações da v5p que tenham um cubo ou mais:

  • v5p-128 ao especificar o tipo de acelerador
  • 4x4x4 ao especificar a configuração do acelerador

Propriedades de VM, host e fração

Propriedade Valor em uma TPU
No de ícones v5p 4
No de vCPUs 208 (apenas metade pode ser usada se estiver usando a vinculação do NUMA para evitar penalidades de desempenho entre NUMA)
RAM (GB) 448 (apenas metade pode ser usada se estiver usando a vinculação NUMA para evitar penalidades de desempenho entre NUMA)
No de NUMA nós 2
Capacidade de processamento da placa de rede (Gbps) 200

Relação entre o número de TensorCores, chips, hosts/VMs e cubos em um pod:

Núcleos Salgadinhos Hosts/VMs Cubos
Organizador 8 4 1
Cube (também conhecido como rack) 128 64 16 1
Maior fração compatível 12.288 6144 1.536 96
Pod completo v5p 17920 8960 2240 140