TPU v5p

Este documento descreve a arquitetura e as configurações suportadas do Cloud TPU v5p

arquitetura do sistema.

Esta seção descreve a arquitetura do sistema específica para a versão v5p. Cada O TensorCore tem quatro unidades de multiplicação de matriz (MXU), uma unidade vetorial e um escalar unidade.

Há 8.960 chips em um único pod v5p. O maior job que pode ser programado é um job de 96 cubos (6.144 chips).

A tabela a seguir mostra as principais especificações de um v5p.

Especificações da chave Valores v5p
Pico de computação por chip (bf16) 459 TFLOPs
Capacidade e largura de banda do HBM2e 95 GB, 2765 GBps
Tamanho do Pod de TPU 8.960 ícones
Topologia de interconexão Toro 3D *
Interchip Interconnect BW 4.800 Gbps

Configurações

Um pod TPU v5p é composto por 8.960 chips interconectados com opções reconfiguráveis links de alta velocidade. A rede flexível da TPU v5p permite conectar em uma fração do mesmo tamanho de várias maneiras. Quando você cria uma fração de TPU usando o comando gcloud compute tpus tpu-vm create, você especifica o tipo e a forma usando o AcceleratorType ou AcceleratorConfig.

A tabela a seguir mostra as formas de fatia única mais comuns com suporte para v5p, além da maioria (mas não todas) as formas de cubo completas maiores que 1 cubo. A forma máxima de v5p é 16x16x24 (6144 chips, 96 cubos).

Formato da fração Tamanho da VM No de núcleos # Chips Número de máquinas No de cubos Suporte a Twisted?
2x2x1 Host completo 8 4 1 N/A N/A
2x2x2 Host completo 16 8 2 N/A N/A
2x4x4 Host completo 64 32 8 N/A N/A
4x4x4 Host completo 128 64 16 1 N/A
4x4x8 Host completo 256 128 32 2 Sim
4x8x8 Host completo 512 256 64 4 Sim
8x8x8 Host completo 1024 512 128 8 N/A
8x8x16 Host completo 2048 1024 256 16 Sim
8x16x16 Host completo 4096 2048 512 32 Sim
16x16x16 Host completo 8192 4096 1024 64 N/A
16 x 16 x 24 Host completo 12.288 6144 1.536 96 N/A

O treinamento de fração única é compatível com até 6.144 ícones. É extensível para 18432 chips usando o multislice. Consulte a Visão geral do Cloud TPU Multislice para detalhes.

Como usar o parâmetro AcceleratorType

Ao alocar recursos de TPU, você usa o argumento --accelerator-type para especifique o número de TensorCores em uma fração. --accelerator-type é uma string formatada "v$VERSION_NUMBERp-$CORES_COUNT". Por exemplo, v5p-32 especifica uma fração de TPU v5p com 32 TensorCores (16 chips).

Para provisionar TPUs para um job de treinamento v5p, use um dos seguintes tipos de acelerador na solicitação de criação da API TPU ou da CLI:

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128 (um cubo/rack completo)
  • v5p-256 (2 cubos)
  • v5p-512
  • v5p-1024 e v5p-12288

Como usar o parâmetro AcceleratorConfig

Para as versões v5p e posteriores do Cloud TPU, o AcceleratorConfig é usado da mesma forma que o Cloud TPU v4. A diferença é em vez de especificar o tipo de TPU como --type=v4, você o especifica como a versão de TPU que você está usando (por exemplo, --type=v5p para a versão v5p).

Resiliência de ICI do Cloud TPU

A resiliência da ICI ajuda a melhorar a tolerância a falhas de links ópticos e comutadores de circuito óptico (OCS, na sigla em inglês) que conectam TPUs entre cubos. As conexões ICI em um cubo usam links de cobre não afetados. A resiliência da ICI permite que as conexões ICI sejam roteadas pelo OCS e pela ICI óptica erros. Como resultado, isso melhora a disponibilidade de programação da TPU em frações, com uma degradação temporária no desempenho da ICI.

Assim como o Cloud TPU v4, a resiliência da ICI é ativada por padrão para frações da v5p que tenham um cubo ou mais:

  • v5p-128 ao especificar o tipo de acelerador
  • 4x4x4 ao especificar a configuração do acelerador

Propriedades de VM, host e fração

Propriedade Valor em uma TPU
Número de chips v5p 4
Número de vCPUs 208 (apenas metade é utilizável se usar a vinculação NUMA para evitar a penalidade de desempenho entre NUMA)
RAM (GB) 448 (apenas metade pode ser usada se você usar a vinculação NUMA para evitar penalidades de desempenho entre NUMA)
Número de nós NUMA 2
Capacidade de processamento da NIC (Gbps) 200

Relação entre o número de TensorCores, chips, hosts/VMs e cubos em um pod:

Núcleos Salgadinhos Hosts/VMs Cubos
Organizador 8 4 1
Cube (também conhecido como rack) 128 64 16 1
Maior fração compatível 12.288 6144 1.536 96
Pod completo v5p 17920 8960 2240 140