TPU v5p

Este documento descreve a arquitetura e as configurações suportadas da Cloud TPU v5p.

Arquitetura do sistema

Esta secção descreve a arquitetura do sistema específica da versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matrizes (MXU), uma unidade vetorial e uma unidade escalar.

Existem 8960 chips numa única fatia v5p. A tarefa mais extensa que pode ser agendada é uma tarefa de 96 cubos (6144 chips).

A tabela seguinte mostra as especificações principais de um v5p.

Principais especificações Valores v5p
Capacidade de computação máxima por chip (bf16) 459 TFLOPs
Capacidade e largura de banda da HBM2e 95GB, 2765 GBps
Tamanho do pod TPU 8960 chips
Topologia de interligação Toro 3D *
Interligação entre chips BW 4800 Gbps

Configurações

Um pod de TPUs v5p é composto por 8960 chips interligados com ligações de alta velocidade reconfiguráveis. A rede flexível da TPU v5p permite-lhe ligar os chips numa fatia do mesmo tamanho de várias formas. Quando cria uma fatia de TPU com o comando gcloud compute tpus tpu-vm create, especifica o respetivo tipo e forma com o parâmetro AcceleratorType.

A tabela seguinte mostra as formas de fatia única mais comuns suportadas com v5p, além da maioria (mas não todas) das formas de cubo completo superiores a 1 cubo. A forma v5p máxima é 16x16x24 (6144 chips, 96 cubos).

Topologia Cores Chips Anfitriões Cubes Suporta Twisted?
2x2x1 8 4 1 N/A N/A
2x2x2 16 8 2 N/A N/A
2x4x4 64 32 8 N/A N/A
4x4x4 128 64 16 1 N/A
4x4x8 256 128 32 2 Sim
4x8x8 512 256 64 4 Sim
8x8x8 1024 512 128 8 N/A
8x8x16 2048 1024 256 16 Sim
8x16x16 4096 2048 512 32 Sim
16x16x16 8192 4096 1024 64 N/A
16x16x24 12288 6144 1536 96 N/A

O treino de fatia única é suportado para até 6144 chips. Pode aumentar a escala até 18 432 chips com o Multislice. Para mais informações sobre o Multislice, consulte o artigo Vista geral do Multislice do Cloud TPU.

Usar o parâmetro AcceleratorType

Quando atribui recursos de TPUs, usa o argumento --accelerator-type para especificar o número de TensorCores numa fatia. --accelerator-type é uma string formatada "v$VERSION_NUMBERp-$CORES_COUNT". Por exemplo, v5p-32 especifica uma fatia de TPU v5p com 32 TensorCores (16 chips).

Para aprovisionar TPUs para uma tarefa de preparação v5p, use um dos seguintes tipos de aceleradores no seu pedido de criação da API TPU ou da CLI:

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128 (um cubo/rack completo)
  • v5p-256 (2 cubos)
  • v5p-512
  • v5p-1024 … v5p-12288

O seguinte comando cria uma fatia de TPU v5p com 256 TensorCores v5p (128 chips) para a preparação:

  $ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5p-256 \
    --version=v2-alpha-tpuv5

Para mais informações sobre a gestão de TPUs, consulte o artigo Faça a gestão de TPUs. Para mais informações sobre a arquitetura do sistema da Cloud TPU, consulte o artigo Arquitetura do sistema.

Resiliência da ICI do Cloud TPU

A resiliência da ICI ajuda a melhorar a tolerância a falhas das ligações óticas e dos comutadores de circuitos óticos (OCS) que ligam as TPUs entre os cubos. (As ligações ICI num cubo usam ligações de cobre que não são afetadas). A resiliência da ICI permite que as ligações ICI sejam encaminhadas em torno de falhas da ICI ótica e do OCS. Como resultado, melhora a disponibilidade de agendamento de fatias de TPU, com a desvantagem de uma degradação temporária no desempenho do ICI.

Semelhante ao Cloud TPU v4, a resiliência da ICI está ativada por predefinição para fatias v5p com um cubo ou mais:

  • v5p-128 quando especifica o tipo de acelerador
  • 4x4x4 quando especificar a configuração do acelerador

Propriedades da VM, do anfitrião e da fatia

Propriedade Valor numa TPU
# of v5p chips 4
# de vCPUs 208 (apenas metade é utilizável se usar a associação NUMA para evitar a penalização de desempenho entre NUMAs)
RAM (GB) 448 (apenas metade é utilizável se usar a associação NUMA para evitar a penalização de desempenho entre NUMAs)
# of NUMA Nodes 2
Débito da NIC (Gbps) 200

Relação entre o número de TensorCores, chips, anfitriões/MV e cubos num Pod:

Núcleos Batatas fritas Anfitriões/VMs Cubes
Anfitrião 8 4 1
Cubo (também conhecido como rack) 128 64 16 1
Maior fatia suportada 12288 6144 1536 96
v5p full Pod 17920 8960 2240 140