Esta página foi traduzida pela API Cloud Translation.

TPU v5p

Este documento descreve a arquitetura e as configurações suportadas da Cloud TPU v5p.

Arquitetura do sistema

Esta secção descreve a arquitetura do sistema específica da versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matrizes (MXU), uma unidade vetorial e uma unidade escalar.

Existem 8960 chips numa única fatia v5p. A tarefa mais extensa que pode ser agendada é uma tarefa de 96 cubos (6144 chips).

A tabela seguinte mostra as especificações principais de um v5p.

Principais especificações	Valores v5p
Capacidade de computação máxima por chip (bf16)	459 TFLOPs
Capacidade e largura de banda da HBM2e	95GB, 2765 GBps
Tamanho do pod TPU	8960 chips
Topologia de interligação	Toro 3D *
Interligação entre chips BW	4800 Gbps

Configurações

Um pod de TPUs v5p é composto por 8960 chips interligados com ligações de alta velocidade reconfiguráveis. A rede flexível da TPU v5p permite-lhe ligar os chips numa fatia do mesmo tamanho de várias formas. Quando cria uma fatia de TPU com o comando gcloud compute tpus tpu-vm create, especifica o respetivo tipo e forma com o parâmetro AcceleratorType.

A tabela seguinte mostra as formas de fatia única mais comuns suportadas com v5p, além da maioria (mas não todas) das formas de cubo completo superiores a 1 cubo. A forma v5p máxima é 16x16x24 (6144 chips, 96 cubos).

Topologia	Cores	Chips	Anfitriões	Cubes	Suporta Twisted?
2x2x1	8	4	1	N/A	N/A
2x2x2	16	8	2	N/A	N/A
2x4x4	64	32	8	N/A	N/A
4x4x4	128	64	16	1	N/A
4x4x8	256	128	32	2	Sim
4x8x8	512	256	64	4	Sim
8x8x8	1024	512	128	8	N/A
8x8x16	2048	1024	256	16	Sim
8x16x16	4096	2048	512	32	Sim
16x16x16	8192	4096	1024	64	N/A
16x16x24	12288	6144	1536	96	N/A

O treino de fatia única é suportado para até 6144 chips. Pode aumentar a escala até 18 432 chips com o Multislice. Para mais informações sobre o Multislice, consulte o artigo Vista geral do Multislice do Cloud TPU.

Usar o parâmetro AcceleratorType

Quando atribui recursos de TPUs, usa o argumento --accelerator-type para especificar o número de TensorCores numa fatia. --accelerator-type é uma string formatada "v$VERSION_NUMBERp-$CORES_COUNT". Por exemplo, v5p-32 especifica uma fatia de TPU v5p com 32 TensorCores (16 chips).

Para aprovisionar TPUs para uma tarefa de preparação v5p, use um dos seguintes tipos de aceleradores no seu pedido de criação da API TPU ou da CLI:

v5p-8
v5p-16
v5p-32
v5p-64
v5p-128 (um cubo/rack completo)
v5p-256 (2 cubos)
v5p-512
v5p-1024 … v5p-12288

O seguinte comando cria uma fatia de TPU v5p com 256 TensorCores v5p (128 chips) para a preparação:

  $ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5p-256 \
    --version=v2-alpha-tpuv5

Para mais informações sobre a gestão de TPUs, consulte o artigo Faça a gestão de TPUs. Para mais informações sobre a arquitetura do sistema da Cloud TPU, consulte o artigo Arquitetura do sistema.

Resiliência da ICI do Cloud TPU

A resiliência da ICI ajuda a melhorar a tolerância a falhas das ligações óticas e dos comutadores de circuitos óticos (OCS) que ligam as TPUs entre os cubos. (As ligações ICI num cubo usam ligações de cobre que não são afetadas). A resiliência da ICI permite que as ligações ICI sejam encaminhadas em torno de falhas da ICI ótica e do OCS. Como resultado, melhora a disponibilidade de agendamento de fatias de TPU, com a desvantagem de uma degradação temporária no desempenho do ICI.

Semelhante ao Cloud TPU v4, a resiliência da ICI está ativada por predefinição para fatias v5p com um cubo ou mais:

v5p-128 quando especifica o tipo de acelerador
4x4x4 quando especificar a configuração do acelerador

Propriedades da VM, do anfitrião e da fatia

Propriedade	Valor numa TPU
# of v5p chips	4
# de vCPUs	208 (apenas metade é utilizável se usar a associação NUMA para evitar a penalização de desempenho entre NUMAs)
RAM (GB)	448 (apenas metade é utilizável se usar a associação NUMA para evitar a penalização de desempenho entre NUMAs)
# of NUMA Nodes	2
Débito da NIC (Gbps)	200

Relação entre o número de TensorCores, chips, anfitriões/MV e cubos num Pod:

	Núcleos	Batatas fritas	Anfitriões/VMs	Cubes
Anfitrião	8	4	1
Cubo (também conhecido como rack)	128	64	16	1
Maior fatia suportada	12288	6144	1536	96
v5p full Pod	17920	8960	2240	140