Esta página foi traduzida pela API Cloud Translation.

TPU v5p

Este documento descreve a arquitetura e as configurações compatíveis do Cloud TPU v5p.

arquitetura do sistema.

Esta seção descreve a arquitetura do sistema específica para a versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matriz (MXU), uma unidade vetorial e uma escalar.

Há 8.960 chips em um único pod v5p. O maior job que pode ser programado é um job de 96 cubos (6.144 chips).

A tabela a seguir mostra as principais especificações de um v5p.

Principais especificações	Valores v5p
Pico de computação por chip (bf16)	459 TFLOPS
Capacidade e largura de banda da HBM2e	95GB, 2765 GBps
Tamanho do Pod de TPU	8.960 chips
Topologia de interconexão	3D Torus *
BW de interconexão entre chips	4.800 Gbps

Configurações

Um pod de TPU v5p é composto por 8.960 chips interconectados com links de alta velocidade reconfiguráveis. A rede flexível da TPU v5p permite conectar os chips em uma fração do mesmo tamanho de várias maneiras. Ao criar um slice de TPU usando o comando gcloud compute tpus tpu-vm create, especifique o tipo e a forma usando os parâmetros AcceleratorType ou AcceleratorConfig.

A tabela a seguir mostra as formas de fatia única mais comuns com suporte para v5p, além da maioria (mas não todas) as formas de cubo completas maiores que 1 cubo. A forma máxima de v5p é 16x16x24 (6144 chips, 96 cubos).

Forma da fatia	Tamanho da VM	# Cores	# Chips	Número de máquinas	Número de cubos	Suporte a Twisted?
2x2x1	Host completo	8	4	1	N/A	N/A
2x2x2	Host completo	16	8	2	N/A	N/A
2x4x4	Host completo	64	32	8	N/A	N/A
4x4x4	Host completo	128	64	16	1	N/A
4x4x8	Host completo	256	128	32	2	Sim
4x8x8	Host completo	512	256	64	4	Sim
8x8x8	Host completo	1024	512	128	8	N/A
8x8x16	Host completo	2048	1024	256	16	Sim
8x16x16	Host completo	4096	2048	512	32	Sim
16x16x16	Host completo	8192	4096	1024	64	N/A
16x16x24	Host completo	12.288	6144	1.536	96	N/A

O treinamento de fatia única é compatível com até 6.144 chips. Ele pode ser estendido para 18.432 chips usando o Multislice. Consulte a Visão geral do Cloud TPU Multislice para detalhes.

Como usar o parâmetro AcceleratorType

Ao alocar recursos de TPU, use o argumento --accelerator-type para especificar o número de TensorCores em uma fatia. --accelerator-type é uma string formatada "v$VERSION_NUMBERp-$CORES_COUNT". Por exemplo, v5p-32 especifica uma fatia de TPU v5p com 32 TensorCores (16 chips).

Para provisionar TPUs para um job de treinamento v5p, use um dos seguintes tipos de acelerador na solicitação de criação da API TPU ou da CLI:

v5p-8
v5p-16
v5p-32
v5p-64
v5p-128 (um cubo/rack completo)
v5p-256 (2 cubos)
v5p-512
v5p-1024 ... v5p-12288

Como usar o parâmetro AcceleratorConfig

Para a v5p e versões mais recentes do Cloud TPU, o AcceleratorConfig é usado da mesma forma que o Cloud TPU v4. A diferença é que, em vez de especificar o tipo de TPU como --type=v4, você o especifica como a versão de TPU que está usando (por exemplo, --type=v5p para a versão v5p).

Resiliência de ICI do Cloud TPU

A resiliência do ICI ajuda a melhorar a tolerância a falhas de links ópticos e comutadores de circuito óptico (OCS, na sigla em inglês) que conectam TPUs entre cubos. As conexões ICI em um cubo usam links de cobre que não são afetados. A resiliência de ICI permite que as conexões sejam roteadas em torno de OCS e falhas de ICI óptica. Como resultado, a disponibilidade de programação de fatias de TPU é melhorada, com a desvantagem de degradação temporária no desempenho do ICI.

Assim como na Cloud TPU v4, a resiliência do ICI é ativada por padrão para fatias v5p de um cubo ou mais:

v5p-128 ao especificar o tipo de acelerador
4x4x4 ao especificar a configuração do acelerador

Propriedades de VM, host e fatia

Propriedade	Valor em uma TPU
Número de chips v5p	4
Número de vCPUs	208 (apenas metade é utilizável se usar a vinculação NUMA para evitar a penalidade de desempenho entre NUMA)
RAM (GB)	448 (apenas metade é utilizável se você usar a vinculação NUMA para evitar a penalidade de desempenho entre NUMA)
Número de nós NUMA	2
Capacidade de processamento da NIC (Gbps)	200

Relação entre o número de TensorCores, chips, hosts/VMs e cubos em um pod:

	Núcleos	Chips	Hosts/VMs	Cubos
Host	8	4	1
Cubo (também conhecido como rack)	128	64	16	1
Segmento maior com suporte	12.288	6144	1.536	96
Pod completo v5p	17920	8960	2240	140