Esta página foi traduzida pela API Cloud Translation.

TPU v5e

Este documento descreve a arquitetura e as configurações compatíveis do Cloud TPU v5e.

A TPU v5e oferece suporte a treinamento e inferência de um host único e de vários hosts. A inferência de vários hosts é aceita usando Sax. Para mais informações, consulte Como disponibilizar modelos de linguagem grandes.

arquitetura do sistema.

Cada chip v5e contém um TensorCore. Cada TensorCore tem quatro unidades de multiplicação de matriz (MXUs), uma unidade vetorial e uma escalar.

O diagrama a seguir ilustra um chip TPU v5e.

Diagrama de um chip v5e

A tabela a seguir mostra as principais especificações do chip e os valores dele para a v5e.

Principais especificações do chip	Valores v5e
Pico de computação por chip (bf16)	197 TFLOPS
Capacidade e largura de banda da HBM2	16 GB, 819 GBps
BW de interconexão entre chips	1.600 Gbps

A tabela a seguir mostra as especificações do pod e os valores dele para a v5e.

Principais especificações do pod	Valores v5e
Tamanho do Pod de TPU	256 chips
Topologia de interconexão	Torus 2D
Tempo de computação máximo por pod	100 PetaOps(Int8)
Largura de banda de redução total por pod	51,2 TB/s
Largura de banda de bisection por pod	1,6 TB/s
Largura de banda da rede do data center por pod	6,4 Tbps

Configurações

A Cloud TPU v5e é um produto combinado de treinamento e inferência (serviço). Para diferenciar entre um ambiente de treinamento e um de inferência, use os parâmetros AcceleratorType ou AcceleratorConfig com a API TPU ou a flag --machine-type ao criar um pool de nós do GKE.

Os jobs de treinamento são otimizados para capacidade e disponibilidade, enquanto os jobs de veiculação são otimizados para latência. Um job de treinamento em TPUs provisionados para veiculação pode ter uma disponibilidade menor. Da mesma forma, um job de veiculação executado em TPUs provisionados para treinamento pode ter uma latência maior.

Use AcceleratorType para especificar o número de TensorCores que você quer usar. Especifique o AcceleratorType ao criar uma TPU usando a CLI gcloud ou o console do Google Cloud. O valor especificado para AcceleratorType é uma string com o formato: v$VERSION_NUMBER-$CHIP_COUNT.

Também é possível usar AcceleratorConfig para especificar o número de TensorCores que você quer usar. No entanto, como não há variantes de topologia 2D personalizadas para o TPU v5e, não há diferença entre o uso de AcceleratorConfig e AcceleratorType.

Para configurar uma TPU v5e usando AcceleratorConfig, use as flags --type e --topology. Defina --type como a versão da TPU que você quer usar e --topology como a disposição física dos chips da TPU na fração. O valor especificado para AcceleratorConfig é uma string com o formato AxB, em que A e B são as contagens de chips em cada direção.

As seguintes formas de fatia 2D são compatíveis com a v5e:

Topologia	Número de chips do TPU	Número de hosts
1x1	1	1/8
2x2	4	1/2
2x4	8	1
4x4	16	2
4x8	32	4
8x8	64	8
8x16	128	16
16x16	256	32

Cada VM de TPU em uma fatia de TPU v5e contém 1, 4 ou 8 chips. Em frações de 4 chips e menores, todos os chips de TPU compartilham o mesmo nó de acesso à memória não uniforme (NUMA).

Para VMs TPU v5e de 8 chips, a comunicação CPU-TPU será mais eficiente nas partições NUMA. Por exemplo, na figura a seguir, a comunicação CPU0-Chip0 será mais rápida do que a CPU0-Chip4.

Comunicação de nó NUMA

Tipos de Cloud TPU v5e para veiculação

A veiculação em um único host é compatível com até 8 chips v5e. As seguintes configurações são compatíveis: fatias 1x1, 2x2 e 2x4. Cada fatia tem 1, 4 e 8 chips, respectivamente.

Configurações da TPU v5e que oferecem suporte a veiculação: 1x1, 2x2 e 2x4.

Para provisionar TPUs para um job de veiculação, use um dos seguintes tipos de acelerador na solicitação de criação de TPU da CLI ou da API:

AcceleratorType (API TPU)	Tipo de máquina (API GKE)
`v5litepod-1`	`ct5lp-hightpu-1t`
`v5litepod-4`	`ct5lp-hightpu-4t`
`v5litepod-8`	`ct5lp-hightpu-8t`

A disponibilidade em mais de 8 chips v5e, também chamada de disponibilidade de vários hosts, é compatível com o Sax. Para mais informações, consulte Exibição de modelos de idioma grandes.

Tipos de Cloud TPU v5e para treinamento

O treinamento é compatível com até 256 chips.

Para provisionar TPUs para um job de treinamento v5e, use um dos seguintes tipos de acelerador na solicitação de criação de TPU da CLI ou API:

AcceleratorType (API TPU)	Tipo de máquina (API GKE)	Topologia
`v5litepod-16`	`ct5lp-hightpu-4t`	4x4
`v5litepod-32`	`ct5lp-hightpu-4t`	4x8
`v5litepod-64`	`ct5lp-hightpu-4t`	8x8
`v5litepod-128`	`ct5lp-hightpu-4t`	8x16
`v5litepod-256`	`ct5lp-hightpu-4t`	16x16

Comparação do tipo de VM da TPU v5e:

Tipo de VM	n2d-48-24-v5lite-tpu	n2d-192-112-v5lite-tpu	n2d-384-224-v5lite-tpu
Número de chips v5e	1	4	8
Número de vCPUs	24	112	224
RAM (GB)	48	192	384
Número de nós NUMA	1	1	2
Aplicável a	v5litepod-1	v5litepod-4	v5litepod-8
Interrupção	Alta	Média	Baixo

Para criar espaço para cargas de trabalho que exigem mais chips, os programadores podem substituir VMs com menos chips. Portanto, as VMs de 8 chips provavelmente vão preemptar as VMs de 1 e 4 chips.