TPU v5e

Este documento descreve a arquitetura e as configurações compatíveis do Cloud TPU v5e.

A TPU v5e oferece suporte a treinamento de um ou vários hosts e a inferência de host único. A inferência de vários hosts é compatível com o Sax. Para mais informações, consulte Como disponibilizar modelos de linguagem grandes.

arquitetura do sistema.

Cada chip v5e contém um TensorCore. Cada TensorCore tem quatro unidades de multiplicação de matriz (MXUs), uma unidade vetorial e uma escalar.

O diagrama a seguir ilustra um chip de TPU v5e.

Diagrama de um chip v5e

A tabela a seguir mostra as especificações do ícone de chave e os valores delas para a v5e.

Especificações do chip de chave Valores v5e
Pico de computação por chip (bf16) 197 TFLOPs
Capacidade e largura de banda da HBM2 16 GB, 819 GBps
BW da interconexão entre chips 1.600 Gbps

A tabela a seguir mostra as especificações de pod e os valores delas para a v5e.

Principais especificações do pod Valores v5e
Tamanho do pod da TPU 256 chips
Topologia de interconexão Torus 2D
Tempo de computação máximo por pod 100 PetaOps (Int8)
Reduzir totalmente a largura de banda por pod 51,2 TB/s
Largura de banda de bissecção por pod 1,6 TB/s
Largura de banda da rede do data center por pod 6,4 Tbps

Configurações

O Cloud TPU v5e é um produto combinado de treinamento e inferência (disponibilização). Para para diferenciar um ambiente de treinamento de um ambiente de inferência, use o Sinalizações AcceleratorType ou AcceleratorConfig com a API TPU ou o Sinalização --machine-type ao criar um nó do GKE pool.

Os jobs de treinamento são otimizados para capacidade de processamento e disponibilidade, enquanto os jobs de exibição são são otimizados para latência. Um job de treinamento em TPUs provisionados para veiculação poderia ter menor disponibilidade e, da mesma forma, um job de veiculação executado em TPUs provisionadas para treinamento podem ter maior latência.

Use AcceleratorType para especificar o número de TensorCores que você quer usar. Especifique o AcceleratorType ao criar uma TPU usando o CLI gcloud ou o console do Google Cloud. O valor especificado para AcceleratorType é uma string com o formato: v$VERSION_NUMBER-$CHIP_COUNT.

Também é possível usar AcceleratorConfig para especificar o número de TensorCores que você quer usar. No entanto, como não há variantes de topologia 2D personalizadas para o TPU v5e, não há diferença entre o uso de AcceleratorConfig e AcceleratorType.

Para configurar uma TPU v5e usando AcceleratorConfig, use as flags --version e --topology. Defina --version como a versão da TPU que você quer usar e --topology como a disposição física dos chips da TPU na fração. O valor especificado para AcceleratorConfig é uma string com o formato AxB, em que A e B são as contagens de chips em cada direção.

As seguintes formas de fatia 2D são compatíveis com a v5e:

topologia Número de chips do TPU Número de hosts
1x1 1 1/8
2x2 4 1/2
2x4 8 1
4x4 16 2
4x8 32 4
8x8 64 8
8x16 128 16
16x16 256 32

Cada VM de TPU em uma fatia de TPU v5e contém 1, 4 ou 8 chips. Em fatias de 4 chips e menores, todos os chips da TPU compartilham o mesmo nó de acesso à memória não uniforme (NUMA).

Para VMs de TPU v5e com 8 chips, a comunicação entre CPU e TPU será mais eficiente em até NUMA. partições diferentes. Por exemplo, na figura a seguir, a comunicação do CPU0-Chip0 será ser mais rápida que a comunicação CPU0-Chip4.

Comunicação de nó NUMA

Tipos do Cloud TPU v5e para exibição

A veiculação de host único é compatível com até oito chips v5e. O seguinte são suportadas: frações 1x1, 2x2 e 2x4. Cada fatia tem 1, 4 e 8 ícones, respectivamente.

Configurações da TPU v5e compatíveis com a veiculação: 1 x 1, 2 x 2 e 2 x 4.

Para provisionar TPUs para um job de veiculação, use um dos seguintes tipos de acelerador na solicitação de criação de TPU da CLI ou da API:

AcceleratorType (API TPU) Tipo de máquina (API GKE)
v5litepod-1 ct5lp-hightpu-1t
v5litepod-4 ct5lp-hightpu-4t
v5litepod-8 ct5lp-hightpu-8t

A disponibilização em mais de oito chips v5e, também chamada de disponibilização de vários hosts, é compatível. usando o Sax. Para mais informações, consulte Disponibilização de modelos de linguagem grandes.

Tipos de Cloud TPU v5e para treinamento

O treinamento é compatível com até 256 chips.

Para provisionar TPUs para um job de treinamento v5e, use um dos aceleradores abaixo. na solicitação de criação de TPU da API ou CLI:

AcceleratorType (API TPU) Tipo de máquina (API GKE) topologia
v5litepod-16 ct5lp-hightpu-4t 4x4
v5litepod-32 ct5lp-hightpu-4t 4x8
v5litepod-64 ct5lp-hightpu-4t 8x8
v5litepod-128 ct5lp-hightpu-4t 8x16
v5litepod-256 ct5lp-hightpu-4t 16x16

Comparação de tipos de VM de TPU v5e:

Tipo de VM n2d-48-24-v5lite-tpu n2d-192-112-v5lite-tpu n2d-384-224-v5lite-tpu
Número de chips v5e 1 4 8
Número de vCPUs 24 112 224
RAM (GB) 48 192 384
Número de nós NUMA 1 1 2
Aplicável a v5litepod-1 v5litepod-4 v5litepod-8
Interrupção Alta Média Baixo

Para liberar espaço para cargas de trabalho que exigem mais chips, os programadores podem forçar a interrupção das VMs com menos ícones. Portanto, as VMs de 8 chips provavelmente vão forçar a interrupção de VMs com 1 e 4 chips.