TPU v5e
Neste documento, descrevemos a arquitetura e as configurações compatíveis do Cloud TPU v5e.
A TPU v5e é compatível com treinamento em um ou vários hosts e inferência de um único host. A inferência de vários hosts é compatível com o Sax. Para mais informações, consulte Veiculação de modelos de linguagem grandes.
arquitetura do sistema.
Cada chip v5e contém um TensorCore. Cada TensorCore tem quatro unidades de multiplicação de matrizes (MXUs, na sigla em inglês), uma unidade vetorial e uma unidade escalar.
O diagrama a seguir ilustra um chip TPU v5e.
A tabela a seguir mostra as especificações do ícone de chave e os valores correspondentes para v5e.
Especificações do chip de chave | Valores de v5e |
Pico de computação por chip (bf16) | 197 TFLOPs |
Pico de computação por chip (Int8) | 393 TFLOPs |
Capacidade e largura de banda do HBM2 | 16 GB e 819 GBps |
Interchip Interconnect BW | 1.600 Gbps |
A tabela a seguir mostra as especificações do pod e os respectivos valores para v5e.
Especificações do pod de chaves | Valores de v5e |
Tamanho do pod de TPU | 256 ícones |
Topologia de interconexão | Torus 2D |
Pico de computação por pod | 100 petaOps(Int8) |
Largura de banda de redução total por pod | 51,2 TB/s |
Largura de banda de bissecção por pod | 1,6 TB/s |
Largura de banda da rede de data center por pod | 6,4 Tbps |
Configurações
O Cloud TPU v5e é um produto combinado de treinamento e inferência (veiculação). Para diferenciar um ambiente de treinamento e de inferência, use as sinalizações AcceleratorType
ou AcceleratorConfig
com a API TPU ou a sinalização --machine-type
ao criar um pool de nós do GKE.
Os jobs de treinamento são otimizados para capacidade e disponibilidade, enquanto os jobs de exibição são otimizados para latência. Um job de treinamento em TPUs provisionadas para disponibilização pode ter menor disponibilidade e, da mesma forma, um job de exibição executado em TPUs provisionadas para treinamento pode ter maior latência.
Use AcceleratorType
para especificar o número de TensorCores que você quer usar.
Especifique o AcceleratorType
ao criar uma TPU usando a
CLI gcloud ou o console do Google Cloud. O valor especificado para AcceleratorType
é uma string com o formato: v$VERSION_NUMBER-$CHIP_COUNT
.
Também é possível usar AcceleratorConfig
para especificar o número de TensorCores que você quer usar. No entanto, como não há variantes de topologia 2D personalizadas para a TPU
v5e, não há diferença entre usar AcceleratorConfig
e
AcceleratorType
.
Para configurar uma TPU v5e usando AcceleratorConfig
, use as sinalizações --version
e --topology
. Defina --version
como a versão da TPU que você quer usar e --topology
como a disposição física dos chips de TPU na fração. O
valor especificado para AcceleratorConfig
é uma string com o formato AxB
,
em que A
e B
são as contagens de ícones em cada direção.
Os seguintes formatos de fatias 2D são compatíveis com a v5e:
topologia | Número de chips do TPU | Número de hosts |
1x1 | 1 | 1/8 |
2x2 | 4 | 1/2 |
2x4 | 8 | 1 |
4x4 | 16 | 2 |
4x8 | 32 | 4 |
8x8 | 64 | 8 |
8x16 | 128 | 16 |
16x16 | 256 | 32 |
Cada VM de TPU em uma fração de TPU v5e contém 1, 4 ou 8 chips. Em partes menores e com quatro chips, todos os chips de TPU compartilham o mesmo nó de acesso não uniforme à memória (NUMA, na sigla em inglês).
Para VMs de TPU de 8 chips v5e, a comunicação entre CPU e TPU será mais eficiente nas partições
NUMA. Por exemplo, na figura a seguir, a comunicação com CPU0-Chip0
será
mais rápida que a comunicação com CPU0-Chip4
.
Tipos do Cloud TPU v5e para veiculação
A veiculação de host único é suportada para até oito ícones v5e. As seguintes configurações são compatíveis: frações 1x1, 2x2 e 2x4. Cada fatia tem 1, 4 e 8 ícones, respectivamente.
Para provisionar TPUs para um job de exibição, use um dos seguintes tipos de acelerador na solicitação de criação de TPU da CLI ou API:
AcceleratorType (API TPU) | Tipo de máquina (API GKE) |
---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
A disponibilização em mais de oito chips v5e, também chamada de exibição de vários hosts, é aceita usando Sax. Para mais informações, consulte Veiculação de modelos de linguagem grandes.
Tipos do Cloud TPU v5e para treinamento
O treinamento oferece suporte para até 256 chips.
Para provisionar TPUs para um job de treinamento v5e, use um dos seguintes tipos de acelerador na solicitação de criação de TPU de CLI ou API:
AcceleratorType (API TPU) | Tipo de máquina (API GKE) | topologia |
---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
Comparação dos tipos de VM da TPU v5e:
Tipo de VM | n2d-48-24-v5lite-tpu | n2d-192-112-v5lite-tpu | n2d-384-224-v5lite-tpu |
Número de ícones v5e | 1 | 4 | 8 |
No de vCPUs | 24 | 112 | 224 |
RAM (GB) | 48 | 192 | 384 |
No de nós NUMA | 1 | 1 | 2 |
Aplicável a | v5litepod-1 | v5litepod-4 | v5litepod-8 |
Interrupção | Alta | Média | Baixa |
Para liberar espaço para cargas de trabalho que exigem mais chips, os programadores podem forçar a interrupção de VMs com menos chips. Portanto, as VMs de 8 chips provavelmente vão forçar a interrupção das VMs de 1 e 4 chips.