TPU v5e
Este documento descreve a arquitetura e as configurações disponíveis no Cloud TPU v5e.
A TPU v5e aceita treinamento de host único e de vários hosts e inferência de host único. A inferência de vários hosts é aceita com o Sax. Para mais informações, consulte Inferência do Cloud TPU.
Arquitetura do sistema
Cada chip da v5e contém um TensorCore. Cada TensorCore tem quatro unidades de multiplicação de matriz (MXUs), uma unidade vetorial e uma escalar.
O diagrama a seguir ilustra um chip de TPU v5e.

A tabela a seguir mostra as principais especificações do chip e os valores correspondentes para a v5e.
| Principais especificações do chip | Valores da v5e |
|---|---|
| Pico de computação por chip (bf16) | 197 TFLOPs |
| Capacidade e largura de banda do HBM2 | 16 GB, 819 GBps |
| Interconexão entre chips BW | 1600 Gbps |
A tabela a seguir mostra as especificações do pod e os valores delas para a v5e.
| Principais especificações do pod | Valores da v5e |
|---|---|
| Tamanho do Pod de TPU | 256 chips |
| Topologia de interconexão | Toro 2D |
| Computação máxima por pod | 100 PetaOps (Int8) |
| Largura de banda de redução total por pod | 51,2 TB/s |
| Largura de banda de bissecção por pod | 1,6 TB/s |
| Largura de banda da rede do data center por pod | 6,4 Tbps |
Configurações
O Cloud TPU v5e é um produto combinado de treinamento e inferência (disponibilização). Para
diferenciar um ambiente de treinamento e um de inferência, use o
parâmetro AcceleratorType com a API TPU ou a flag --machine-type
ao criar um pool de nós do Google
Kubernetes Engine (GKE).
Os jobs de treinamento são otimizados para capacidade de processamento e disponibilidade, enquanto os jobs de disponibilização são otimizados para latência. Um job de treinamento em TPUs provisionadas para disponibilização pode ter disponibilidade menor. Da mesma forma, um job de disponibilização executado em TPUs provisionadas para treinamento pode ter latência maior.
Use AcceleratorType para especificar o número de TensorCores que você quer usar.
Especifique o AcceleratorType ao criar uma TPU usando a
gcloud CLI ou o console doGoogle Cloud . O valor
especificado para AcceleratorType é uma string com o
formato: v$VERSION_NUMBER-$CHIP_COUNT.
As seguintes formas de frações 2D são aceitas na v5e:
| Topologia | Número de chips de TPU | Número de hosts |
|---|---|---|
| 1x1 | 1 | 1/8 |
| 2x2 | 4 | 1/2 |
| 2x4 | 8 | 1 |
| 4x4 | 16 | 2 |
| 4x8 | 32 | 4 |
| 8x8 | 64 | 8 |
| 8x16 | 128 | 16 |
| 16x16 | 256 | 32 |
Tipos de VM
Cada VM de TPU em uma fração de TPU v5e contém um, quatro ou oito chips. Em frações de quatro chips ou menos, todos os chips de TPU compartilham o mesmo nó de acesso à memória não uniforme (NUMA).
Para VMs de TPU v5e de oito chips, a comunicação CPU-TPU é mais eficiente em partições
NUMA. Por exemplo, na figura a seguir, a comunicação CPU0-Chip0 é
mais rápida do que a CPU0-Chip4.

A tabela abaixo mostra uma comparação dos tipos de VM de TPU v5e:
| Tipo de VM | Tipo de máquina (API GKE) | Número de vCPUs por VM | RAM (GB) por VM | Número de nós NUMA por VM |
|---|---|---|---|---|
| VM de um chip | ct5lp-hightpu-1t |
24 | 48 | 1 |
| VM de quatro chips | ct5lp-hightpu-4t |
112 | 192 | 1 |
| VM de oito chips | ct5lp-hightpu-8t |
224 | 384 | 2 |
Tipos do Cloud TPU v5e para disponibilização
A disponibilização com host único é aceita com até oito chips da v5e. Estas configurações são aceitas: frações 1x1, 2x2 e 2x4. Cada fração tem um, quatro e oito chips, respectivamente.

Para provisionar TPUs para um job de disponibilização, use um dos seguintes tipos de acelerador na solicitação de criação de TPU da CLI ou da API:
| AcceleratorType (API TPU) | Tipo de máquina (API GKE) |
|---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
O comando abaixo cria uma fração de TPU v5e com oito chips da v5e para disponibilização:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-central1-a \ --accelerator-type=v5litepod-8 \ --version=v2-alpha-tpuv5-lite
Para saber como gerenciar TPUs, consulte Gerenciar TPUs. Para mais informações sobre a arquitetura do sistema do Cloud TPU, consulte Arquitetura do sistema.
A disponibilização em mais de oito chips da v5e, também chamada de disponibilização de vários hosts, é aceita com o Sax. Para mais informações, consulte Inferência do Cloud TPU.
Tipos do Cloud TPU v5e para treinamento
O treinamento é aceito com até 256 chips.
Para provisionar TPUs para um job de treinamento da v5e, use um dos seguintes tipos de acelerador na solicitação de criação de TPU da CLI ou da API:
| AcceleratorType (API TPU) | Tipo de máquina (API GKE) | Topologia |
|---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
O comando abaixo cria uma fração de TPU v5e com 256 chips da v5e para treinamento:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5litepod-256 \ --version=v2-alpha-tpuv5-lite
Para saber como gerenciar TPUs, consulte Gerenciar TPUs. Para mais informações sobre a arquitetura do sistema do Cloud TPU, consulte Arquitetura do sistema.