TPU v5e

Este documento descreve a arquitetura e as configurações suportadas da Cloud TPU v5e.

A TPU v5e suporta a preparação de anfitriões únicos e múltiplos, bem como a inferência de anfitriões únicos. A inferência com vários anfitriões é suportada através do Sax. Para mais informações, consulte o artigo Inferência de TPU na nuvem.

Arquitetura do sistema

Cada chip v5e contém um TensorCore. Cada TensorCore tem quatro unidades de multiplicação de matrizes (MXUs), uma unidade vetorial e uma unidade escalar.

O diagrama seguinte ilustra um chip de TPU v5e.

Diagrama de um chip v5e

A tabela seguinte mostra as especificações principais do chip e os respetivos valores para a v5e.

Principais especificações do chip Valores v5e
Capacidade de computação máxima por chip (bf16) 197 TFLOPs
Capacidade e largura de banda da HBM2 16 GB, 819 GBps
Interligação entre chips BW 1600 Gbps

A tabela seguinte mostra as especificações do Pod e os respetivos valores para a v5e.

Especificações do Key Pod Valores v5e
Tamanho do pod TPU 256 chips
Topologia de interligação Toro 2D
Pico de computação por agrupamento 100 PetaOps (Int8)
Largura de banda de redução total por Pod 51,2 TB/s
Largura de banda de bissecção por agrupamento 1,6 TB/s
Largura de banda da rede do centro de dados por Pod 6,4 Tbps

Configurações

A Cloud TPU v5e é um produto combinado de preparação e inferência (serviço). Para diferenciar um ambiente de preparação de um ambiente de inferência, use o parâmetro AcceleratorType com a API TPU ou a flag --machine-type quando criar um conjunto de nós do Google Kubernetes Engine (GKE).

As tarefas de preparação são otimizadas para o débito e a disponibilidade, enquanto as tarefas de publicação são otimizadas para a latência. Um trabalho de preparação em UTPs aprovisionadas para publicação pode ter uma disponibilidade inferior e, da mesma forma, um trabalho de publicação executado em UTPs aprovisionadas para preparação pode ter uma latência superior.

Use AcceleratorType para especificar o número de TensorCores que quer usar. Especifica o AcceleratorType quando cria uma TPU através da CLI gcloud ou da Google Cloud consola. O valor que especifica para AcceleratorType é uma string com o formato: v$VERSION_NUMBER-$CHIP_COUNT.

As seguintes formas de fatia 2D são suportadas para a v5e:

Topologia Número de chips de TPU Número de anfitriões
1x1 1 1/8
2x2 4 1/2
2x4 8 1
4x4 16 2
4x8 32 4
8x8 64 8
8x16 128 16
16x16 256 32

Tipos de VMs

Cada VM da TPU numa fatia de TPU v5e contém 1, 4 ou 8 chips. Em fatias de 4 chips ou menos, todos os chips da TPU partilham o mesmo nó de acesso à memória não uniforme (NUMA).

Para VMs de TPU v5e de 8 chips, a comunicação CPU-TPU é mais eficiente nas partições NUMA. Por exemplo, na figura seguinte, a comunicação CPU0-Chip0 é mais rápida do que a comunicação CPU0-Chip4.

Comunicação de nós NUMA

A tabela seguinte mostra uma comparação dos tipos de VMs de TPU v5e:

Tipo de VM Tipo de máquina (API GKE) Número de vCPUs por VM RAM (GB) por MV Número de nós NUMA por VM
VM de 1 chip ct5lp-hightpu-1t 24 48 1
VM de 4 chips ct5lp-hightpu-4t 112 192 1
VM de 8 chips ct5lp-hightpu-8t 224 384 2

Tipos de Cloud TPU v5e para publicação

A publicação de host único é suportada para até 8 chips v5e. As seguintes configurações são suportadas: divisões de 1x1, 2x2 e 2x4. Cada fatia tem, respetivamente, 1, 4 e 8 batatas fritas.

Configurações de TPU v5e que suportam a publicação: 1x1, 2x2 e 2x4.

Para aprovisionar TPUs para uma tarefa de publicação, use um dos seguintes tipos de aceleradores no seu pedido de criação de TPUs na CLI ou na API:

AcceleratorType (API TPU) Tipo de máquina (API GKE)
v5litepod-1 ct5lp-hightpu-1t
v5litepod-4 ct5lp-hightpu-4t
v5litepod-8 ct5lp-hightpu-8t

O comando seguinte cria uma fatia de TPU v5e com 8 chips v5e para publicação:

$ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-central1-a \
    --accelerator-type=v5litepod-8 \
    --version=v2-alpha-tpuv5-lite

Para mais informações sobre a gestão de TPUs, consulte o artigo Faça a gestão de TPUs. Para mais informações sobre a arquitetura do sistema da Cloud TPU, consulte o artigo Arquitetura do sistema.

A publicação em mais de 8 chips v5e, também denominada publicação em vários anfitriões, é suportada através do Sax. Para mais informações, consulte o artigo Inferência de TPU do Google Cloud.

Tipos de Cloud TPU v5e para preparação

A preparação é suportada para até 256 chips.

Para aprovisionar TPUs para uma tarefa de preparação v5e, use um dos seguintes tipos de aceleradores no seu pedido de criação de TPUs na CLI ou na API:

AcceleratorType (API TPU) Tipo de máquina (API GKE) Topologia
v5litepod-16 ct5lp-hightpu-4t 4x4
v5litepod-32 ct5lp-hightpu-4t 4x8
v5litepod-64 ct5lp-hightpu-4t 8x8
v5litepod-128 ct5lp-hightpu-4t 8x16
v5litepod-256 ct5lp-hightpu-4t 16x16

O seguinte comando cria uma fatia de TPU v5e com 256 chips v5e para a preparação:

$ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5litepod-256 \
    --version=v2-alpha-tpuv5-lite

Para mais informações sobre a gestão de TPUs, consulte o artigo Faça a gestão de TPUs. Para mais informações sobre a arquitetura do sistema da Cloud TPU, consulte o artigo Arquitetura do sistema.