TPU v5e
Este documento descreve a arquitetura e as configurações suportadas da Cloud TPU v5e.
A TPU v5e suporta a preparação de anfitriões únicos e múltiplos, bem como a inferência de anfitriões únicos. A inferência com vários anfitriões é suportada através do Sax. Para mais informações, consulte o artigo Inferência de TPU na nuvem.
Arquitetura do sistema
Cada chip v5e contém um TensorCore. Cada TensorCore tem quatro unidades de multiplicação de matrizes (MXUs), uma unidade vetorial e uma unidade escalar.
O diagrama seguinte ilustra um chip de TPU v5e.
A tabela seguinte mostra as especificações principais do chip e os respetivos valores para a v5e.
Principais especificações do chip | Valores v5e |
---|---|
Capacidade de computação máxima por chip (bf16) | 197 TFLOPs |
Capacidade e largura de banda da HBM2 | 16 GB, 819 GBps |
Interligação entre chips BW | 1600 Gbps |
A tabela seguinte mostra as especificações do Pod e os respetivos valores para a v5e.
Especificações do Key Pod | Valores v5e |
---|---|
Tamanho do pod TPU | 256 chips |
Topologia de interligação | Toro 2D |
Pico de computação por agrupamento | 100 PetaOps (Int8) |
Largura de banda de redução total por Pod | 51,2 TB/s |
Largura de banda de bissecção por agrupamento | 1,6 TB/s |
Largura de banda da rede do centro de dados por Pod | 6,4 Tbps |
Configurações
A Cloud TPU v5e é um produto combinado de preparação e inferência (serviço). Para diferenciar um ambiente de preparação de um ambiente de inferência, use o parâmetro AcceleratorType
com a API TPU ou a flag --machine-type
quando criar um conjunto de nós do Google Kubernetes Engine (GKE).
As tarefas de preparação são otimizadas para o débito e a disponibilidade, enquanto as tarefas de publicação são otimizadas para a latência. Um trabalho de preparação em UTPs aprovisionadas para publicação pode ter uma disponibilidade inferior e, da mesma forma, um trabalho de publicação executado em UTPs aprovisionadas para preparação pode ter uma latência superior.
Use AcceleratorType
para especificar o número de TensorCores que quer usar.
Especifica o AcceleratorType
quando cria uma TPU através da CLI gcloud ou da Google Cloud consola. O valor que especifica para AcceleratorType
é uma string com o formato:
v$VERSION_NUMBER-$CHIP_COUNT
.
As seguintes formas de fatia 2D são suportadas para a v5e:
Topologia | Número de chips de TPU | Número de anfitriões |
---|---|---|
1x1 | 1 | 1/8 |
2x2 | 4 | 1/2 |
2x4 | 8 | 1 |
4x4 | 16 | 2 |
4x8 | 32 | 4 |
8x8 | 64 | 8 |
8x16 | 128 | 16 |
16x16 | 256 | 32 |
Tipos de VMs
Cada VM da TPU numa fatia de TPU v5e contém 1, 4 ou 8 chips. Em fatias de 4 chips ou menos, todos os chips da TPU partilham o mesmo nó de acesso à memória não uniforme (NUMA).
Para VMs de TPU v5e de 8 chips, a comunicação CPU-TPU é mais eficiente nas partições NUMA. Por exemplo, na figura seguinte, a comunicação CPU0-Chip0
é mais rápida do que a comunicação CPU0-Chip4
.
A tabela seguinte mostra uma comparação dos tipos de VMs de TPU v5e:
Tipo de VM | Tipo de máquina (API GKE) | Número de vCPUs por VM | RAM (GB) por MV | Número de nós NUMA por VM |
---|---|---|---|---|
VM de 1 chip | ct5lp-hightpu-1t |
24 | 48 | 1 |
VM de 4 chips | ct5lp-hightpu-4t |
112 | 192 | 1 |
VM de 8 chips | ct5lp-hightpu-8t |
224 | 384 | 2 |
Tipos de Cloud TPU v5e para publicação
A publicação de host único é suportada para até 8 chips v5e. As seguintes configurações são suportadas: divisões de 1x1, 2x2 e 2x4. Cada fatia tem, respetivamente, 1, 4 e 8 batatas fritas.
Para aprovisionar TPUs para uma tarefa de publicação, use um dos seguintes tipos de aceleradores no seu pedido de criação de TPUs na CLI ou na API:
AcceleratorType (API TPU) | Tipo de máquina (API GKE) |
---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
O comando seguinte cria uma fatia de TPU v5e com 8 chips v5e para publicação:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-central1-a \ --accelerator-type=v5litepod-8 \ --version=v2-alpha-tpuv5-lite
Para mais informações sobre a gestão de TPUs, consulte o artigo Faça a gestão de TPUs. Para mais informações sobre a arquitetura do sistema da Cloud TPU, consulte o artigo Arquitetura do sistema.
A publicação em mais de 8 chips v5e, também denominada publicação em vários anfitriões, é suportada através do Sax. Para mais informações, consulte o artigo Inferência de TPU do Google Cloud.
Tipos de Cloud TPU v5e para preparação
A preparação é suportada para até 256 chips.
Para aprovisionar TPUs para uma tarefa de preparação v5e, use um dos seguintes tipos de aceleradores no seu pedido de criação de TPUs na CLI ou na API:
AcceleratorType (API TPU) | Tipo de máquina (API GKE) | Topologia |
---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
O seguinte comando cria uma fatia de TPU v5e com 256 chips v5e para a preparação:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5litepod-256 \ --version=v2-alpha-tpuv5-lite
Para mais informações sobre a gestão de TPUs, consulte o artigo Faça a gestão de TPUs. Para mais informações sobre a arquitetura do sistema da Cloud TPU, consulte o artigo Arquitetura do sistema.