Esta página foi traduzida pela API Cloud Translation.

TPU v5e

Este documento descreve a arquitetura e as configurações suportadas da Cloud TPU v5e.

A TPU v5e suporta a preparação de anfitriões únicos e múltiplos, bem como a inferência de anfitriões únicos. A inferência com vários anfitriões é suportada através do Sax. Para mais informações, consulte o artigo Inferência de TPU na nuvem.

Arquitetura do sistema

Cada chip v5e contém um TensorCore. Cada TensorCore tem quatro unidades de multiplicação de matrizes (MXUs), uma unidade vetorial e uma unidade escalar.

O diagrama seguinte ilustra um chip de TPU v5e.

Diagrama de um chip v5e

A tabela seguinte mostra as especificações principais do chip e os respetivos valores para a v5e.

Principais especificações do chip	Valores v5e
Capacidade de computação máxima por chip (bf16)	197 TFLOPs
Capacidade e largura de banda da HBM2	16 GB, 819 GBps
Interligação entre chips BW	1600 Gbps

A tabela seguinte mostra as especificações do Pod e os respetivos valores para a v5e.

Especificações do Key Pod	Valores v5e
Tamanho do pod TPU	256 chips
Topologia de interligação	Toro 2D
Pico de computação por agrupamento	100 PetaOps (Int8)
Largura de banda de redução total por Pod	51,2 TB/s
Largura de banda de bissecção por agrupamento	1,6 TB/s
Largura de banda da rede do centro de dados por Pod	6,4 Tbps

Configurações

A Cloud TPU v5e é um produto combinado de preparação e inferência (serviço). Para diferenciar um ambiente de preparação de um ambiente de inferência, use o parâmetro AcceleratorType com a API TPU ou a flag --machine-type quando criar um conjunto de nós do Google Kubernetes Engine (GKE).

As tarefas de preparação são otimizadas para o débito e a disponibilidade, enquanto as tarefas de publicação são otimizadas para a latência. Um trabalho de preparação em UTPs aprovisionadas para publicação pode ter uma disponibilidade inferior e, da mesma forma, um trabalho de publicação executado em UTPs aprovisionadas para preparação pode ter uma latência superior.

Use AcceleratorType para especificar o número de TensorCores que quer usar. Especifica o AcceleratorType quando cria uma TPU através da CLI gcloud ou da Google Cloud consola. O valor que especifica para AcceleratorType é uma string com o formato: v$VERSION_NUMBER-$CHIP_COUNT.

As seguintes formas de fatia 2D são suportadas para a v5e:

Topologia	Número de chips de TPU	Número de anfitriões
1x1	1	1/8
2x2	4	1/2
2x4	8	1
4x4	16	2
4x8	32	4
8x8	64	8
8x16	128	16
16x16	256	32

Tipos de VMs

Cada VM da TPU numa fatia de TPU v5e contém 1, 4 ou 8 chips. Em fatias de 4 chips ou menos, todos os chips da TPU partilham o mesmo nó de acesso à memória não uniforme (NUMA).

Para VMs de TPU v5e de 8 chips, a comunicação CPU-TPU é mais eficiente nas partições NUMA. Por exemplo, na figura seguinte, a comunicação CPU0-Chip0 é mais rápida do que a comunicação CPU0-Chip4.

Comunicação de nós NUMA

A tabela seguinte mostra uma comparação dos tipos de VMs de TPU v5e:

Tipo de VM	Tipo de máquina (API GKE)	Número de vCPUs por VM	RAM (GB) por MV	Número de nós NUMA por VM
VM de 1 chip	`ct5lp-hightpu-1t`	24	48	1
VM de 4 chips	`ct5lp-hightpu-4t`	112	192	1
VM de 8 chips	`ct5lp-hightpu-8t`	224	384	2

Tipos de Cloud TPU v5e para publicação

A publicação de host único é suportada para até 8 chips v5e. As seguintes configurações são suportadas: divisões de 1x1, 2x2 e 2x4. Cada fatia tem, respetivamente, 1, 4 e 8 batatas fritas.

Configurações de TPU v5e que suportam a publicação: 1x1, 2x2 e 2x4.

Para aprovisionar TPUs para uma tarefa de publicação, use um dos seguintes tipos de aceleradores no seu pedido de criação de TPUs na CLI ou na API:

AcceleratorType (API TPU)	Tipo de máquina (API GKE)
`v5litepod-1`	`ct5lp-hightpu-1t`
`v5litepod-4`	`ct5lp-hightpu-4t`
`v5litepod-8`	`ct5lp-hightpu-8t`

O comando seguinte cria uma fatia de TPU v5e com 8 chips v5e para publicação:

$ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-central1-a \
    --accelerator-type=v5litepod-8 \
    --version=v2-alpha-tpuv5-lite

Para mais informações sobre a gestão de TPUs, consulte o artigo Faça a gestão de TPUs. Para mais informações sobre a arquitetura do sistema da Cloud TPU, consulte o artigo Arquitetura do sistema.

A publicação em mais de 8 chips v5e, também denominada publicação em vários anfitriões, é suportada através do Sax. Para mais informações, consulte o artigo Inferência de TPU do Google Cloud.

Tipos de Cloud TPU v5e para preparação

A preparação é suportada para até 256 chips.

Para aprovisionar TPUs para uma tarefa de preparação v5e, use um dos seguintes tipos de aceleradores no seu pedido de criação de TPUs na CLI ou na API:

AcceleratorType (API TPU)	Tipo de máquina (API GKE)	Topologia
`v5litepod-16`	`ct5lp-hightpu-4t`	4x4
`v5litepod-32`	`ct5lp-hightpu-4t`	4x8
`v5litepod-64`	`ct5lp-hightpu-4t`	8x8
`v5litepod-128`	`ct5lp-hightpu-4t`	8x16
`v5litepod-256`	`ct5lp-hightpu-4t`	16x16

O seguinte comando cria uma fatia de TPU v5e com 256 chips v5e para a preparação:

$ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5litepod-256 \
    --version=v2-alpha-tpuv5-lite