TPU v5p
Este documento descreve a arquitetura e as configurações compatíveis do Cloud TPU v5p.
arquitetura do sistema.
Esta seção descreve a arquitetura do sistema específica para a versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matriz (MXU), uma unidade vetorial e uma escalar.
Há 8.960 chips em uma única fatia v5p. O maior job que pode ser programado é um job de 96 cubos (6.144 chips).
A tabela a seguir mostra as principais especificações de um v5p.
Principais especificações | Valores v5p |
---|---|
Pico de computação por chip (bf16) | 459 TFLOPS |
Capacidade e largura de banda da HBM2e | 95GB, 2765 GBps |
Tamanho do pod da TPU | 8.960 chips |
Topologia de interconexão | 3D Torus * |
BW de interconexão entre chips | 4.800 Gbps |
Configurações
Um pod de TPU v5p é composto por 8.960 chips interconectados com links de alta velocidade
reconfiguráveis. A rede flexível da TPU v5p permite conectar os chips em uma
fração do mesmo tamanho de várias maneiras. Ao criar uma fração de TPU usando o comando gcloud compute tpus tpu-vm create
, especifique o tipo e a forma dela usando o parâmetro AcceleratorType
.
A tabela a seguir mostra as formas de fatia única mais comuns com suporte para v5p, além da maioria (mas não todas) das formas de cubo completo maiores que 1 cubo. A forma máxima de v5p é 16x16x24 (6.144 chips, 96 cubos).
topologia | Núcleos | Ícones | Organizadores | Cubo | Suporte a Twisted? |
2x2x1 | 8 | 4 | 1 | N/A | N/A |
2x2x2 | 16 | 8 | 2 | N/A | N/A |
2x4x4 | 64 | 32 | 8 | N/A | N/A |
4x4x4 | 128 | 64 | 16 | 1 | N/A |
4x4x8 | 256 | 128 | 32 | 2 | Sim |
4x8x8 | 512 | 256 | 64 | 4 | Sim |
8x8x8 | 1024 | 512 | 128 | 8 | N/A |
8x8x16 | 2048 | 1024 | 256 | 16 | Sim |
8x16x16 | 4096 | 2048 | 512 | 32 | Sim |
16x16x16 | 8192 | 4096 | 1024 | 64 | N/A |
16x16x24 | 12.288 | 6144 | 1.536 | 96 | N/A |
O treinamento de fatia única é compatível com até 6.144 chips. É possível aumentar até 18.432 chips usando o recurso Multislice. Para mais informações sobre o multislice, consulte Visão geral do Cloud TPU Multislice.
Como usar o parâmetro AcceleratorType
Ao alocar recursos de TPU, use o argumento --accelerator-type
para
especificar o número de TensorCores em uma fatia. --accelerator-type
é uma
string formatada "v$VERSION_NUMBER
p-$CORES_COUNT
".
Por exemplo, v5p-32
especifica uma fatia de TPU v5p com 32 TensorCores (16 chips).
Para provisionar TPUs para um job de treinamento v5p, use um dos seguintes tipos de acelerador na solicitação de criação da API TPU ou da CLI:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (um cubo/rack completo)
- v5p-256 (2 cubos)
- v5p-512
- v5p-1024 ... v5p-12288
O comando a seguir cria uma fatia de TPU v5p com 256 chips v5p para treinamento:
$ gcloud compute tpus tpu-vm createyour-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
Para mais informações sobre como gerenciar TPUs, consulte Gerenciar TPUs. Para mais informações sobre a arquitetura do sistema do Cloud TPU, consulte Arquitetura do sistema.
Resiliência de ICI do Cloud TPU
A resiliência de ICI ajuda a melhorar a tolerância a falhas de links ópticos e chaves de circuito óptico (OCS, na sigla em inglês) que conectam TPUs entre cubos. As conexões ICI em um cubo usam links de cobre que não são afetados. A resiliência de ICI permite que as conexões de ICI sejam roteadas em torno de OCS e falhas ópticas de ICI. Como resultado, a disponibilidade de programação de fatias de TPU é melhorada, com a compensação de degradação temporária no desempenho do ICI.
Assim como no Cloud TPU v4, a resiliência ICI é ativada por padrão para fatias v5p que são um cubo ou maiores:
- v5p-128 ao especificar o tipo de acelerador
- 4x4x4 ao especificar a configuração do acelerador
Propriedades de VM, host e fatia
Propriedade | Valor em uma TPU |
Número de chips v5p | 4 |
Número de vCPUs | 208 (apenas metade é utilizável se usar a vinculação NUMA para evitar a penalidade de desempenho entre NUMA) |
RAM (GB) | 448 (apenas metade é utilizável se você usar a vinculação NUMA para evitar a penalidade de desempenho entre NUMA) |
Número de nós NUMA | 2 |
Capacidade de processamento da NIC (Gbps) | 200 |
Relação entre o número de TensorCores, chips, hosts/VMs e cubos em um pod:
Núcleos | Chips | Hosts/VMs | Cubos | |
---|---|---|---|---|
Host | 8 | 4 | 1 | |
Cubo (também conhecido como rack) | 128 | 64 | 16 | 1 |
Segmento maior com suporte | 12.288 | 6144 | 1.536 | 96 |
Pod completo v5p | 17920 | 8960 | 2240 | 140 |