TPU v3

Este documento descreve a arquitetura e as configurações suportadas do a Cloud TPU v3.

arquitetura do sistema.

Cada chip de TPU v3 contém dois TensorCores. Cada TensorCore tem duas unidades de multiplicação de matrizes (MXUs), uma uma unidade de vetor e uma unidade escalar. A tabela a seguir mostra as principais especificações e os valores deles para um Pod de TPU v3.

Principais especificações Valores do pod v3
Pico de computação por chip 123 teraflops (bf16)
Capacidade e largura de banda do HBM2 32 GiB, 900 GBps
Potência mínima/média/máxima medida 123/220/262 W
Tamanho do Pod de TPU 1024 ícones
Topologia de interconexão Toro 2D
Pico de computação por pod 126 petaflops (bf16)
Largura de banda de redução total por pod 340 TB/s
Largura de banda de bisection por pod 6,4 TB/s

O diagrama a seguir ilustra um chip TPU v3.

Diagrama de um chip TPU v3

Os detalhes de arquitetura e as características de desempenho da TPU v3 estão disponíveis em Um supercomputador específico para domínios para treinamento de redes neurais profundas.

Benefícios de desempenho da TPU v3 em relação à v2

O aumento de FLOPS por TensorCore e capacidade de memória nas configurações da TPU v3 pode melhorar o desempenho dos seus modelos das seguintes maneiras:

  • As configurações da TPU v3 oferecem benefícios significativos de desempenho TensorCore para modelos limitados por computação. Os modelos limitados à memória nas configurações da TPU v2 podem não alcançar essa mesma melhoria de desempenho se eles também estiverem limitados à memória nas configurações da TPU v3.

  • Nos casos em que os dados não cabem na memória nas configurações da TPU v2, a TPU a v3 pode melhorar o desempenho e reduzir a recalculação valores intermediários (rematerialização).

  • As configurações da TPU v3 executam novos modelos com tamanhos de lotes que não cabem nas configurações da TPU v2. Por exemplo, a TPU v3 pode permitir modelos ResNet mais profundos e imagens maiores com o RetinaNet.

Os modelos que são quase limitados à entrada ("alimentação") na TPU v2, porque as etapas de treinamento estão aguardando pela entrada, também podem ficar limitados à entrada no Cloud TPU v3. O guia de desempenho do pipeline pode ajudar você a resolver problemas de alimentação.

Configurações

Um pod de TPU v3 é composto por 1.024 chips interconectados por links de alta velocidade. Para criar um dispositivo TPU v3 ou uma fração de pod, use a flag --accelerator-type no comando de criação de TPU (gcloud compute tpus tpu-vm). Especifique o tipo de acelerador especificando a versão do TPU e o número de núcleos de TPU. Por exemplo, para uma única TPU v3, use --accelerator-type=v3-8. Para uma fração de pod v3 com 128 TensorCores, use --accelerator-type=v3-128.

O comando a seguir mostra como criar uma fração de pod TPU v3 com 128 TensorCores:

  $ gcloud compute tpus tpu-vm create tpu-name \
    --zone=zone \
    --accelerator-type=v3-128 \
    --version=tpu-vm-tf-2.17.0-pod-pjrt

A tabela a seguir lista os tipos de TPU v3 compatíveis:

Versão da TPU Fim da compatibilidade
v3-8 (data final ainda não definida)
v3-32 (data final ainda não definida)
v3-128 (data final ainda não definida)
v3-256 (data final ainda não definida)
v3-512 (data final ainda não definida)
v3-1024 (data final ainda não definida)
v3-2048 (data final ainda não definida)

Para mais informações sobre como gerenciar TPUs, consulte Gerenciar TPUs. Para mais informações sobre a arquitetura do sistema do Cloud TPU, consulte Arquitetura do sistema.