TPU v5p

En este documento, se describe la arquitectura y las configuraciones compatibles de Cloud TPU v5p.

Arquitectura del sistema

En esta sección, se describe la arquitectura del sistema específica de la versión v5p. Cada TensorCore tiene cuatro unidades de multiplicación de matrices (MXU), una unidad vectorial y una unidad escalar.

Hay 8,960 chips en un solo Pod v5p. El trabajo más grande que se puede programar es uno de 96 cubos (6,144 chips).

En la siguiente tabla, se muestran las especificaciones clave para una v5p.

Especificaciones clave Valores v5p
Procesamiento máximo por chip (bf16) 459 TFLOP
Capacidad y ancho de banda de HBM2e 95 GB, 2,765 GBps
Tamaño del pod de TPU Chips de 8960
Topología de interconexión Torus en 3D *
Interchip Interconnect BW 4,800 Gbit/s

Parámetros de configuración

Un pod de TPU v5p está compuesto por 8,960 chips interconectados con vínculos de alta velocidad reconfigurables. Las redes flexibles de TPU v5p te permiten conectar los chips en una porción del mismo tamaño de varias maneras. Cuando creas una porción de TPU con el comando gcloud compute tpus tpu-vm create, debes especificar su tipo y forma con los parámetros AcceleratorType o AcceleratorConfig.

En la siguiente tabla, se muestran las formas más comunes de una sola porción compatibles con v5p, además de la mayoría de las formas de cubo completas (pero no todas) con un tamaño superior a 1 cubo. La forma máxima de v5p es 16 × 16 × 24 (6,144 chips, 96 cubos).

Forma de la porción Tamaño de la VM Cantidad de núcleos # chips Cantidad de máquinas Cantidad de cubos ¿Es compatible con Twisted?
2x2x1 Host completo 8 4 1 N/A N/A
2x2x2 Host completo 16 8 2 N/A N/A
2x4x4 Host completo 64 32 8 N/A N/A
4x4x4 Host completo 128 64 16 1 N/A
4 × 4 × 8 Host completo 256 128 32 2
4 × 8 × 8 Host completo 512 256 64 4
8 × 8 × 8 Host completo 1024 512 128 8 N/A
8 × 8 × 16 Host completo 2,048 1024 256 16
8 × 16 × 16 Host completo 4,096 2,048 512 32
16 × 16 × 16 Host completo 8192 4,096 1024 64 N/A
16 × 16 × 24 Host completo 12288 6144 1,536 96 N/A

El entrenamiento de una sola porción es compatible con hasta 6,144 chips. Es extensible a chips 18,432 con Multislice. Consulta la Descripción general de Multislice de Cloud TPU para conocer los detalles de Multislice.

Usa el parámetro AcceleratorType

Cuando asignas recursos TPU, usas el argumento --accelerator-type para especificar la cantidad de TensorCores en una porción. --accelerator-type es una cadena con formato "v$VERSION_NUMBERp-$CORES_COUNT". Por ejemplo, v5p-32 especifica una porción de TPU v5p con 32 núcleos tensores (16 chips).

Si deseas aprovisionar TPU para un trabajo de entrenamiento v5p, usa uno de los siguientes tipos de acelerador en tu solicitud de creación de la API de TPU o CLI:

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128 (un cubo o bastidor completo)
  • v5p-256 (2 cubos)
  • v5p-512
  • v5p-1024 ... v5p-12288

Usa el parámetro de AcceleratorConfig

Para las versiones v5p y posteriores de Cloud TPU, AcceleratorConfig se usa de la misma manera que con Cloud TPU v4. La diferencia es que, en lugar de especificar el tipo de TPU como --type=v4, debes especificarlo como la versión de TPU que usas (por ejemplo, --type=v5p para la versión v5p).

Resiliencia de ICI de Cloud TPU

La resiliencia de ICI ayuda a mejorar la tolerancia a errores de los enlaces ópticos y los interruptores de circuito óptico (OCS) que conectan las TPU entre cubos. (las conexiones ICI dentro de un cubo utilizan enlaces de cobre que no se ven afectados). La resiliencia de ICI permite que las conexiones ICI se enruten alrededor del OCS y las fallas ópticas de ICI. Como resultado, mejora la disponibilidad de programación de las porciones de TPU, con la compensación de la degradación temporal en el rendimiento de ICI.

Al igual que Cloud TPU v4, la resiliencia de ICI se habilita de forma predeterminada para porciones de v5p que sean de un cubo o más grandes:

  • v5p-128 cuando se especifica el tipo de acelerador
  • 4x4x4 cuando se especifica la configuración del acelerador

Propiedades de VM, host y segmento

Propiedad Valor en una TPU
Cantidad de chips v5p 4
Cantidad de CPU virtuales 208 (solo se puede usar la mitad si se usa la vinculación de NUMA para evitar la penalización de rendimiento entre NUMA)
RAM (GB) 448 (solo se puede usar la mitad si se usa la vinculación de NUMA para evitar la penalización de rendimiento entre NUMA)
Cantidad de nodos de NUMA 2
Capacidad de procesamiento de NIC (Gbps) 200

Relación entre la cantidad de tensores, chips, hosts o VMs y cubos en un Pod:

Núcleos Papas fritas Hosts/VMs Cubos
Presentador 8 4 1
Cube (también conocido como rack) 128 64 16 1
La porción compatible más grande 12288 6144 1,536 96
Pod completo v5p 17920 8960 2240 140