TPU v5p
En este documento, se describen la arquitectura y las configuraciones compatibles de Cloud TPU v5p.
Arquitectura del sistema
En esta sección, se describe la arquitectura del sistema específica para la versión v5p. Cada TensorCore tiene cuatro unidades de multiplicación de matriz (MXU), una unidad vectorial y una unidad escalar.
Hay 8,960 chips en un solo Pod v5p. El trabajo más grande que se puede programar es un trabajo de 96 cubos (chip 6,144).
En la siguiente tabla, se muestran las especificaciones clave para una versión 5p.
Especificaciones clave | Valores de v5p |
---|---|
Procesamiento máximo por chip (bf16) | 459 TFLOP |
Capacidad y ancho de banda de HBM2e | 95 GB, 2,765 Gbps |
Tamaño del pod de TPU | 8,960 chips |
Topología de interconexión | Torus 3D |
Interchip Interconnect BW | 4,800 Gbps |
Parámetros de configuración
Un pod de TPU v5p está compuesto por 8,960 chips interconectados con vínculos de alta velocidad reconfigurables. Las redes flexibles de TPU v5p te permiten conectar los chips en una porción del mismo tamaño de varias maneras. Cuando creas una porción de TPU con el comando gcloud compute tpus tpu-vm create
, debes especificar su tipo y forma con los parámetros AcceleratorType
o AcceleratorConfig
.
En la siguiente tabla, se muestran las formas de una sola porción más comunes admitidas con v5p, además de la mayoría de las formas de cubo completas (pero no todas) mayores que 1 cubo. La forma máxima de v5p es de 16 × 16 × 24 (6,144 chips, 96 cubos).
Forma de la porción | Tamaño de la VM | Cantidad de núcleos | # chips | Cantidad de máquinas | Cantidad de cubos | ¿Compatible con Twisted? |
2x2x1 | Host completo | 8 | 4 | 1 | N/A | N/A |
2x2x2 | Host completo | 16 | 8 | 2 | N/A | N/A |
2x4x4 | Host completo | 64 | 32 | 8 | N/A | N/A |
4 × 4 × 4 | Host completo | 128 | 64 | 16 | 1 | N/A |
4 × 4 × 8 | Host completo | 256 | 128 | 32 | 2 | Sí |
4 × 8 × 8 | Host completo | 512 | 256 | 64 | 4 | Sí |
8 × 8 × 8 | Host completo | 1024 | 512 | 128 | 8 | N/A |
8 × 8 × 16 | Host completo | 2,048 | 1024 | 256 | 16 | Sí |
8 × 16 × 16 | Host completo | 4,096 | 2,048 | 512 | 32 | Sí |
16 × 16 × 16 | Host completo | 8192 | 4,096 | 1024 | 64 | N/A |
16 × 16 × 24 | Host completo | 12288 | 6144 | 1,536 | 96 | N/A |
El entrenamiento de una sola porción es compatible con hasta 6,144 chips. Es extensible a 18,432 chips con Multislice. Consulta la Descripción general de Multislice de Cloud TPU para obtener detalles sobre Multislice.
Cómo usar el parámetro AcceleratorType
Cuando asignas recursos TPU, usas el argumento --accelerator-type
para especificar la cantidad de TensorCores en una porción. --accelerator-type
es una cadena con formato "v$VERSION_NUMBER
p-$CORES_COUNT
".
Por ejemplo, v5p-32
especifica una porción de TPU v5p con 32 TensorCores (16 chips).
Si deseas aprovisionar TPU para un trabajo de entrenamiento v5p, usa uno de los siguientes tipos de aceleradores en tu solicitud de creación de la CLI o API de TPU:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (un cubo completo/bastidor)
- v5p-256 (2 cubos)
- v5p-512
- v5p-1024 ... v5p-12288
Usa el parámetro AcceleratorConfig
Para las versiones v5p y posteriores de Cloud TPU, AcceleratorConfig se usa de la misma manera que con Cloud TPU v4. La diferencia es que, en lugar de especificar el tipo de TPU como --type=v4
, debes especificarlo como la versión de TPU que estás usando (por ejemplo, --type=v5p
para la versión v5p).
Resiliencia de ICI de Cloud TPU
La resiliencia a los ICI ayuda a mejorar la tolerancia a errores de los vínculos ópticos y los interruptores de circuitos ópticos (OCS) que conectan las TPU entre cubos. (Las conexiones de ICI dentro de un cubo usan eslabones de cobre que no se ven afectados). La resiliencia de ICI permite que las conexiones ICI se enruten en torno a los errores de OCS y de ICI ópticos. Como resultado, mejora la disponibilidad de programación de porciones de TPU, con la compensación de una degradación temporal en el rendimiento de ICI.
Al igual que Cloud TPU v4, la resiliencia de ICI se habilita de forma predeterminada para las porciones v5p que tienen un cubo o más:
- v5p-128 cuando se especifica el tipo de acelerador
- 4×4×4 cuando se especifica la configuración del acelerador
Propiedades de VM, host y porción
Propiedad | Valor en una TPU |
Cantidad de chips v5p | 4 |
Cantidad de CPU virtuales | 208 (solo la mitad se puede usar si se usa la vinculación de NUMA para evitar la penalización de rendimiento entre NUMA) |
RAM (GB) | 448 (solo la mitad se puede usar si se usa la vinculación de NUMA para evitar la penalización de rendimiento entre NUMA) |
Cant. de nodos de NUMA | 2 |
Capacidad de procesamiento de NIC (Gbps) | 200 |
Relación entre la cantidad de TensorCores, chips, hosts/VM y cubos en un Pod:
Núcleos | Papas fritas | Hosts/VMs | Cubos | |
---|---|---|---|---|
Presentador | 8 | 4 | 1 | |
Cube (también conocido como rack) | 128 | 64 | 16 | 1 |
Porción admitida más grande | 12288 | 6144 | 1,536 | 96 |
Pod completo de v5p | 17920 | 8960 | 2240 | 140 |