TPU v5p
Este documento describe la arquitectura y las configuraciones admitidas de Cloud TPU v5p
Arquitectura del sistema
En esta sección, se describe la arquitectura del sistema específica de la versión v5p. Cada TensorCore tiene cuatro unidades de multiplicación de matriz (MXU), una unidad vectorial y un escalar unidad.
Hay 8,960 chips en un solo Pod v5p. El trabajo más grande que se puede programar es un trabajo de 96 cubos (chip 6,144).
En la siguiente tabla, se muestran las especificaciones clave para una v5p.
Especificaciones clave | Valores v5p |
---|---|
Procesamiento máximo por chip (bf16) | 459 TFLOP |
Capacidad y ancho de banda de HBM2e | 95 GB, 2,765 GBps |
Tamaño del pod de TPU | Chips de 8960 |
Topología de interconexión | Torus en 3D * |
Interchip Interconnect BW | 4,800 Gbit/s |
Configuraciones
Un Pod de TPU v5p está compuesto por 8,960 chips interconectados con cables reconfigurables
vínculos de alta velocidad. Las redes flexibles de TPU v5p te permiten conectar la
en una porción del mismo tamaño de varias maneras. Cuando creas una porción de TPU
con el comando gcloud compute tpus tpu-vm create
, debes especificar
el tipo y la forma con AcceleratorType
o AcceleratorConfig
.
En la siguiente tabla, se muestran los las formas más comunes de una sola porción compatibles con v5p, y la mayoría (pero no todas) las formas de cubo completas de más de 1 cubo. La forma máxima de v5p es 16x16x24. (6,144 chips, 96 cubos).
Forma de la porción | Tamaño de la VM | Cantidad de núcleos | # chips | Cantidad de máquinas | Cantidad de cubos | ¿Es compatible con Twisted? |
2x2x1 | Host completo | 8 | 4 | 1 | N/A | N/A |
2x2x2 | Host completo | 16 | 8 | 2 | N/A | N/A |
2x4x4 | Host completo | 64 | 32 | 8 | N/A | N/A |
4x4x4 | Host completo | 128 | 64 | 16 | 1 | N/A |
4 × 4 × 8 | Host completo | 256 | 128 | 32 | 2 | Sí |
4 × 8 × 8 | Host completo | 512 | 256 | 64 | 4 | Sí |
8 × 8 × 8 | Host completo | 1024 | 512 | 128 | 8 | N/A |
8 × 8 × 16 | Host completo | 2,048 | 1024 | 256 | 16 | Sí |
8 × 16 × 16 | Host completo | 4,096 | 2,048 | 512 | 32 | Sí |
16 × 16 × 16 | Host completo | 8192 | 4,096 | 1024 | 64 | N/A |
16 × 16 × 24 | Host completo | 12288 | 6144 | 1,536 | 96 | N/A |
El entrenamiento de una sola porción es compatible con hasta 6,144 chips. Es extensible a 18432 chips usando Multislice. Consulta la Descripción general de Multislice de Cloud TPU para conocer los detalles de Multislice.
Usa el parámetro AcceleratorType
Cuando asignas recursos TPU, usas el argumento --accelerator-type
para
especificar la cantidad de TensorCores en una porción. --accelerator-type
es
una cadena con formato
“v$VERSION_NUMBER
p-$CORES_COUNT
”.
Por ejemplo, v5p-32
especifica una porción de TPU v5p con 32 núcleos tensores (16 chips).
Si deseas aprovisionar TPU para un trabajo de entrenamiento v5p, usa una de las siguientes opciones tipos de acelerador en tu solicitud de creación de la API de TPU o CLI:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (un cubo o bastidor completo)
- v5p-256 (2 cubos)
- v5p-512
- v5p-1024 ... v5p-12288
Usa el parámetro de AcceleratorConfig
Para versiones v5p y posteriores de Cloud TPU, AcceleratorConfig
se usa de la misma manera que con Cloud TPU v4.
La diferencia es que
que, en lugar de especificar el tipo de TPU como --type=v4
, debes especificarlo como
la versión de TPU que usas (por ejemplo, --type=v5p
para la versión v5p)
Resiliencia de ICI de Cloud TPU
La resiliencia de ICI ayuda a mejorar la tolerancia a errores de vínculos ópticos y interruptores de circuito óptico (OCS) que conectan TPU entre cubos. (las conexiones ICI dentro de un cubo utilizan enlaces de cobre que no se ven afectados). La resiliencia de ICI permite que las conexiones ICI se enruten alrededor de OCS y de ICI óptico los errores de cada tipo. Como resultado, mejora la disponibilidad de programación de TPU. con la degradación temporal en el rendimiento de ICI.
Al igual que Cloud TPU v4, la resiliencia de ICI está habilitada de forma predeterminada Para porciones v5p de un cubo o más grandes:
- v5p-128 cuando se especifica el tipo de acelerador
- 4x4x4 cuando se especifica la configuración del acelerador
Propiedades de VM, host y segmento
Propiedad | Valor en una TPU |
Cantidad de chips v5p | 4 |
Cantidad de CPU virtuales | 208 (solo se puede usar la mitad si se usa la vinculación de NUMA para evitar la penalización de rendimiento entre NUMA) |
RAM (GB) | 448 (solo se puede usar la mitad si se usa la vinculación de NUMA para evitar la penalización de rendimiento entre NUMA) |
Cantidad de nodos de NUMA | 2 |
Capacidad de procesamiento de NIC (Gbps) | 200 |
La relación entre la cantidad de tensores, chips, hosts o VMs y cubos en un Pod:
Núcleos | Papas fritas | Hosts/VMs | Cubos | |
---|---|---|---|---|
Presentador | 8 | 4 | 1 | |
Cube (también conocido como rack) | 128 | 64 | 16 | 1 |
La porción compatible más grande | 12288 | 6144 | 1,536 | 96 |
Pod completo v5p | 17920 | 8960 | 2240 | 140 |