TPU v5p
En este documento, se describe la arquitectura y las configuraciones compatibles de Cloud TPU v5p.
Arquitectura del sistema
En esta sección, se describe la arquitectura del sistema específica de la versión v5p. Cada TensorCore tiene cuatro unidades de multiplicación de matrices (MXU), una unidad vectorial y una unidad escalar.
Hay 8,960 chips en un solo Pod v5p. La tarea más grande que se puede programar es una tarea de 96 cubos (6,144 chips).
En la siguiente tabla, se muestran las especificaciones clave de un v5p.
Especificaciones clave | Valores de v5p |
---|---|
Procesamiento máximo por chip (bf16) | 459 TFLOPS |
Capacidad y ancho de banda de HBM2e | 95 GB, 2765 GBps |
Tamaño del pod de TPU | 8,960 chips |
Topología de interconexión | Torón 3D * |
Ancho de banda de interconexión entre chips | 4800 Gbps |
Configuraciones
Un pod de TPU v5p se compone de 8,960 chips interconectados con vínculos de alta velocidad reconfigurables. La red flexible de la TPU v5p te permite conectar los chips en una porción del mismo tamaño de varias maneras. Cuando creas una porción de TPU con el comando gcloud compute tpus tpu-vm create
, especificas su tipo y forma con los parámetros AcceleratorType
o AcceleratorConfig
.
En la siguiente tabla, se muestran las formas de una sola porción más comunes compatibles con la v5p, además de la mayoría (pero no todas) las formas de cubo completo de más de 1 cubo. La forma máxima de v5p es 16 × 16 × 24 (6,144 chips, 96 cubos).
Forma de Slice | Tamaño de la VM | # Cores | # Chips | Cantidad de máquinas | Cantidad de cubos | ¿Admite Twisted? |
2x2x1 | Host completo | 8 | 4 | 1 | N/A | N/A |
2x2x2 | Host completo | 16 | 8 | 2 | N/A | N/A |
2x4x4 | Host completo | 64 | 32 | 8 | N/A | N/A |
4x4x4 | Host completo | 128 | 64 | 16 | 1 | N/A |
4 x 4 x 8 | Host completo | 256 | 128 | 32 | 2 | Sí |
4 x 8 x 8 | Host completo | 512 | 256 | 64 | 4 | Sí |
8 x 8 x 8 | Host completo | 1024 | 512 | 128 | 8 | N/A |
8 x 8 x 16 | Host completo | 2,048 | 1024 | 256 | 16 | Sí |
8 × 16 × 16 | Host completo | 4,096 | 2,048 | 512 | 32 | Sí |
16 × 16 × 16 | Host completo | 8192 | 4,096 | 1024 | 64 | N/A |
16 × 16 × 24 | Host completo | 12288 | 6144 | 1,536 | 96 | N/A |
El entrenamiento de una sola porción es compatible con hasta 6144 chips. Se puede ampliar a 18,432 chips con Multislice. Consulta la descripción general de Multislice de Cloud TPU para obtener más información.
Usa el parámetro AcceleratorType
Cuando asignas recursos de TPU, usas el argumento --accelerator-type
para
especificar la cantidad de TensorCores en una porción. --accelerator-type
es una cadena con formato "v$VERSION_NUMBER
p-$CORES_COUNT
".
Por ejemplo, v5p-32
especifica una porción de TPU v5p con 32 TensorCores (16 chips).
Para aprovisionar TPUs para un trabajo de entrenamiento de v5p, usa uno de los siguientes tipos de aceleradores en tu solicitud de creación de la CLI o la API de TPU:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (un cubo o bastidor completo)
- v5p-256 (2 cubos)
- v5p-512
- v5p-1024 ... v5p-12288
Usa el parámetro AcceleratorConfig
Para las versiones v5p y posteriores de Cloud TPU, AcceleratorConfig se usa de la misma manera que con Cloud TPU v4. La diferencia es que, en lugar de especificar el tipo de TPU como --type=v4
, lo especificas como la versión de TPU que usas (por ejemplo, --type=v5p
para la versión v5p).
Resiliencia de ICI de Cloud TPU
La resiliencia de la ICI ayuda a mejorar la tolerancia a fallas de los vínculos ópticos y los switches de circuitos ópticos (OCS) que conectan las TPU entre los cubos. (Las conexiones de ICI dentro de un cubo usan vínculos de cobre que no se ven afectados). La resiliencia de ICI permite que las conexiones de ICI se enruten alrededor de las fallas de OCS y ICI ópticas. Como resultado, mejora la disponibilidad de programación de las porciones de TPU, con la desventaja de una degradación temporal en el rendimiento de ICI.
Al igual que en Cloud TPU v4, la resiliencia de ICI está habilitada de forma predeterminada para las porciones de v5p que son de un cubo o más:
- v5p-128 cuando se especifica el tipo de acelerador
- 4 × 4 × 4 cuando se especifica la configuración del acelerador
Propiedades de VM, host y fragmento
Propiedad | Valor de una TPU |
Cantidad de chips v5p | 4 |
Cantidad de CPUs virtuales | 208 (solo se puede usar la mitad si se usa la vinculación NUMA para evitar la penalización de rendimiento entre NUMA) |
RAM (GB) | 448 (solo se puede usar la mitad si se usa la vinculación NUMA para evitar la penalización de rendimiento entre NUMA) |
Cantidad de nodos de NUMA | 2 |
Capacidad de procesamiento de la NIC (Gbps) | 200 |
Relación entre la cantidad de TensorCores, chips, hosts/VMs y cubos en un pod:
Núcleos | Chips | Hosts o VMs | Cubes | |
---|---|---|---|---|
Host | 8 | 4 | 1 | |
Cube (también conocido como bastidor) | 128 | 64 | 16 | 1 |
La porción más grande admitida | 12288 | 6144 | 1,536 | 96 |
Pod completo v5p | 17920 | 8960 | 2240 | 140 |