TPU v5e
En este documento, se describen la arquitectura y las configuraciones compatibles de Cloud TPU v5e.
TPU v5e admite el entrenamiento de un solo host y de varios hosts, y la inferencia de host único. La inferencia de varios hosts es compatible con Sax. Para obtener más información, consulta Entrega de modelos grandes de lenguaje.
Arquitectura del sistema
Cada chip v5e contiene un TensorCore. Cada TensorCore tiene cuatro unidades de multiplicación de matriz (MXU), una unidad vectorial y una unidad escalar.
En el siguiente diagrama, se ilustra un chip TPU v5e.
En la siguiente tabla, se muestran las especificaciones clave de los chips y sus valores para la versión 5e.
Especificaciones de los chips de teclas | Valores de v5e |
Procesamiento máximo por chip (bf16) | 197 TFLOP |
Procesamiento máximo por chip (Int8) | 393 TFLOP |
Capacidad y ancho de banda de HBM2 | 16 GB, 819 GBps |
Interchip Interconnect BW | 1,600 Gbps |
En la siguiente tabla, se muestran las especificaciones de los Pods y sus valores para v5e.
Especificaciones del Pod de la clave | Valores de v5e |
Tamaño del pod de TPU | 256 chips |
Topología de interconexión | Torus 2D |
Procesamiento máximo por Pod | 100 PetaOps(Int8) |
Ancho de banda de All-Reduce por Pod | 51.2 TB/s |
Ancho de banda de bisección por Pod | 1.6 TB/s |
Ancho de banda de red del centro de datos por Pod | 6.4 Tbps |
Parámetros de configuración
Cloud TPU v5e es un producto combinado de entrenamiento e inferencia (entrega). Para diferenciar entre un entorno de entrenamiento y un entorno de inferencia, usa las marcas AcceleratorType
o AcceleratorConfig
con la API de TPU o la marca --machine-type
cuando crees un grupo de nodos de GKE.
Los trabajos de entrenamiento están optimizados para la capacidad de procesamiento y la disponibilidad, mientras que los trabajos de entrega están optimizados para la latencia. Un trabajo de entrenamiento en TPU aprovisionadas para el entrenamiento podría tener una disponibilidad menor y, de manera similar, un trabajo de entrega ejecutado en TPU aprovisionadas para el entrenamiento podría tener una latencia más alta.
Usa AcceleratorType
para especificar la cantidad de TensorCores que deseas usar.
Cuando crees una TPU, debes especificar el AcceleratorType
con
gcloud CLI o la consola de Google Cloud. El valor que especificas para AcceleratorType
es una string con el formato: v$VERSION_NUMBER-$CHIP_COUNT
.
También puedes usar AcceleratorConfig
para especificar la cantidad de TensorCores que deseas usar. Sin embargo, debido a que no hay variantes de topología 2D personalizadas para TPU v5e, no hay diferencia entre el uso de AcceleratorConfig
y AcceleratorType
.
Para configurar una TPU v5e con AcceleratorConfig
, usa las marcas --version
y --topology
. Establece --version
en la versión de TPU que deseas usar y --topology
en la disposición física de los chips TPU en la porción. El valor que especificas para AcceleratorConfig
es una string con el formato AxB
, en el que A
y B
son los recuentos de chips en cada dirección.
Las siguientes formas de porciones 2D son compatibles con v5e:
Topología | Cantidad de chips TPU | Cantidad de organizadores |
1x1 | 1 | 1/8 |
2x2 | 4 | 1/2 |
2x4 | 8 | 1 |
4x4 | 16 | 2 |
4x8 | 32 | 4 |
8x8 | 64 | 8 |
8x16 | 128 | 16 |
16x16 | 256 | 32 |
Cada VM de TPU en una porción de TPU v5e contiene 1, 4 u 8 chips. En porciones de 4 chips y más pequeñas, todos los chips TPU comparten el mismo nodo de Acceso a la memoria no uniforme (NUMA).
Para las VMs TPU v5e de 8 chips, la comunicación entre CPU y TPU será más eficiente dentro de las particiones
NUMA. Por ejemplo, en la siguiente figura, la comunicación de CPU0-Chip0
será más rápida que la comunicación de CPU0-Chip4
.
Tipos de Cloud TPU v5e para entregar
La entrega de un solo host es compatible con hasta 8 chips v5e. Se admiten las siguientes configuraciones: porciones de 1 x 1, 2 x 2 y 2 x 4. Cada porción tiene 1, 4 y 8 chips, respectivamente.
Si deseas aprovisionar TPU para un trabajo de entrega, usa uno de los siguientes tipos de aceleradores en la solicitud de creación de TPU de la CLI o API:
AcceleratorType (API de TPU) | Tipo de máquina (API de GKE) |
---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
La entrega en más de 8 chips v5e, también llamada entrega de varios hosts, es compatible con Sax. Para obtener más información, consulta Entrega de modelos grandes de lenguaje.
Tipos de Cloud TPU v5e para el entrenamiento
El entrenamiento es compatible con un máximo de 256 chips.
Si deseas aprovisionar TPU para un trabajo de entrenamiento v5e, usa uno de los siguientes tipos de aceleradores en tu solicitud de creación de TPU de la CLI o API:
AcceleratorType (API de TPU) | Tipo de máquina (API de GKE) | Topología |
---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
Comparación de tipos de VM de TPU v5e:
Tipo de VM | n2d-48-24-v5lite-tpu | n2d-192-112-v5lite-tpu | n2d-384-224-v5lite-tpu |
Cantidad de chips v5e | 1 | 4 | 8 |
Cantidad de CPU virtuales | 24 | 112 | 224 |
RAM (GB) | 48 | 192 | 384 |
Cant. de nodos de NUMA | 1 | 1 | 2 |
Se aplica a | v5litepod-1 | v5litepod-4 | V5litepod-8 |
Interrupción | Alta | Media | Baja |
A fin de liberar espacio para las cargas de trabajo que requieren más chips, los programadores pueden interrumpir las VM con menos chips. Por lo tanto, es probable que las VMs de 8 chips interrumpan a las VMs de 1 y 4 chips.