Se usó la API de Cloud Translation para traducir esta página.

TPU v5p

En este documento, se describe la arquitectura y las configuraciones compatibles de Cloud TPU v5p.

Arquitectura del sistema

En esta sección, se describe la arquitectura del sistema específica de la versión v5p. Cada TensorCore tiene cuatro unidades de multiplicación de matriz (MXU), una unidad vectorial y un escalar unidad.

Hay 8,960 chips en un solo Pod v5p. La tarea más grande que se puede programar es una tarea de 96 cubos (6,144 chips).

En la siguiente tabla, se muestran las especificaciones clave de un v5p.

Especificaciones clave	Valores de v5p
Procesamiento máximo por chip (bf16)	459 TFLOP
Capacidad y ancho de banda de HBM2e	95 GB, 2765 GBps
Tamaño del pod de TPU	Chips de 8960
Topología de interconexión	Torón 3D *
Ancho de banda de interconexión entre chips	4,800 Gbit/s

Configuraciones

Un Pod de TPU v5p está compuesto por 8,960 chips interconectados con cables reconfigurables vínculos de alta velocidad. Las redes flexibles de TPU v5p te permiten conectar la en una porción del mismo tamaño de varias maneras. Cuando creas una porción de TPU con el comando gcloud compute tpus tpu-vm create, especificas su tipo y forma con los parámetros AcceleratorType o AcceleratorConfig.

En la siguiente tabla, se muestran las formas de una sola porción más comunes compatibles con la v5p, además de la mayoría (pero no todas) las formas de cubo completo de más de 1 cubo. La forma máxima de v5p es 16 × 16 × 24 (6,144 chips, 96 cubos).

Forma de la porción	Tamaño de la VM	Cantidad de núcleos	# chips	Cantidad de máquinas	Cantidad de cubos	¿Es compatible con Twisted?
2x2x1	Host completo	8	4	1	N/A	N/A
2x2x2	Host completo	16	8	2	N/A	N/A
2x4x4	Host completo	64	32	8	N/A	N/A
4x4x4	Host completo	128	64	16	1	N/A
4 x 4 x 8	Host completo	256	128	32	2	Sí
4 × 8 × 8	Host completo	512	256	64	4	Sí
8 x 8 x 8	Host completo	1024	512	128	8	N/A
8 x 8 x 16	Host completo	2,048	1024	256	16	Sí
8 × 16 × 16	Host completo	4,096	2,048	512	32	Sí
16 × 16 × 16	Host completo	8192	4,096	1024	64	N/A
16 × 16 × 24	Host completo	12288	6144	1,536	96	N/A

El entrenamiento de una sola porción es compatible con hasta 6144 chips. Se puede ampliar a 18,432 chips con Multislice. Consulta la descripción general de Multislice de Cloud TPU para obtener más información.

Usa el parámetro AcceleratorType

Cuando asignas recursos de TPU, usas el argumento --accelerator-type para especificar la cantidad de TensorCores en una porción. --accelerator-type es una cadena con formato "v$VERSION_NUMBERp-$CORES_COUNT". Por ejemplo, v5p-32 especifica una porción de TPU v5p con 32 TensorCores (16 chips).

Si deseas aprovisionar TPU para un trabajo de entrenamiento v5p, usa una de las siguientes opciones tipos de acelerador en tu solicitud de creación de la API de TPU o CLI:

v5p-8
v5p-16
v5p-32
v5p-64
v5p-128 (un cubo o bastidor completo)
v5p-256 (2 cubos)
v5p-512
v5p-1024 ... v5p-12288

Usa el parámetro AcceleratorConfig

Para versiones v5p y posteriores de Cloud TPU, AcceleratorConfig se usa de la misma manera que con Cloud TPU v4. La diferencia es que que, en lugar de especificar el tipo de TPU como --type=v4, debes especificarlo como la versión de TPU que usas (por ejemplo, --type=v5p para la versión v5p)

Resiliencia de ICI de Cloud TPU

La resiliencia de ICI ayuda a mejorar la tolerancia a errores de vínculos ópticos y interruptores de circuito óptico (OCS) que conectan TPU entre cubos. (Las conexiones de ICI dentro de un cubo usan vínculos de cobre que no se ven afectados). La resiliencia de ICI permite que las conexiones de ICI se enruten alrededor de las fallas de OCS y ICI ópticas. Como resultado, mejora la disponibilidad de programación de las porciones de TPU, con la desventaja de una degradación temporal en el rendimiento de ICI.

Al igual que Cloud TPU v4, la resiliencia de ICI está habilitada de forma predeterminada Para porciones v5p de un cubo o más grandes:

v5p-128 cuando se especifica el tipo de acelerador
4 × 4 × 4 cuando se especifica la configuración del acelerador

Propiedades de la VM, el host y la porción

Propiedad	Valor de una TPU
Cantidad de chips v5p	4
Cantidad de CPUs virtuales	208 (solo se puede usar la mitad si se usa la vinculación NUMA para evitar la penalización de rendimiento entre NUMA)
RAM (GB)	448 (solo se puede usar la mitad si se usa la vinculación NUMA para evitar la penalización de rendimiento entre NUMA)
Cantidad de nodos de NUMA	2
Capacidad de procesamiento de NIC (Gbps)	200

Relación entre la cantidad de TensorCores, chips, hosts/VMs y cubos en un pod:

	Núcleos	Papas fritas	Hosts/VMs	Cubos
Host	8	4	1
Cube (también conocido como bastidor)	128	64	16	1
La porción compatible más grande	12288	6144	1,536	96
Pod completo v5p	17920	8960	2240	140