Se usó la API de Cloud Translation para traducir esta página.

Tipos de máquinas de GPU

En este documento, se describen los modelos de GPU de NVIDIA disponibles en Compute Engine, que puedes usar para acelerar el aprendizaje automático (AA), el procesamiento de datos y las cargas de trabajo con uso intensivo de gráficos en tus instancias de máquina virtual (VM). En este documento, también se detalla qué GPUs vienen preconectadas a las series de máquinas optimizadas para aceleradores, como A4X, A4, A3, A2, G4 y G2, y qué GPUs puedes conectar a las instancias de uso general N1.

Usa este documento para comparar el rendimiento, la memoria y las funciones de diferentes modelos de GPU. Para obtener una descripción general más detallada de la familia de máquinas optimizadas para aceleradores, incluida información sobre las plataformas de CPU, las opciones de almacenamiento y las capacidades de redes, y para encontrar el tipo de máquina específico que coincida con tu carga de trabajo, consulta Familia de máquinas optimizadas para aceleradores.

Para obtener más información sobre las GPU en Compute Engine, consulta Acerca de las GPU.

Si deseas ver las regiones y zonas disponibles para las GPU en Compute Engine, consulta Regiones de GPU y disponibilidad de zonas.

Tipos de máquinas de GPU

Compute Engine ofrece diferentes tipos de máquinas para admitir tus diversas cargas de trabajo.

Algunos tipos de máquinas admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX. Cuando creas una instancia que usa la estación de trabajo virtual NVIDIA RTX, Compute Engine agrega automáticamente una licencia de vWS. Para obtener información sobre los precios de las estaciones de trabajo virtuales, consulta la página de precios de GPU.

Tipos de máquinas de GPU
Cargas de trabajo de IA y AA	Gráficos y visualización	Otras cargas de trabajo de GPU
Los tipos de máquinas de la serie A optimizados para aceleradores están diseñados para cargas de trabajo de computación de alto rendimiento (HPC), inteligencia artificial (IA) y aprendizaje automático (AA). La serie A de generaciones posteriores es ideal para el entrenamiento previo y el ajuste de modelos de base que involucran grandes clústeres de aceleradores, mientras que la serie A2 se puede usar para entrenar modelos más pequeños y realizar inferencias de un solo host. En estos tipos de máquinas, el modelo de GPU se conecta automáticamente a la instancia.	Los tipos de máquinas de la serie G optimizados para aceleradores están diseñados para cargas de trabajo como las de simulación de NVIDIA Omniverse, aplicaciones de alto procesamiento gráfico, transcodificación de video y escritorios virtuales. Estos tipos de máquinas admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX. La serie G también se puede usar para entrenar modelos más pequeños y para la inferencia de un solo host. En estos tipos de máquinas, el modelo de GPU se conecta automáticamente a la instancia.	Para los tipos de máquinas N1 de uso general, excepto el N1 de núcleo compartido (`f1-micro` y `g1-small`), puedes adjuntar un conjunto selecto de modelos de GPU. Algunos de estos modelos de GPU también admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX.
A4X (Superchips NVIDIA GB200) (`nvidia-gb200`) A4 (NVIDIA B200) (`nvidia-b200`) A3 Ultra (NVIDIA H200) (`nvidia-h200-141gb`) A3 Mega (NVIDIA H100) (`nvidia-h100-mega-80gb`) A3 High (NVIDIA H100) (`nvidia-h100-80gb`) A3 Edge (NVIDIA H100) (`nvidia-h100-80gb`) A2 Ultra (NVIDIA A100 80 GB) (`nvidia-a100-80gb`) A2 Standard (NVIDIA A100) (`nvidia-a100-40gb`)	G4 (NVIDIA RTX PRO 6000) (`nvidia-rtx-pro-6000`) (`nvidia-rtx-pro-6000-vws`) G2 (NVIDIA L4) (`nvidia-l4`) (`nvidia-l4-vws`)	Los siguientes modelos de GPU se pueden adjuntar a los tipos de máquinas de uso general N1: NVIDIA T4 (`nvidia-tesla-t4`) (`nvidia-tesla-t4-vws`) NVIDIA P4 (`nvidia-tesla-p4`) (`nvidia-tesla-p4-vws`) NVIDIA V100 (`nvidia-tesla-v100`) NVIDIA P100 (`nvidia-tesla-p100`) (`nvidia-tesla-p100-vws`)

Tipos de máquinas de GPU

Cargas de trabajo de IA y AA Gráficos y visualización Otras cargas de trabajo de GPU

Los tipos de máquinas de la serie A optimizados para aceleradores están diseñados para cargas de trabajo de computación de alto rendimiento (HPC), inteligencia artificial (IA) y aprendizaje automático (AA).

La serie A de generaciones posteriores es ideal para el entrenamiento previo y el ajuste de modelos de base que involucran grandes clústeres de aceleradores, mientras que la serie A2 se puede usar para entrenar modelos más pequeños y realizar inferencias de un solo host.

En estos tipos de máquinas, el modelo de GPU se conecta automáticamente a la instancia.

Los tipos de máquinas de la serie G optimizados para aceleradores están diseñados para cargas de trabajo como las de simulación de NVIDIA Omniverse, aplicaciones de alto procesamiento gráfico, transcodificación de video y escritorios virtuales. Estos tipos de máquinas admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX.

La serie G también se puede usar para entrenar modelos más pequeños y para la inferencia de un solo host.

En estos tipos de máquinas, el modelo de GPU se conecta automáticamente a la instancia.

Para los tipos de máquinas N1 de uso general, excepto el N1 de núcleo compartido (f1-micro y g1-small), puedes adjuntar un conjunto selecto de modelos de GPU. Algunos de estos modelos de GPU también admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX.

A4X (Superchips NVIDIA GB200)
(nvidia-gb200)
A4 (NVIDIA B200)
(nvidia-b200)
A3 Ultra (NVIDIA H200)
(nvidia-h200-141gb)
A3 Mega (NVIDIA H100)
(nvidia-h100-mega-80gb)
A3 High (NVIDIA H100)
(nvidia-h100-80gb)
A3 Edge (NVIDIA H100)
(nvidia-h100-80gb)
A2 Ultra (NVIDIA A100 80 GB)
(nvidia-a100-80gb)
A2 Standard (NVIDIA A100)
(nvidia-a100-40gb)

G4 (NVIDIA RTX PRO 6000)
(nvidia-rtx-pro-6000)
(nvidia-rtx-pro-6000-vws)
G2 (NVIDIA L4)
(nvidia-l4)
(nvidia-l4-vws)

Los siguientes modelos de GPU se pueden adjuntar a los tipos de máquinas de uso general N1:

NVIDIA T4
(nvidia-tesla-t4)
(nvidia-tesla-t4-vws)
NVIDIA P4
(nvidia-tesla-p4)
(nvidia-tesla-p4-vws)
NVIDIA V100
(nvidia-tesla-v100)
NVIDIA P100
(nvidia-tesla-p100)
(nvidia-tesla-p100-vws)

También puedes usar algunos tipos de máquinas con GPU en AI Hypercomputer. AI Hypercomputer es un sistema de supercomputación optimizado para admitir tus cargas de trabajo de inteligencia artificial (IA) y aprendizaje automático (AA). Esta opción se recomienda para crear una infraestructura optimizada para el rendimiento y con una asignación densa que tenga integraciones para los programadores de Google Kubernetes Engine (GKE) y Slurm.

Serie de máquinas A4X

Los tipos de máquinas A4X optimizadas para aceleradores usan superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200) y son ideales para el entrenamiento y la entrega de modelos básicos.

A4X es una plataforma de exaescala basada en NVIDIA GB200 NVL72. Cada máquina tiene dos sockets con CPU NVIDIA Grace y núcleos Arm Neoverse V2. Estas CPUs están conectadas a cuatro GPUs NVIDIA B200 Blackwell con una rápida comunicación de chip a chip (NVLink-C2C).

						Superchips NVIDIA GB200 Grace Blackwell conectados
Tipo de máquina	Recuento de CPU virtuales¹	Memoria de la instancia (GB)	SSD local conectado (GiB)	Cantidad de NICs físicas	Ancho de banda de red máximo (Gbps)²	Recuento de GPU	Memoria de GPU³ (GB HBM3e)
`a4x-highgpu-4g`	140	884	12,000	6	2,000	4	720

¹ Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
²El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
³La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.

Serie de máquinas A4

Los tipos de máquinas A4 optimizados para aceleradores tienen GPUs NVIDIA B200 Blackwell (nvidia-b200) conectadas y son ideales para el entrenamiento y la entrega de modelos básicos.

						GPU NVIDIA B200 Blackwell conectadas
Tipo de máquina	Recuento de CPU virtuales¹	Memoria de la instancia (GB)	SSD local conectado (GiB)	Cantidad de NICs físicas	Ancho de banda de red máximo (Gbps)²	Recuento de GPU	Memoria de GPU³ (GB HBM3e)
`a4-highgpu-8g`	224	3,968	12,000	10	3,600	8	1,440

Serie de máquinas A3

Los tipos de máquinas A3 optimizadas para aceleradores tienen conectadas GPUs NVIDIA H100 SXM o NVIDIA H200 SXM.

Tipo de máquina A3 Ultra

Los tipos de máquinas A3 Ultra tienen GPUs NVIDIA H200 SXM (nvidia-h200-141gb) conectadas y proporcionan el mayor rendimiento de red de la serie A3. Los tipos de máquinas A3 Ultra son ideales para el entrenamiento y la entrega de modelos básicos.

						GPU NVIDIA H200 conectadas
Tipo de máquina	Recuento de CPU virtuales¹	Memoria de la instancia (GB)	SSD local conectado (GiB)	Cantidad de NICs físicas	Ancho de banda de red máximo (Gbps)²	Recuento de GPU	Memoria de GPU³ (GB HBM3e)
`a3-ultragpu-8g`	224	2,952	12,000	10	3,600	8	1128

Tipos de máquinas A3 Mega, High y Edge

Para usar las GPUs NVIDIA H100 SXM, tienes las siguientes opciones:

A3 Mega: Estos tipos de máquinas tienen GPUs H100 SXM (nvidia-h100-mega-80gb) y son ideales para cargas de trabajo de entrenamiento y procesamiento a gran escala.
A3 High: Estos tipos de máquinas tienen GPUs H100 SXM (nvidia-h100-80gb) y son adecuados para tareas de entrenamiento y de entrega.
A3 Edge: Estos tipos de máquinas tienen GPUs H100 SXM (nvidia-h100-80gb), están diseñados específicamente para la entrega y están disponibles en un conjunto limitado de regiones.

A3 Mega

Sugerencia: Cuando aprovisiones tipos de máquinas a3-megagpu-8g, te recomendamos que uses un clúster de estas instancias y que realices la implementación con un programador como Google Kubernetes Engine (GKE) o Slurm. Para obtener instrucciones detalladas sobre cualquiera de estas opciones, consulta lo siguiente:

Para crear un clúster de Google Kubernetes Engine, consulta Implementa un clúster A3 Mega con GKE.
Para crear un clúster de Slurm, consulta Implementa un clúster A3 Mega Slurm.

						GPU NVIDIA H100 conectadas
Tipo de máquina	Recuento de CPU virtuales¹	Memoria de la instancia (GB)	SSD local conectado (GiB)	Cantidad de NICs físicas	Ancho de banda de red máximo (Gbps)²	Recuento de GPU	Memoria de GPU³ (GB HBM3)
`a3-megagpu-8g`	208	1,872	6,000	9	1,800	8	640

A3 High

Nota: Cuando aprovisiones tipos de máquinas a3-highgpu-1g, a3-highgpu-2g o a3-highgpu-4g, debes crear instancias con VMs Spot o VMs de inicio flexible. Para obtener instrucciones detalladas sobre estas opciones, consulta lo siguiente:

Para crear VMs Spot, establece el modelo de aprovisionamiento en SPOT cuando crees una VM optimizada para aceleradores.
Para crear VMs de inicio flexible, puedes usar uno de los siguientes métodos:
- Crea una VM independiente y establece el modelo de aprovisionamiento en FLEX_START cuando crees una VM optimizada para aceleradores.
- Crea una solicitud de cambio de tamaño en un grupo de instancias administrado (MIG). Para obtener instrucciones, consulta Crea un MIG con VMs de GPU.

						GPU NVIDIA H100 conectadas
Tipo de máquina	Recuento de CPU virtuales¹	Memoria de la instancia (GB)	SSD local conectado (GiB)	Cantidad de NICs físicas	Ancho de banda de red máximo (Gbps)²	Recuento de GPU	Memoria de GPU³ (GB HBM3)
`a3-highgpu-1g`	26	234	750	1	25	1	80
`a3-highgpu-2g`	52	468	1,500	1	50	2	160
`a3-highgpu-4g`	104	936	3,000	1	100	4	320
`a3-highgpu-8g`	208	1,872	6,000	5	1,000	8	640

A3, Edge

						GPU NVIDIA H100 conectadas
Tipo de máquina	Recuento de CPU virtuales¹	Memoria de la instancia (GB)	SSD local conectado (GiB)	Cantidad de NICs físicas	Ancho de banda de red máximo (Gbps)²	Recuento de GPU	Memoria de GPU³ (GB HBM3)
`a3-edgegpu-8g`	208	1,872	6,000	5	800: para asia-south1 y northamerica-northeast2 400: para todas las demás regiones de A3 Edge	8	640

Serie de máquinas A2

Los tipos de máquinas optimizadas para aceleradores A2 tienen GPU NVIDIA A100 conectadas y son ideales para el ajuste de modelos, la inferencia de modelos grandes y la inferencia optimizada en cuanto a costos.

Las series de máquinas A2 están disponibles en dos tipos:

A2 Ultra: Estos tipos de máquinas tienen GPUs A100 de 80 GB (nvidia-a100-80gb) y discos SSD locales conectados.
A2 estándar: Estos tipos de máquinas tienen GPUs A100 de 40 GB (nvidia-tesla-a100) conectadas. También puedes agregar discos SSD locales cuando creas una instancia A2 estándar. Para conocer la cantidad de discos que puedes conectar, consulta Tipos de máquinas que requieren que elijas una cantidad de discos SSD locales.

A2 ultra

					GPU NVIDIA A100 de 80 GB conectadas
Tipo de máquina	Recuento de CPU virtuales¹	Memoria de la instancia (GB)	SSD local conectado (GiB)	Ancho de banda de red máximo (Gbps)²	Recuento de GPU	Memoria de GPU³ (GB HBM2e)
`a2-ultragpu-1g`	12	170	375	24	1	80
`a2-ultragpu-2g`	24	340	750	32	2	160
`a2-ultragpu-4g`	48	680	1,500	50	4	320
`a2-ultragpu-8g`	96	1,360	3,000	100	8	640

A2 Estándar

					GPUs NVIDIA A100 de 40 GB conectadas
Tipo de máquina	Recuento de CPU virtuales¹	Memoria de la instancia (GB)	Compatible con SSD local	Ancho de banda de red máximo (Gbps)²	Recuento de GPU	Memoria de GPU³ (GB HBM2)
`a2-highgpu-1g`	12	85	Sí	24	1	40
`a2-highgpu-2g`	24	170	Sí	32	2	80
`a2-highgpu-4g`	48	340	Sí	50	4	160
`a2-highgpu-8g`	96	680	Sí	100	8	320
`a2-megagpu-16g`	96	1,360	Sí	100	16	640

Serie de máquinas G4

Los tipos de máquinas optimizados para aceleradores G4 utilizan GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000) y son adecuados para cargas de trabajo de simulación de NVIDIA Omniverse, aplicaciones con uso intensivo de gráficos, transcodificación de video y escritorios virtuales. Los tipos de máquinas G4 también proporcionan una solución de bajo costo para realizar la inferencia de un solo host y el ajuste del modelo en comparación con los tipos de máquinas de la serie A.

Una característica clave de la serie G4 es la compatibilidad con la comunicación directa de GPU punto a punto (P2P) en tipos de máquinas con varias GPUs (g4-standard-96, g4-standard-192, g4-standard-384). Esto permite que las GPUs dentro de la misma instancia intercambien datos directamente a través del bus PCIe, sin involucrar a la CPU host. Para obtener más información sobre la comunicación de GPU de G4 punto a punto, consulta Comunicación de GPU de G4 punto a punto.

						GPUs NVIDIA RTX PRO 6000 conectadas
Tipo de máquina	Recuento de CPU virtuales¹	Memoria de la instancia (GB)	Máximo de SSD de Titanium admitido (GiB)²	Cantidad de NICs físicas	Ancho de banda de red máximo (Gbps)³	Recuento de GPU	Memoria de GPU⁴ (GB GDDR7)
`g4-standard-48`	48	180	1,500	1	50	1	96
`g4-standard-96`	96	360	3,000	1	100	2	192
`g4-standard-192`	192	720	6,000	1	200	4	384
`g4-standard-384`	384	1,440	12,000	2	400	8	768

¹ Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
²Puedes agregar discos SSD de Titanium cuando creas una instancia G4. Para conocer la cantidad de discos que puedes conectar, consulta Tipos de máquinas que requieren que elijas una cantidad de discos SSD locales.
³El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Consulta Ancho de banda de red.
⁴La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.

Serie de máquinas G2

Los tipos de máquinas optimizados para aceleradores G2 tienen GPU NVIDIA L4 conectadas y son ideales para la inferencia optimizada en cuanto a costos, las cargas de trabajo de computación de alto rendimiento y con uso intensivo de gráficos.

Cada tipo de máquina G2 también tiene una memoria predeterminada y un rango de memoria personalizado. El rango de memoria personalizado define la cantidad de memoria que puedes asignar a tu instancia para cada tipo de máquina. También puedes agregar discos SSD locales cuando creas una instancia G2. Para conocer la cantidad de discos que puedes conectar, consulta Tipos de máquinas que requieren que elijas una cantidad de discos SSD locales.

						GPU NVIDIA L4 conectadas
Tipo de máquina	Recuento de CPU virtuales¹	Memoria de instancia predeterminada (GB)	Rango de memoria de instancia personalizado (GB)	Máximo de SSD local admitido (GiB)	Ancho de banda de red máximo (Gbps)²	Recuento de GPU	Memoria de GPU³ (GB GDDR6)
`g2-standard-4`	4	16	De 16 a 32	375	10	1	24
`g2-standard-8`	8	32	De 32 a 54	375	16	1	24
`g2-standard-12`	12	48	De 48 a 54	375	16	1	24
`g2-standard-16`	16	64	De 54 a 64	375	32	1	24
`g2-standard-24`	24	96	De 96 a 108	750	32	2	48
`g2-standard-32`	32	128	De 96 a 128	375	32	1	24
`g2-standard-48`	48	192	De 192 a 216	1,500	50	4	96
`g2-standard-96`	96	384	De 384 a 432	3,000	100	8	192

Serie de máquinas N1

Puedes adjuntar los siguientes modelos de GPU a un tipo de máquina N1 con la excepción de los tipos de máquinas de núcleo compartido N1.

A diferencia de los tipos de máquinas de la serie de máquinas optimizadas para aceleradores, los tipos de máquinas N1 no incluyen una cantidad establecida de GPUs conectadas. En cambio, debes especificar la cantidad de GPUs que se adjuntarán cuando crees la instancia.

Las instancias N1 con menos GPUs limitan la cantidad máxima de CPU virtuales. En general, una cantidad mayor de GPU te permite crear instancias con mayores cantidades de CPU virtuales y de memoria.

GPU de N1 + T4

Puedes conectar las GPU NVIDIA T4 a las instancias N1 de uso general con los siguientes parámetros de configuración de instancias.

Tipo de acelerador	Recuento de GPU	Memoria de GPU¹ (GB GDDR6)	Recuento de CPU virtuales	Memoria de la instancia (GB)	Compatible con SSD local
`nvidia-tesla-t4` o `nvidia-tesla-t4-vws`	1	16	De 1 a 48	De 1 a 312	Sí
	2	32	De 1 a 48	De 1 a 312	Sí
	4	64	De 1 a 96	De 1 a 624	Sí

GPU de N1 + P4

Puedes conectar las GPU NVIDIA P4 a las instancias N1 de uso general con los siguientes parámetros de configuración de instancias.

Tipo de acelerador	Recuento de GPU	Memoria de GPU¹ (GB GDDR5)	Recuento de CPU virtuales	Memoria de la instancia (GB)	Compatible con SSD local²
`nvidia-tesla-p4` o `nvidia-tesla-p4-vws`	1	8	De 1 a 24	De 1 a 156	Sí
	2	16	De 1 a 48	De 1 a 312	Sí
	4	32	De 1 a 96	De 1 a 624	Sí

¹La memoria de GPU es la memoria disponible en un dispositivo GPU que puedes usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
²Para las instancias con GPU NVIDIA P4 conectadas, los discos SSD locales solo son compatibles en las zonas us-central1-c y northamerica-northeast1-b.

GPU de N1 + V100

Puedes conectar las GPU NVIDIA V100 a las instancias N1 de uso general con los siguientes parámetros de configuración de instancias.

Tipo de acelerador	Recuento de GPU	Memoria de GPU¹ (GB HBM2)	Recuento de CPU virtuales	Memoria de la instancia (GB)	Compatible con SSD local²
`nvidia-tesla-v100`	1	16	De 1 a 12	De 1 a 78	Sí
	2	32	De 1 a 24	De 1 a 156	Sí
	4	64	De 1 a 48	De 1 a 312	Sí
	8	128	De 1 a 96	De 1 a 624	Sí

¹La memoria de GPU es la memoria disponible en un dispositivo GPU que puedes usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
²Para las instancias con GPU NVIDIA V100 conectadas, los discos SSD locales no son compatibles con us-east1-c.

GPU de N1 + P100

Puedes conectar las GPU NVIDIA P100 a las instancias N1 de uso general con los siguientes parámetros de configuración de instancias.

En algunas GPU NVIDIA P100, la CPU y la memoria máximas disponibles para algunas configuraciones dependen de la zona en la que se ejecuta el recurso de GPU.

Tipo de acelerador	Recuento de GPU	Memoria de GPU¹ (GB HBM2)	Zona	Recuento de CPU virtuales	Memoria de la instancia (GB)	Compatible con SSD local
`nvidia-tesla-p100` o `nvidia-tesla-p100-vws`	1	16	Todas las zonas P100	De 1 a 16	De 1 a 104	Sí
	2	32	Todas las zonas P100	De 1 a 32	De 1 a 208	Sí
	4	64	`us-east1-c`, `europe-west1-d`, `europe-west1-b`	De 1 a 64	De 1 a 208	Sí
	4	64	Todas las demás zonas de P100	De 1 a 96	De 1 a 624	Sí

Gráfico de comparación general

En la siguiente tabla, se describe el tamaño de la memoria de GPU, la disponibilidad de las funciones y los tipos de carga de trabajo ideales de diferentes modelos de GPU que están disponibles en Compute Engine.

Modelo de GPU	Memoria de GPU	Interconexión	Mejor uso para
GB200	HBM3e de 180 GB a 8 TBps	Malla completa de NVLink a 1,800 GBps	Entrenamiento e inferencia distribuidos a gran escala de LLM, sistemas de recomendación y HPC
B200	HBM3e de 180 GB a 8 TBps	Malla completa de NVLink a 1,800 GBps	Entrenamiento e inferencia distribuidos a gran escala de LLM, sistemas de recomendación y HPC
H200	HBM3e de 141 GB a 4.8 TBps	Malla completa de NVLink a 900 GBps	Modelos grandes con tablas de datos enormes para el entrenamiento de AA, la inferencia, la HPC, BERT y DLRM
H100	HBM3 de 80 GB a 3.35 TBps	Malla completa de NVLink a 900 GBps	Modelos grandes con tablas de datos enormes para el entrenamiento de AA, la inferencia, la HPC, BERT y DLRM
A100 80 GB	HBM2e de 80 GB a 1.9 TBps	Malla completa de NVLink a 600 GBps	Modelos grandes con tablas de datos enormes para el entrenamiento de AA, la inferencia, la HPC, BERT y DLRM
A100 40 GB	HBM2 de 40 GB a 1.6 TBps	Malla completa de NVLink a 600 GBps	AA, entrenamiento, inferencia, HPC
RTX PRO 6000	GDDR7 de 96 GB con ECC a 1597 GB/s	N/A	Inferencia de ML, entrenamiento, estaciones de trabajo de visualización remota, transcodificación de video, HPC
L4	GDDR6 de 24 GB a 300 GBps	N/A	Inferencia de ML, entrenamiento, estaciones de trabajo de visualización remota, transcodificación de video, HPC
T4	GDDR6 de 16 GB a 320 GBps	N/A	Inferencia de ML, entrenamiento, estaciones de trabajo de visualización remota, transcodificación de video
V100	HBM2 de 16 GB a 900 GBps	NVLink Ring a 300 GBps	AA, entrenamiento, inferencia, HPC
P4	GDDR5 de 8 GB a 192 GBps	N/A	Estaciones de trabajo de visualización remota, inferencia ML y transcodificación de video
P100	HBM2 de 16 GB a 732 GBps	N/A	AA, entrenamiento, inferencia, HPC, estaciones de trabajo de visualización remota

Si deseas comparar los precios de GPU para los diferentes modelos y regiones de GPU disponibles en Compute Engine, consulta los precios de GPU.

Gráfico de comparación de rendimiento

En la siguiente tabla, se describen las especificaciones de rendimiento de diferentes modelos de GPU que están disponibles en Compute Engine.

Rendimiento de procesamiento

Modelo de GPU	FP64	FP32	FP16	INT8
GB200	90 TFLOPS	180 TFLOPS
B200	40 TFLOPS	80 TFLOPS
H200	34 TFLOPS*	67 TFLOPS*
H100	34 TFLOPS*	67 TFLOPS*
A100 80 GB	9.7 TFLOPS	19.5 TFLOPS
A100 40 GB	9.7 TFLOPS	19.5 TFLOPS
L4	0.5 TFLOPS¹	30.3 TFLOPS
T4	0.25 TFLOPS¹	8.1 TFLOPS
V100	7.8 TFLOPS	15.7 TFLOPS
P4	0.2 TFLOPS ¹	5.5 TFLOPS		22 TOPS²
P100	4.7 TFLOPS	9.3 TFLOPS	18.7 TFLOPS

¹Para permitir que el código FP64 funcione correctamente, la arquitectura de GPU T4, L4 y P4 incluye una pequeña cantidad de unidades de hardware FP64.
²Teraoperaciones por segundo.

Rendimiento del núcleo de tensor

Modelo de GPU	FP64	TF32	FP16/FP32 de precisión mixta	INT8	INT4	FP8
GB200	90 TFLOPS	2,500 TFLOPS²	5,000 TFLOPS^{1, 2}	10,000 TFLOPS²	20,000 TFLOPS²	10,000 TFLOPS²
B200	40 TFLOPS	1,100 TFLOPS²	4,500 TFLOPS^{1, 2}	9,000 TFLOPS²		9,000 TFLOPS²
H200	67 TFLOPS*	989 TFLOPS²	1,979 TFLOPS^{1, 2}	3,958 TOPS²		3,958 TFLOPS²
H100	67 TFLOPS*	989 TFLOPS²	1,979 TFLOPS^{1, 2}	3,958 TOPS²		3,958 TFLOPS²
A100 80 GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS¹	624 TOPS	1248 TOPS
A100 40 GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS¹	624 TOPS	1248 TOPS
L4		120 TFLOPS²	242 TFLOPS^{1, 2}	485 TOPS²		485 TFLOPS²
T4			65 TFLOPS	130 TOPS	260 TOPS
V100			125 TFLOPS
P4
P100

¹Para el entrenamiento de precisión mixta, las GPU NVIDIA GB200, B200, H200, H100, A100 y L4 también admiten el tipo de datos bfloat16.
²Las GPUs NVIDIA GB200, B200, H200, H100 y L4 admiten la escasez estructural. Puedes usar la dispersión estructural para duplicar el rendimiento de tus modelos. Los valores que se documentan se aplican cuando se usa la escasez estructurada. Si no usas la escasez estructurada, los valores se reducen a la mitad.

Próximos pasos

Obtén más información sobre las GPUs de Compute Engine.
Verifica la disponibilidad de las regiones y zonas de GPU.
Revisa Ancho de banda de la red y GPU.
Consulta los detalles de los precios de las GPU.