En este documento se describen los modelos de GPU de NVIDIA disponibles en Compute Engine, que puedes usar para acelerar las cargas de trabajo de aprendizaje automático, procesamiento de datos y gráficos en tus instancias de máquina virtual. En este documento también se detalla qué GPUs vienen preconfiguradas en las series de máquinas optimizadas para aceleradores, como A4X, A4, A3, A2 y G2, y qué GPUs puedes asociar a instancias de uso general N1.
Usa este documento para comparar el rendimiento, la memoria y las funciones de diferentes modelos de GPU. Para obtener una descripción más detallada de la familia de máquinas optimizadas para aceleradores, incluida información sobre las plataformas de CPU, las opciones de almacenamiento y las funciones de redes, así como para encontrar el tipo de máquina específico que se adapte a tu carga de trabajo, consulta la página Familia de máquinas optimizadas para aceleradores.
Para obtener más información sobre las GPUs en Compute Engine, consulta el artículo Acerca de las GPUs.
Para ver las regiones y zonas disponibles para las GPUs en Compute Engine, consulta el artículo Disponibilidad de regiones y zonas de GPUs.
Modelos de GPU disponibles
Los siguientes modelos de GPU están disponibles con el tipo de máquina especificado para admitir tus cargas de trabajo de IA, aprendizaje automático y HPC. Si tienes cargas de trabajo que utilizan un gran número de gráficos, como la visualización en 3D, también puedes crear estaciones de trabajo virtuales que usen estaciones de trabajo virtuales (vWS) NVIDIA RTX. La estación de trabajo virtual NVIDIA RTX está disponible para algunos modelos de GPU. Cuando creas una instancia que usa la estación de trabajo virtual NVIDIA RTX, Compute Engine añade automáticamente una licencia de vWS. Para obtener información sobre los precios de las estaciones de trabajo virtuales, consulta la página de precios de las GPUs.
En el caso de los tipos de máquinas optimizadas para aceleradores de las series A y G, el modelo de GPU especificado se conecta automáticamente a la instancia. En los tipos de máquinas de uso general N1, puedes conectar los modelos de GPU especificados.
Tipo de máquina | Modelo de GPU | Modelo de estación de trabajo virtual (vWS) NVIDIA RTX |
---|---|---|
A4X | Superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200 ).
Cada Superchip contiene cuatro GPUs NVIDIA B200 Blackwell. |
|
A4 | GPUs NVIDIA B200 Blackwell (nvidia-b200 ) |
|
A3 Ultra | GPUs NVIDIA H200 SXM (nvidia-h200-141gb ) |
|
A3 Mega |
GPUs NVIDIA H100 SXM (nvidia-h100-mega-80gb ) |
|
A3 High y A3 Edge |
GPUs NVIDIA H100 SXM (nvidia-h100-80gb ) |
|
A2 Ultra | GPUs NVIDIA A100 de 80 GB (nvidia-a100-80gb ) |
|
A2 Standard | GPUs NVIDIA A100 de 40 GB (nvidia-a100-40gb ) |
|
G4 (Vista previa) | NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000 ) |
|
G2 | NVIDIA L4 (nvidia-l4 ) |
Estaciones de trabajo virtuales (vWS) NVIDIA L4 (nvidia-l4-vws ) |
N1 | GPUs NVIDIA T4 (nvidia-tesla-t4 ) |
Estaciones de trabajo virtuales (vWS) NVIDIA T4 (nvidia-tesla-t4-vws ) |
GPUs NVIDIA P4 (nvidia-tesla-p4 ) |
Estaciones de trabajo virtuales (vWS) NVIDIA P4 (nvidia-tesla-p4-vws ) |
|
GPUs NVIDIA V100 (nvidia-tesla-v100 ) |
||
GPUs NVIDIA P100 (nvidia-tesla-p100 ) |
Estaciones de trabajo virtuales (vWS) NVIDIA P100 (nvidia-tesla-p100-vws ) |
También puedes usar algunos tipos de máquinas con GPU en AI Hypercomputer. AI Hypercomputer es un sistema de supercomputación optimizado para admitir tus cargas de trabajo de inteligencia artificial (IA) y aprendizaje automático (ML). Esta opción se recomienda para crear una infraestructura densamente asignada y optimizada para el rendimiento que tenga integraciones para Google Kubernetes Engine (GKE) y los programadores de Slurm.
Serie de máquinas A4X
Los tipos de máquinas A4X optimizadas para aceleradores
usan superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200
) y
son ideales para entrenar y servir modelos fundacionales.
A4X es una plataforma exaescalar basada en NVIDIA GB200 NVL72. Cada máquina tiene dos sockets con CPUs NVIDIA Grace con núcleos Arm Neoverse V2. Estas CPUs están conectadas a cuatro GPUs NVIDIA B200 Blackwell con una comunicación rápida entre chips (NVLink-C2C).
Superchips NVIDIA GB200 Grace Blackwell conectados | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memoria de la instancia (GB) | SSD local conectada (GiB) | Número de NICs físicas | Ancho de banda de red máximo (Gbps)2 | Número de GPUs | Memoria de la GPU3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12.000 | 6 | 2000 | 4 | 720 |
1 Una vCPU se implementa como un único hiperhilo de hardware en una de las plataformas de CPU disponibles.
2El ancho de banda de salida máximo no puede superar el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores.
Para obtener más información sobre el ancho de banda de red, consulta la sección Ancho de banda de red.
3La memoria de la GPU es la memoria de un dispositivo de GPU que se puede usar para
almacenar datos temporalmente. Es independiente de la memoria de la instancia y se ha diseñado específicamente para gestionar las mayores demandas de ancho de banda de tus cargas de trabajo con un uso intensivo de gráficos.
Serie de máquinas A4
Los tipos de máquinas A4 optimizadas para aceleradores
tienen GPUs NVIDIA B200 Blackwell
(nvidia-b200
) conectadas y son ideales para entrenar y servir modelos fundacionales.
GPUs NVIDIA B200 Blackwell conectadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memoria de la instancia (GB) | SSD local conectada (GiB) | Número de NICs físicas | Ancho de banda de red máximo (Gbps)2 | Número de GPUs | Memoria de la GPU3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3968 | 12.000 | 10 | 3600 | 8 | 1440 |
1 Una vCPU se implementa como un único hiperhilo de hardware en una de las plataformas de CPU disponibles.
2El ancho de banda de salida máximo no puede superar el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores.
Para obtener más información sobre el ancho de banda de red, consulta la sección Ancho de banda de red.
3La memoria de la GPU es la memoria de un dispositivo de GPU que se puede usar para
almacenar datos temporalmente. Es independiente de la memoria de la instancia y se ha diseñado específicamente para gestionar las mayores demandas de ancho de banda de tus cargas de trabajo con un uso intensivo de gráficos.
Serie de máquinas A3
Los tipos de máquinas A3 optimizadas para aceleradores tienen GPUs NVIDIA H100 SXM o NVIDIA H200 SXM conectadas.
Tipo de máquina A3 Ultra
Los tipos de máquinas A3 Ultra tienen GPUs NVIDIA H200 SXM
(nvidia-h200-141gb
) conectadas y ofrecen el mayor rendimiento de red de la serie A3. Los tipos de máquinas A3 Ultra son ideales para entrenar y servir modelos fundacionales.
GPUs NVIDIA H200 conectadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memoria de la instancia (GB) | SSD local conectada (GiB) | Número de NICs físicas | Ancho de banda de red máximo (Gbps)2 | Número de GPUs | Memoria de la GPU3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2952 | 12.000 | 10 | 3600 | 8 | 1128 |
1 Una vCPU se implementa como un único hiperhilo de hardware en una de las plataformas de CPU disponibles.
2El ancho de banda de salida máximo no puede superar el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores.
Para obtener más información sobre el ancho de banda de red, consulta la sección Ancho de banda de red.
3La memoria de la GPU es la memoria de un dispositivo de GPU que se puede usar para
almacenar datos temporalmente. Es independiente de la memoria de la instancia y se ha diseñado específicamente para gestionar las mayores demandas de ancho de banda de tus cargas de trabajo con un uso intensivo de gráficos.
Tipos de máquinas A3 Mega, High y Edge
Para usar GPUs NVIDIA H100 SXM, tienes las siguientes opciones:
- A3 Mega: estos tipos de máquinas tienen GPUs H100 SXM (
nvidia-h100-mega-80gb
) y son ideales para cargas de trabajo de entrenamiento y servicio a gran escala. - A3 High: estos tipos de máquinas tienen GPUs H100 SXM (
nvidia-h100-80gb
) y son adecuados tanto para tareas de entrenamiento como de servicio. - A3 Edge: estos tipos de máquinas tienen GPUs H100 SXM (
nvidia-h100-80gb
), se han diseñado específicamente para el servicio y están disponibles en un conjunto limitado de regiones.
A3 Mega
GPUs NVIDIA H100 conectadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memoria de la instancia (GB) | SSD local conectada (GiB) | Número de NICs físicas | Ancho de banda de red máximo (Gbps)2 | Número de GPUs | Memoria de la GPU3 (GB HBM3) |
a3-megagpu-8g |
208 | 1872 | 6000 | 9 | 1800 | 8 | 640 |
A3 High
GPUs NVIDIA H100 conectadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memoria de la instancia (GB) | SSD local conectada (GiB) | Número de NICs físicas | Ancho de banda de red máximo (Gbps)2 | Número de GPUs | Memoria de la GPU3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1872 | 6000 | 5 | 1000 | 8 | 640 |
A3 Edge
GPUs NVIDIA H100 conectadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memoria de la instancia (GB) | SSD local conectada (GiB) | Número de NICs físicas | Ancho de banda de red máximo (Gbps)2 | Número de GPUs | Memoria de la GPU3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1872 | 6000 | 5 |
|
8 | 640 |
1 Una vCPU se implementa como un único hiperhilo de hardware en una de las plataformas de CPU disponibles.
2El ancho de banda de salida máximo no puede superar el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores.
Para obtener más información sobre el ancho de banda de red, consulta la sección Ancho de banda de red.
3La memoria de la GPU es la memoria de un dispositivo de GPU que se puede usar para
almacenar datos temporalmente. Es independiente de la memoria de la instancia y se ha diseñado específicamente para gestionar las mayores demandas de ancho de banda de tus cargas de trabajo con un uso intensivo de gráficos.
Serie de máquinas A2
Los tipos de máquinas A2 optimizadas para aceleradores tienen GPUs NVIDIA A100 conectadas y son ideales para ajustar modelos, así como para inferencias de modelos grandes y optimizadas en cuanto a costes.
La serie de máquinas A2 está disponible en dos tipos:
- A2 Ultra: estos tipos de máquinas tienen GPUs A100 de 80 GB
(
nvidia-a100-80gb
) y discos SSD local conectados. - A2 estándar: estos tipos de máquinas tienen GPUs A100 de 40 GB (
nvidia-tesla-a100
) conectadas. También puedes añadir discos SSD locales al crear una instancia A2 Standard. Para saber el número de discos que puedes conectar, consulta Tipos de máquinas que requieren que elijas un número de discos SSD locales.
A2 Ultra
GPUs NVIDIA A100 de 80 GB conectadas | ||||||
---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memoria de la instancia (GB) | SSD local conectada (GiB) | Ancho de banda de red máximo (Gbps)2 | Número de GPUs | Memoria de la GPU3 (GB HBM2e) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1360 | 3000 | 100 | 8 | 640 |
A2 Standard
GPUs NVIDIA A100 de 40 GB conectadas | ||||||
---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memoria de la instancia (GB) | SSD local compatible | Ancho de banda de red máximo (Gbps)2 | Número de GPUs | Memoria de la GPU3 (GB HBM2) |
a2-highgpu-1g |
12 | 85 | Sí | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | Sí | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | Sí | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | Sí | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1360 | Sí | 100 | 16 | 640 |
1 Una vCPU se implementa como un único hiperhilo de hardware en una de las plataformas de CPU disponibles.
2El ancho de banda de salida máximo no puede superar el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores.
Para obtener más información sobre el ancho de banda de red, consulta la sección Ancho de banda de red.
3La memoria de la GPU es la memoria de un dispositivo de GPU que se puede usar para
almacenar datos temporalmente. Es independiente de la memoria de la instancia y se ha diseñado específicamente para gestionar las mayores demandas de ancho de banda de tus cargas de trabajo con un uso intensivo de gráficos.
Serie de máquinas G4
Los tipos de máquinas G4 optimizadas para aceleradores
usan
GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000
)
y son
adecuados para cargas de trabajo de simulación de NVIDIA Omniverse, aplicaciones con un uso intensivo de gráficos, transcodificación de vídeo y escritorios virtuales. Los tipos de máquinas G4 también ofrecen una solución de bajo coste para realizar inferencias de un solo host y ajustes de modelos en comparación con los tipos de máquinas de la serie A.
Una de las características principales de la serie G4 es la compatibilidad con la comunicación directa entre GPUs (P2P) en tipos de máquinas con varias GPUs (g4-standard-96
, g4-standard-192
y g4-standard-384
). Esto permite que las GPUs de la misma instancia intercambien datos directamente a través del bus PCIe, sin necesidad de involucrar al host de la CPU. Para obtener más información sobre la comunicación peer-to-peer de la GPU G4, consulta Comunicación peer-to-peer de la GPU G4.
GPUs NVIDIA RTX PRO 6000 conectadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memoria de la instancia (GB) | Máximo de SSD Titanium admitido (GiB)2 | Número de NICs físicas | Ancho de banda de red máximo (Gbps)3 | Número de GPUs | Memoria de la GPU4 (GB GDDR7) |
g4-standard-48 |
48 | 180 | 1500 | 1 | 50 | 1 | 96 |
g4-standard-96 |
96 | 360 | 3000 | 1 | 100 | 2 | 192 |
g4-standard-192 |
192 | 720 | 6000 | 1 | 200 | 4 | 384 |
g4-standard-384 |
384 | 1440 | 12.000 | 2 | 400 | 8 | 17. |
1 Una vCPU se implementa como un único hiperhilo de hardware en una de las plataformas de CPU disponibles.
2Puedes añadir discos SSD de Titanium al crear una instancia G4. Para saber el número de discos que puedes conectar, consulta Tipos de máquinas que requieren que elijas un número de discos SSD locales.
3El ancho de banda de salida máximo no puede superar el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores.
Consulta Ancho de banda de la red.
La memoria de la GPU es la memoria de un dispositivo de GPU que se puede usar para
almacenar datos temporalmente. Es independiente de la memoria de la instancia y se ha diseñado específicamente para gestionar las mayores demandas de ancho de banda de tus cargas de trabajo con un uso intensivo de gráficos.
Serie de máquinas G2
Los tipos de máquinas G2 optimizadas para aceleradores tienen GPUs NVIDIA L4 conectadas y son ideales para cargas de trabajo de inferencia optimizadas para costes, con un uso intensivo de gráficos y de computación de alto rendimiento.
Cada tipo de máquina G2 también tiene una memoria predeterminada y un intervalo de memoria personalizado. El intervalo de memoria personalizado define la cantidad de memoria que puedes asignar a tu instancia para cada tipo de máquina. También puedes añadir discos SSD locales al crear una instancia G2. Para saber el número de discos que puedes conectar, consulta Tipos de máquinas que requieren que elijas un número de discos SSD locales.
GPUs NVIDIA L4 conectadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memoria de instancia predeterminada (GB) | Intervalo de memoria de instancia personalizada (GB) | SSD local máxima admitida (GiB) | Ancho de banda de red máximo (Gbps)2 | Número de GPUs | Memoria de la GPU3 (GB GDDR6) |
g2-standard-4 |
4 | 16 | De 16 a 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | De 32 a 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48-54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | De 54 a 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | De 96 a 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | De 96 a 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | De 192 a 216 | 1500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | De 384 a 432 | 3000 | 100 | 8 | 192 |
1 Una vCPU se implementa como un único hiperhilo de hardware en una de las plataformas de CPU disponibles.
2El ancho de banda de salida máximo no puede superar el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores.
Para obtener más información sobre el ancho de banda de red, consulta la sección Ancho de banda de red.
3La memoria de la GPU es la memoria de un dispositivo de GPU que se puede usar para
almacenar datos temporalmente. Es independiente de la memoria de la instancia y se ha diseñado específicamente para gestionar las mayores demandas de ancho de banda de tus cargas de trabajo con un uso intensivo de gráficos.
Serie de máquinas N1
Puedes asociar los siguientes modelos de GPU a un tipo de máquina N1, excepto a los tipos de máquinas de núcleo compartido N1.
A diferencia de los tipos de máquinas de la serie de máquinas optimizadas para aceleradores, los tipos de máquinas N1 no incluyen un número determinado de GPUs conectadas. En su lugar, especifica el número de GPUs que quieres adjuntar al crear la instancia.
Las instancias N1 con menos GPUs limitan el número máximo de vCPUs. Por lo general, cuanto mayor sea el número de GPUs, más vCPUs y memoria podrás asignar a las instancias.
GPUs N1+T4
Puedes asociar GPUs NVIDIA T4 a instancias de uso general N1 con las siguientes configuraciones de instancia.
Tipo de acelerador | Número de GPUs | Memoria de la GPU1 (GB GDDR6) | Número de vCPUs | Memoria de la instancia (GB) | SSD local compatible |
---|---|---|---|---|---|
nvidia-tesla-t4 o nvidia-tesla-t4-vws
|
1 | 16 | De 1 a 48 | De 1 a 312 | Sí |
2 | 32 | De 1 a 48 | De 1 a 312 | Sí | |
4 | 64 | De 1 a 96 | De 1 a 624 | Sí |
La memoria de la GPU es la memoria disponible en un dispositivo de GPU que puedes usar para almacenar datos temporales. Es independiente de la memoria de la instancia y se ha diseñado específicamente para gestionar las mayores demandas de ancho de banda de tus cargas de trabajo con un uso intensivo de gráficos.
GPUs N1+P4
Puedes asociar GPUs NVIDIA P4 a instancias de uso general N1 con las siguientes configuraciones de instancia.
Tipo de acelerador | Número de GPUs | Memoria de la GPU1 (GB GDDR5) | Número de vCPUs | Memoria de la instancia (GB) | SSD local compatible2 |
---|---|---|---|---|---|
nvidia-tesla-p4 o nvidia-tesla-p4-vws
|
1 | 8 | De 1 a 24 | De 1 a 156 | Sí |
2 | 16 | De 1 a 48 | De 1 a 312 | Sí | |
4 | 32 | De 1 a 96 | De 1 a 624 | Sí |
La memoria de la GPU es la memoria disponible en un dispositivo de GPU que puedes usar para almacenar datos temporales. Es independiente de la memoria de la instancia y se ha diseñado específicamente para gestionar las mayores demandas de ancho de banda de tus cargas de trabajo con un uso intensivo de gráficos.
2En las instancias con GPUs NVIDIA P4 conectadas, los discos SSD locales solo se admiten en las zonas us-central1-c
y northamerica-northeast1-b
.
GPUs N1+V100
Puedes asociar GPUs NVIDIA V100 a instancias de uso general N1 con las siguientes configuraciones de instancia.
Tipo de acelerador | Número de GPUs | Memoria de la GPU1 (GB HBM2) | Número de vCPUs | Memoria de la instancia (GB) | SSD local compatible2 |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | De 1 a 12 | De 1 a 78 | Sí |
2 | 32 | De 1 a 24 | De 1 a 156 | Sí | |
4 | 64 | De 1 a 48 | De 1 a 312 | Sí | |
8 | 128 | De 1 a 96 | De 1 a 624 | Sí |
La memoria de la GPU es la memoria disponible en un dispositivo de GPU que puedes usar para almacenar datos temporales. Es independiente de la memoria de la instancia y se ha diseñado específicamente para gestionar las mayores demandas de ancho de banda de tus cargas de trabajo con un uso intensivo de gráficos.
2En las instancias con GPUs NVIDIA V100 conectadas, los discos SSD locales no se admiten en us-east1-c
.
GPUs N1+P100
Puedes conectar GPUs NVIDIA P100 a instancias de uso general N1 con las siguientes configuraciones de instancia.
En algunas GPU NVIDIA P100, la CPU y la memoria máximas disponibles para algunas configuraciones dependen de la zona en la que se ejecute el recurso de GPU.
Tipo de acelerador | Número de GPUs | Memoria de la GPU1 (GB HBM2) | Zona | Número de vCPUs | Memoria de la instancia (GB) | SSD local compatible |
---|---|---|---|---|---|---|
nvidia-tesla-p100 o nvidia-tesla-p100-vws
|
1 | 16 | Todas las zonas P100 | De 1 a 16 | De 1 a 104 | Sí |
2 | 32 | Todas las zonas P100 | De 1 a 32 | De 1 a 208 | Sí | |
4 | 64 | us-east1-c , europe-west1-d , europe-west1-b |
De 1 a 64 | De 1 a 208 | Sí | |
Todas las demás zonas de P100 | De 1 a 96 | De 1 a 624 | Sí |
La memoria de la GPU es la memoria disponible en un dispositivo de GPU que puedes usar para almacenar datos temporales. Es independiente de la memoria de la instancia y se ha diseñado específicamente para gestionar las mayores demandas de ancho de banda de tus cargas de trabajo con un uso intensivo de gráficos.
Tabla comparativa general
En la siguiente tabla se describe el tamaño de la memoria de la GPU, la disponibilidad de las funciones y los tipos de cargas de trabajo ideales de los distintos modelos de GPU disponibles en Compute Engine.
Modelo de GPU | Memoria de la GPU | Interconexión | Compatibilidad con estaciones de trabajo virtuales (vWS) NVIDIA RTX | Usos recomendados |
---|---|---|---|---|
GB200 | 180 GB de HBM3e a 8 TB/s | NVLink Full Mesh a 1800 GB/s | Entrenamiento e inferencia distribuidos a gran escala de LLMs, sistemas de recomendación y HPC | |
B200 | 180 GB de HBM3e a 8 TB/s | NVLink Full Mesh a 1800 GB/s | Entrenamiento e inferencia distribuidos a gran escala de LLMs, sistemas de recomendación y HPC | |
H200 | 141 GB de HBM3e a 4,8 TB/s | NVLink Full Mesh a 900 GB/s | Modelos grandes con tablas de datos masivas para entrenamiento de aprendizaje automático, inferencia, HPC, BERT y DLRM | |
H100 | 80 GB de HBM3 a 3,35 TB/s | NVLink Full Mesh a 900 GB/s | Modelos grandes con tablas de datos masivas para entrenamiento de aprendizaje automático, inferencia, HPC, BERT y DLRM | |
A100 80 GB | HBM2e de 80 GB a 1,9 TB/s | NVLink Full Mesh a 600 GB/s | Modelos grandes con tablas de datos masivas para entrenamiento de aprendizaje automático, inferencia, HPC, BERT y DLRM | |
A100 40 GB | HBM2 de 40 GB a 1,6 TBps | NVLink Full Mesh a 600 GB/s | Entrenamiento de aprendizaje automático, inferencia y HPC | |
RTX PRO 6000 (Vista previa) | GDDR7 de 96 GB con ECC a 1597 GB/s | N/A | Inferencia de aprendizaje automático, entrenamiento, estaciones de trabajo de visualización remota, transcodificación de vídeo y HPC | |
L4 | GDDR6 de 24 GB a 300 GB/s | N/A | Inferencia de aprendizaje automático, entrenamiento, estaciones de trabajo de visualización remota, transcodificación de vídeo y HPC | |
T4 | GDDR6 de 16 GB a 320 GB/s | N/A | Inferencia de aprendizaje automático, entrenamiento, estaciones de trabajo de visualización remota y transcodificación de vídeo | |
V100 | HBM2 de 16 GB a 900 GB/s | NVLink Ring a 300 GB/s | Entrenamiento de aprendizaje automático, inferencia y HPC | |
P4 | GDDR5 de 8 GB a 192 GB/s | N/A | Estaciones de trabajo de visualización remota, inferencia de aprendizaje automático y transcodificación de vídeo | |
P100 | HBM2 de 16 GB a 732 GB/s | N/A | Entrenamiento de aprendizaje automático, inferencia, HPC y estaciones de trabajo de visualización remota |
Para comparar los precios de los distintos modelos y regiones de GPU que están disponibles en Compute Engine, consulta la página Precios de las GPUs.
Gráfico de comparación de rendimiento
En la siguiente tabla se describen las especificaciones de rendimiento de los distintos modelos de GPU disponibles en Compute Engine.
Rendimiento de computación
Modelo de GPU | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
GB200 | 90 TFLOPS | 180 TFLOPS | ||
B200 | 40 TFLOPS | 80 TFLOPS | ||
H200 | 34 TFLOPS | 67 TFLOPS | ||
H100 | 34 TFLOPS | 67 TFLOPS | ||
A100 80 GB | 9,7 TFLOPS | 19,5 TFLOPS | ||
A100 40 GB | 9,7 TFLOPS | 19,5 TFLOPS | ||
L4 | 0,5 TFLOPS1 | 30,3 TFLOPS | ||
T4 | 0,25 TFLOPS1 | 8,1 TFLOPS | ||
V100 | 7,8 TFLOPS | 15,7 TFLOPS | ||
P4 | 0,2 TFLOPS1 | 5,5 TFLOPS | 22 TOPS2 | |
P100 | 4,7 TFLOPS | 9,3 TFLOPS | 18,7 TFLOPS |
1Para que el código FP64 funcione correctamente, la arquitectura de las GPUs T4, L4 y P4 incluye un pequeño número de unidades de hardware FP64.
2 Teraoperaciones por segundo.
Rendimiento de los Tensor Cores
Modelo de GPU | FP64 | TF32 | Precisión mixta FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
GB200 | 90 TFLOPS | 2500 TFLOPS2 | 5000 TFLOPS1, 2 | 10.000 TFLOPS2 | 20.000 TFLOPS2 | 10.000 TFLOPS2 |
B200 | 40 TFLOPS | 1100 TFLOPS2 | 4500 TFLOPS1, 2 | 9000 TFLOPS2 | 9000 TFLOPS2 | |
H200 | 67 TFLOPS | 989 TFLOPS2 | 1979 TFLOPS1, 2 | 3958 TOPS2 | 3958 TFLOPS2 | |
H100 | 67 TFLOPS | 989 TFLOPS2 | 1979 TFLOPS1, 2 | 3958 TOPS2 | 3958 TFLOPS2 | |
A100 80 GB | 19,5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
A100 40 GB | 19,5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS2 | 242 TFLOPS1, 2 | 485 TOPS2 | 485 TFLOPS2 | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
1En el caso del entrenamiento con precisión mixta, las GPUs NVIDIA GB200, B200, H200, H100, A100 y L4 también admiten el tipo de datos bfloat16
.
2Las GPUs NVIDIA GB200, B200, H200, H100 y L4
admiten la esparsidad estructural. Puedes usar la esparsidad estructural para duplicar el rendimiento de tus modelos. Los valores que se documentan se aplican cuando se usa la esparsidad estructurada.
Si no usas la esparsidad estructurada, los valores se reducen a la mitad.
Siguientes pasos
- Consulta más información sobre las GPUs de Compute Engine.
- Consulta la disponibilidad de las regiones y zonas de GPU.
- Consulta la sección Ancho de banda de red y GPUs.
- Consulta los detalles de los precios de las GPUs.