Puedes usar GPU en Compute Engine para acelerar cargas de trabajo específicas en las VMs, como el aprendizaje automático (AA) y el procesamiento de datos. Para usar GPU, puedes implementar una VM optimizada para aceleradores que tenga GPU conectadas o adjuntar GPU a una VM N1 de uso general.
Compute Engine proporciona GPU de NVIDIA para tus VMs en modo de transferencia así tus VMs podrán tener control directo sobre las GPU y su memoria asociada.
Para obtener más información sobre las GPU en Compute Engine, consulta Acerca de las GPU.
Si tienes cargas de trabajo de contenido gráfico alto, como visualización 3D, renderización 3D o aplicaciones virtuales, puedes usar estaciones de trabajo virtuales de NVIDIA RTX (antes conocidas como NVIDIA GRID).
En este documento, se proporciona una descripción general de los diferentes modelos de VMs que están disponibles en Compute Engine.
Si deseas ver las regiones y zonas disponibles para las GPU en Compute Engine, consulta Regiones de GPU y disponibilidad de zonas.
GPU para cargas de trabajo de procesamiento
Para las cargas de trabajo de procesamiento, los modelos de GPU están disponibles en las siguientes etapas:
- Serie de máquinas A3
- A3 Mega: NVIDIA H100 de 80 GB Mega:
nvidia-h100-mega-80gb
: generalmente, está disponible - A3 estándar: NVIDIA H100 80 GB:
nvidia-h100-80gb
: Disponibilidad general
- A3 Mega: NVIDIA H100 de 80 GB Mega:
- Serie de máquinas G2
- NVIDIA L4:
nvidia-l4
: Disponibilidad general
- NVIDIA L4:
- Serie de máquinas A2
- A2 Ultra: NVIDIA A100 80 GB:
nvidia-a100-80gb
: Disponibilidad general - A2 estándar: NVIDIA A100 40 GB:
nvidia-tesla-a100
: Generalmente disponible
- A2 Ultra: NVIDIA A100 80 GB:
- Serie de máquinas N1
- NVIDIA T4:
nvidia-tesla-t4
: Disponibilidad general - NVIDIA V100:
nvidia-tesla-v100
: Disponibilidad general - NVIDIA P100:
nvidia-tesla-p100
: Disponibilidad general - NVIDIA P4:
nvidia-tesla-p4
: Disponibilidad general
- NVIDIA T4:
Serie de máquinas A3
Para ejecutar GPU NVIDIA H100 de 80 GB, debes usar un tipo de máquina A3 optimizada para aceleradores. Nota: Cada tipo de máquina A3 tiene un recuento fijo de GPU, de CPU virtuales y de tamaño de memoria.
Las series de máquinas A3 están disponibles en dos tipos:
- A3 Mega: Estos tipos de máquinas tienen GPU Mega H100 de 80 GB y SSD local conectados, con una velocidad de ancho de banda de red máxima de 1,800 Gbps.
- A3 Standard: estos tipos de máquinas tienen GPU H100 de 80 GB y SSD local conectadas, y una velocidad de ancho de banda de red máxima de 1,000 Gbps.
Tipo de acelerador | Tipo de máquina | Recuento de GPU | Memoria de GPU* (GB HBM3) |
Recuento de CPU virtuales | Memoria de VM (GB) | SSD local conectado (GiB) | Ancho de banda máximo de red (Gbps) | |
---|---|---|---|---|---|---|---|---|
VM | Clúster de GPU | |||||||
nvidia-h100-mega-80gb |
a3-megagpu-8g |
8 | 640 | 208 | 1,872 | 6,000 | 200 | 1,600 |
nvidia-h100-80gb |
a3-highgpu-8g |
8 | 640 | 208 | 1,872 | 6,000 | 200 | 800 |
*La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la VM y está diseñado de forma específica para manejar las demandas más altas de ancho de banda de tus cargas de trabajo de alto contenido gráfico.
Serie de máquinas G2
Para usar las GPU NVIDIA L4, haz lo siguiente: debes implementar un Optimización para aceleradores de G2 máquina virtual.
Cada tipo de máquina G2 tiene una cantidad fija de GPU NVIDIA L4 y CPU virtuales conectadas. Cada tipo de máquina G2 también tiene una memoria predeterminada y un rango de memoria personalizado. El rango de memoria personalizado define la cantidad de memoria que puedes asignar a tu VM para cada tipo de máquina. Puedes especificar la memoria personalizada durante la creación de la VM.
Tipo de acelerador | Tipo de máquina | Recuento de GPU | Memoria de GPU* (GB GDDR6) | Recuento de CPU virtuales | Memoria de VM predeterminada (GB) | Rango de memoria de VM personalizado (GB) | Máximo de SSD local admitido (GiB) |
---|---|---|---|---|---|---|---|
nvidia-tesla-l4 o nvidia-tesla-l4-vws
|
g2-standard-4 |
1 | 24 | 4 | 16 | De 16 a 32 | 375 |
g2-standard-8 |
1 | 24 | 8 | 32 | De 32 a 54 | 375 | |
g2-standard-12 |
1 | 24 | 12 | 48 | De 48 a 54 | 375 | |
g2-standard-16 |
1 | 24 | 16 | 64 | De 54 a 64 | 375 | |
g2-standard-24 |
2 | 48 | 24 | 96 | De 96 a 108 | 750 | |
g2-standard-32 |
1 | 24 | 32 | 128 | De 96 a 128 | 375 | |
g2-standard-48 |
4 | 96 | 48 | 192 | De 192 a 216 | 1,500 | |
g2-standard-96 |
8 | 192 | 96 | 384 | De 384 a 432 | 3,000 |
*La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la VM y está diseñado de forma específica para manejar las demandas más altas de ancho de banda de tus cargas de trabajo de alto contenido gráfico.
Serie de máquinas A2
Para usar GPU NVIDIA A100 en Google Cloud, debes implementar una máquina A2 optimizada para aceleradores. Nota: Cada tipo de máquina A2 tiene un recuento fijo de GPU, de CPU virtuales y de tamaño de memoria.
Las series de máquinas A2 están disponibles en dos tipos:
- A2 Ultra: Estos tipos de máquinas tienen GPU A100 de 80 GB y SSD local conectados.
- A2 estándar: Estos tipos de máquinas tienen GPU A100 de 40 GB conectadas.
A2 ultra
Tipo de acelerador | Tipo de máquina | Recuento de GPU | Memoria de GPU* (GB HBM2e) | Recuento de CPU virtuales | Memoria de VM (GB) | SSD local conectado (GiB) |
---|---|---|---|---|---|---|
nvidia-a100-80gb |
a2-ultragpu-1g |
1 | 80 | 12 | 170 | 375 |
a2-ultragpu-2g |
2 | 160 | 24 | 340 | 750 | |
a2-ultragpu-4g |
4 | 320 | 48 | 680 | 1,500 | |
a2-ultragpu-8g |
8 | 640 | 96 | 1,360 | 3,000 |
A2 Estándar
Tipo de acelerador | Tipo de máquina | Recuento de GPU | Memoria de GPU* (GB HBM2) | Recuento de CPU virtuales | Memoria de VM (GB) | Compatible con SSD local |
---|---|---|---|---|---|---|
nvidia-tesla-a100 |
a2-highgpu-1g |
1 | 40 | 12 | 85 | Sí |
a2-highgpu-2g |
2 | 80 | 24 | 170 | Sí | |
a2-highgpu-4g |
4 | 160 | 48 | 340 | Sí | |
a2-highgpu-8g |
8 | 320 | 96 | 680 | Sí | |
a2-megagpu-16g |
16 | 640 | 96 | 1,360 | Sí |
*La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la VM y está diseñado de forma específica para manejar las demandas más altas de ancho de banda de tus cargas de trabajo de alto contenido gráfico.
Serie de máquinas N1
Puedes adjuntar los siguientes modelos de GPU a un Tipo de máquina N1 con el excepción del tipo de máquina de núcleo compartido N1.
Las VMs N1 con una cantidad menor de GPU están limitadas a una cantidad máxima de CPU virtuales. En general, una cantidad mayor de GPU te permite crear instancias de VM con mayores cantidades de CPU virtuales y de memoria.
GPU de N1 + T4
Puedes conectar las GPU NVIDIA T4 a las VMs N1 de uso general con los siguientes parámetros de configuración de VM.
Tipo de acelerador | Recuento de GPU | Memoria de GPU* (GB GDDR6) | Recuento de CPU virtuales | Memoria de VM (GB) | Compatible con SSD local |
---|---|---|---|---|---|
nvidia-tesla-t4 o nvidia-tesla-t4-vws
|
1 | 16 | De 1 a 48 | De 1 a 312 | Sí |
2 | 32 | De 1 a 48 | De 1 a 312 | Sí | |
4 | 64 | De 1 a 96 | De 1 a 624 | Sí |
*La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la VM y está diseñado de forma específica para manejar las demandas más altas de ancho de banda de tus cargas de trabajo de alto contenido gráfico.
GPU de N1 + P4
Puedes conectar las GPU NVIDIA P4 a las VMs N1 de uso general con los siguientes parámetros de configuración de VM.
Tipo de acelerador | Recuento de GPU | Memoria de GPU* (GB GDDR5) | Recuento de CPU virtuales | Memoria de VM (GB) | Compatible con SSD local † |
---|---|---|---|---|---|
nvidia-tesla-p4 o nvidia-tesla-p4-vws
|
1 | 8 | De 1 a 24 | De 1 a 156 | Sí |
2 | 16 | De 1 a 48 | De 1 a 312 | Sí | |
4 | 32 | De 1 a 96 | De 1 a 624 | Sí |
*La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la VM y está diseñado de forma específica para manejar las demandas más altas de ancho de banda de tus cargas de trabajo de alto contenido gráfico.
†Para las VMs con GPU NVIDIA P4 conectadas, los discos SSD locales solo son compatibles en las zonas us-central1-c
y northamerica-northeast1-b
.
GPU de N1 + V100
Puedes adjuntar las GPU NVIDIA V100 a las VMs N1 de uso general con la siguiente configuración de VM.
Tipo de acelerador | Recuento de GPU | Memoria de GPU* (GB HBM2) | Recuento de CPU virtuales | Memoria de VM (GB) | Compatible con SSD local † |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | De 1 a 12 | De 1 a 78 | Sí |
2 | 32 | De 1 a 24 | De 1 a 156 | Sí | |
4 | 64 | De 1 a 48 | De 1 a 312 | Sí | |
8 | 128 | De 1 a 96 | De 1 a 624 | Sí |
*La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la VM y está diseñado de forma específica para manejar las demandas más altas de ancho de banda de tus cargas de trabajo de alto contenido gráfico.
†Para las VMs con GPU NVIDIA V100 conectadas, los discos SSD locales no son compatibles con us-east1-c
.
GPU de N1 + P100
Puedes adjuntar las GPU NVIDIA P100a las VMs N1 de uso general con la siguiente configuración de VM.
En algunas GPU P100, la CPU y la memoria máximas disponibles para algunas configuraciones dependen de la zona en la que se ejecuta el recurso de GPU.
Tipo de acelerador | Recuento de GPU | Memoria de GPU* (GB HBM2) | Recuento de CPU virtuales | Memoria de VM (GB) | Compatible con SSD local |
---|---|---|---|---|---|
nvidia-tesla-p100 o nvidia-tesla-p100-vws
|
1 | 16 | De 1 a 16 | De 1 a 104 | Sí |
2 | 32 | De 1 a 32 | De 1 a 208 | Sí | |
4 | 64 | De 1 a 64 De 1 a 96 |
De 1 a 208 De 1 a 624 |
Sí |
*La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la VM y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
Estaciones de trabajo virtuales (vWS) NVIDIA RTX para cargas de trabajo de gráficos
Si tienes cargas de trabajo de contenido gráfico alto, como la visualización 3D, puedes crear estaciones de trabajo virtuales que usen estaciones de trabajo virtuales (vWS) NVIDIA RTX (antes conocidas como NVIDIA GRID). Cuando creas una estación de trabajo virtual, se agrega de forma automática una licencia de estación de trabajo virtual (vWS) NVIDIA RTX a tu VM.
Para obtener información sobre los precios de las estaciones de trabajo virtuales, consulta la página de precios de GPU.
Para las cargas de trabajo de gráficos, están disponibles los modelos de estación de trabajo virtual (vWS) NVIDIA RTX:
Serie de máquinas G2: Para los tipos de máquinas G2, puedes habilitar Estaciones de trabajo virtuales (vWS) de NVIDIA L4:
nvidia-l4-vws
Serie de máquinas N1: Para los tipos de máquinas N1, puedes habilitar las siguientes estaciones de trabajo virtuales:
- Estaciones de trabajo virtuales NVIDIA T4:
nvidia-tesla-t4-vws
- Estaciones de trabajo virtuales NVIDIA P100:
nvidia-tesla-p100-vws
- Estaciones de trabajo virtuales NVIDIA P4:
nvidia-tesla-p4-vws
- Estaciones de trabajo virtuales NVIDIA T4:
Gráfico de comparación general
En la siguiente tabla, se describe el tamaño de la memoria de GPU, la disponibilidad de las funciones y los tipos de carga de trabajo ideales de diferentes modelos de GPU que están disponibles en Compute Engine.
Modelo de GPU | Memoria de GPU | Interconexión | Compatibilidad con la estación de trabajo virtual (vWS) NVIDIA RTX | Mejor uso para |
---|---|---|---|---|
H100 80 GB | HBM3 de 80 GB a 3.35 TBps | Malla completa de NVLink a 900 GBps | Modelos grandes con tablas de datos enormes para el entrenamiento de AA, la inferencia, la HPC, BERT y DLRM | |
A100 80 GB | HBM2e de 80 GB a 1.9 TBps | Malla completa de NVLink a 600 GBps | Modelos grandes con tablas de datos enormes para el entrenamiento de AA, la inferencia, la HPC, BERT y DLRM | |
A100 40 GB | HBM2 de 40 GB a 1.6 TBps | Malla completa de NVLink a 600 GBps | AA, entrenamiento, inferencia, HPC | |
L4 | GDDR6 de 24 GB a 300 GBps | No disponible | Inferencia de ML, entrenamiento, estaciones de trabajo de visualización remota, transcodificación de video, HPC | |
T4 | GDDR6 de 16 GB a 320 GBps | No disponible | Inferencia de ML, entrenamiento, estaciones de trabajo de visualización remota, transcodificación de video | |
V100 | HBM2 de 16 GB a 900 GBps | NVLink Ring a 300 GBps | AA, entrenamiento, inferencia, HPC | |
P4 | GDDR5 de 8 GB a 192 GBps | No disponible | Estaciones de trabajo de visualización remota, inferencia ML y transcodificación de video | |
P100 | HBM2 de 16 GB a 732 GBps | No disponible | AA, entrenamiento, inferencia, HPC, estaciones de trabajo de visualización remota |
Si deseas comparar los precios de GPU para los diferentes modelos y regiones de GPU disponibles en Compute Engine, consulta los precios de GPU.
Gráfico de comparación de rendimiento
En la siguiente tabla, se describen las especificaciones de rendimiento de diferentes modelos de GPU que están disponibles en Compute Engine.
Rendimiento de procesamiento
Modelo de GPU | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
H100 80 GB | 34 TFLOPS* | 67 TFLOPS* | ||
A100 80 GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
A100 40 GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
L4 | 0.5 TFLOPS* | 30.3 TFLOPS | ||
T4 | 0.25 TFLOPS* | 8.1 TFLOPS | ||
V100 | 7.8 TFLOPS | 15.7 TFLOPS | ||
P4 | 0.2 TFLOPS* | 5.5 TFLOPS | 22 TOPS† | |
P100 | 4.7 TFLOPS | 9.3 TFLOPS | 18.7 TFLOPS |
*Para permitir que el código FP64 funcione correctamente, se incluye una pequeña cantidad de unidades de hardware FP64 en la arquitectura de GPU T4, L4 y P4.
†Teraoperaciones por segundo.
Rendimiento del núcleo de tensor
Modelo de GPU | FP64 | TF32 | FP16/FP32 de precisión mixta | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
H100 80 GB | 67 TFLOPS* | 989 TFLOPS† | 1,979 TFLOPS*, † | 3,958 TOPS† | 3,958 TFLOPS† | |
A100 80 GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
A100 40 GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS† | 242 TFLOPS*, † | 485 TOPS† | 485 TFLOPS† | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
* Para el entrenamiento de precisión mixta, las GPU NVIDIA H100, A100 y L4
también admiten el tipo de datos bfloat16
.
† Para las GPU H100 y L4, se admite la dispersión estructural, que puedes usar para duplicar el valor de rendimiento. Los valores que se muestran están con dispersión. Las especificaciones son la mitad inferior sin dispersión.
Próximos pasos
- Para obtener más información sobre las GPU en Compute Engine, consulta Acerca de las GPU.
- Revisa la disponibilidad de las regiones y zonas de GPU.
- Obtén información sobre los precios de GPU.