Se usó la API de Cloud Translation para traducir esta página.

Supervisa el rendimiento de las GPU en las VM de Windows

Windows

Para ayudar a usar mejor los recursos, puedes realizar un seguimiento de las tasas de uso de GPU de las instancias de máquina virtual (VM).

Cuando conoces las tasas de uso de GPU, puedes realizar tareas como configurar grupos de instancias administrados que se pueden usar para aplicar el ajuste de escala automático a los recursos.

Para revisar las métricas de GPU mediante Cloud Monitoring, sigue los pasos a continuación:

En cada VM, configura la secuencia de comandos de informes de métricas de GPU. Esta secuencia de comandos instala el agente de informes de métricas de GPU. Este agente se ejecuta a intervalos en la VM para recopilar datos de GPU y enviarlos a Cloud Monitoring.
En cada VM, ejecuta la secuencia de comandos.
En cada VM, configura el agente de informes de métricas de GPU para que se inicie de forma automática en el arranque.
Consulta los registros en Google Cloud Cloud Monitoring.

Roles obligatorios

Para supervisar el rendimiento de las GPU en las VMs de Windows, debes otorgar los roles de Identity and Access Management (IAM) necesarios a los siguientes principios:

La cuenta de servicio que usa la instancia de VM
Tu cuenta de usuario

Para garantizar que tú y la cuenta de servicio de la VM tengan los permisos necesarios para supervisar el rendimiento de la GPU en las VMs de Windows, pídele a tu administrador que te otorgue a ti y a la cuenta de servicio de la VM los siguientes roles de IAM en el proyecto:

Administrador de instancias de Compute (v1) (roles/compute.instanceAdmin.v1)
Escritor de métricas de Monitoring (roles/monitoring.metricWriter)

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Es posible que tu administrador también pueda otorgarte a ti y a la cuenta de servicio de la VM los permisos necesarios mediante roles personalizados o con otros roles predefinidos.

Configura la secuencia de comandos de informes de métricas de GPU

Requisitos

En cada una de tus VM, verifica que se satisfagan los siguientes requisitos:

Cada VM debe tener GPU adjuntas.
Cada instancia de VM debe tener un controlador de GPU instalado.

Descarga la secuencia de comandos

Abre una terminal de PowerShell como administrador y usa el comando Invoke-WebRequest para descargar la secuencia de comandos.

Invoke-WebRequest está disponible en PowerShell 3.0 o versiones posteriores.Google Cloud recomienda que uses ctrl+v para pegar los bloques de código copiados.

mkdir c:\google-scripts
cd c:\google-scripts
Invoke-Webrequest -uri https://raw.githubusercontent.com/GoogleCloudPlatform/compute-gpu-monitoring/main/windows/gce-gpu-monitoring-cuda.ps1 -outfile gce-gpu-monitoring-cuda.ps1

Ejecuta la secuencia de comandos:

cd c:\google-scripts
.\gce-gpu-monitoring-cuda.ps1

Configura el agente para que se inicie de forma automática en el arranque

A fin de asegurarte de que el agente de informes de métricas de GPU esté configurado para ejecutarse en el arranque del sistema, usa el siguiente comando a fin de agregar el agente al Programador de tareas de Windows.

$Trigger= New-ScheduledTaskTrigger -AtStartup
$Trigger.ExecutionTimeLimit = "PT0S"
$User= "NT AUTHORITY\SYSTEM"
$Action= New-ScheduledTaskAction -Execute "PowerShell.exe" -Argument "C:\google-scripts\gce-gpu-monitoring-cuda.ps1"
$settingsSet = New-ScheduledTaskSettingsSet
# Set the Execution Time Limit to unlimited on all versions of Windows Server
$settingsSet.ExecutionTimeLimit = 'PT0S'
Register-ScheduledTask -TaskName "MonitoringGPUs" -Trigger $Trigger -User $User -Action $Action -Force -Settings $settingsSet

Revisa las métricas en Cloud Monitoring

En la consola de Google Cloud, ve a la página Explorador de métricas.

Ir a Monitoring
Expande el menú Seleccionar una métrica.
En el menú Recurso, selecciona Instancia de VM.
En el menú Categoría de métrica, selecciona Personalizado.
En el menú Métrica, selecciona la métrica que deseas representar. Por ejemplo custom/instance/gpu/utilization.

Nota: Las métricas personalizadas pueden tardar un poco en aparecer.
Haz clic en Aplicar.

El uso de GPU debe parecerse al siguiente resultado:

Métricas disponibles

Nombre de la métrica	Descripción
instance/gpu/utilization	Porcentaje de tiempo durante el último período de muestra en el que se ejecutaron uno o más kernels en la GPU.
instance/gpu/memory_utilization	Porcentaje de tiempo durante el último período de muestra en el que se leyó o escribió en la memoria global (dispositivo).
instance/gpu/memory_total	Memoria total de GPU instalada.
instance/gpu/memory_used	Memoria total asignada por contextos activos.
instance/gpu/memory_used_percent	El porcentaje de la memoria total asignada por contextos activos. Va de 0 a 100.
instance/gpu/memory_free	Memoria libre total.
instance/gpu/temperature	Temperatura de la GPU principal en Celsius (°C)

Próximos pasos

Para controlar el mantenimiento del host de la GPU, consulta la página sobre cómo controlar eventos de mantenimiento del host de la GPU.
Para mejorar el rendimiento de la red, consulta Usa un ancho de banda de red mayor.

Supervisa el rendimiento de las GPU en las VM de Windows

Roles obligatorios

Configura la secuencia de comandos de informes de métricas de GPU

Requisitos

Descarga la secuencia de comandos

Ejecuta la secuencia de comandos:

Configura el agente para que se inicie de forma automática en el arranque

Revisa las métricas en Cloud Monitoring

Métricas disponibles

instance/gpu/utilization

instance/gpu/memory_utilization

instance/gpu/memory_total

instance/gpu/memory_used

instance/gpu/memory_used_percent

instance/gpu/memory_free

instance/gpu/temperature

Próximos pasos