Solucionar problemas de tu flujo de trabajo de TPU de Cloud
Una vez que tu carga de trabajo de entrenamiento o inferencia se esté ejecutando en las TPUs, el siguiente paso es asegurarte de que funciona correctamente. TPU de Cloud genera métricas y registros que te permiten buscar y depurar cualquier VM de TPU que no funcione como se espera. En esta documentación, nos referimos a estas VMs como valores atípicos.
El flujo de trabajo general para solucionar problemas es el siguiente:
- Ver métricas de TPU de Cloud para comprobar si hay máquinas virtuales de TPU atípicas
- Ver los registros de TPU de Cloud de las máquinas virtuales de TPU atípicas
- Crear un perfil de tu carga de trabajo
Puedes ver las métricas y los registros en el explorador de métricas y el explorador de registros de la consola de Google Cloud. También puedes usar paneles de control de monitorización y registro para recoger todas las métricas y los registros relacionados con Cloud TPU en paneles individuales.
Métricas de máquinas virtuales de TPUs de Cloud
Cloud Monitoring recoge automáticamente métricas de tus TPUs y de sus máquinas virtuales de Compute Engine host. Las métricas monitorizan cantidades numéricas a lo largo del tiempo. Por ejemplo, el uso de la CPU, el uso de la red o la duración de inactividad de Tensor Core. Para obtener más información sobre las métricas de las TPU de Cloud, consulta Monitorizar VMs de TPU.
Registros de TPU de Cloud
Cloud Logging recoge automáticamente los registros de tus TPUs y de sus máquinas virtuales de Compute Engine host. Cloud Logging monitoriza los eventos generados por las TPU de Cloud. También puedes instrumentar tu código para generar registros. TPU de Cloud genera dos tipos de registros:
- Registros de trabajador de TPU
- Registros de recursos auditados
Los registros de los trabajadores de TPU contienen información sobre un trabajador de TPU concreto en una zona específica, como la cantidad de memoria disponible en el trabajador de TPU (system_available_memory_GiB).
Los registros de recursos auditados contienen información sobre cuándo se llamó a una API de TPU de Cloud específica y quién hizo la llamada. Por ejemplo, CreateNode
, UpdateNode
y DeleteNode
.
También puedes usar el paquete cloud-tpu-diagnostics
PyPi para escribir seguimientos de pila en los registros. Para obtener más información, consulta Depurar VMs de TPU.
Para obtener más información sobre los registros, consulta Registros.
Paneles de control de monitorización y registros
Tener una sola página en la consola Google Cloud puede facilitar la visualización y la interpretación de las métricas y los registros relacionados con Cloud TPU. El repositorio de GitHub monitoring-debugging contiene un conjunto de secuencias de comandos y archivos de configuración que usan Terraform para implementar automáticamente paneles que contienen todas las métricas y los registros relacionados con Cloud TPU. Para configurar estos paneles de control en tu Google Cloud proyecto, consulta Paneles de control de monitorización y registro.
Crear perfiles de tus cargas de trabajo en máquinas virtuales con TPU
La creación de perfiles te permite optimizar el rendimiento del entrenamiento de tu modelo en VMs de TPU. Para crear un perfil de tu modelo, puedes usar TensorBoard y el complemento TensorBoard de TPU. Para obtener más información sobre cómo crear un perfil de tu carga de trabajo, consulta Elaborar un perfil de modelo en VMs de TPU.
Para obtener más información sobre cómo usar TensorBoard con uno de los frameworks compatibles, consulta los siguientes documentos: