Soluciona problemas del flujo de trabajo de Cloud TPU
Una vez que tu carga de trabajo de inferencia o entrenamiento se ejecute en TPU, el siguiente paso es asegurarte de que tu carga de trabajo funcione como se espera. Cloud TPU genera métricas y registros que te permiten buscar y depurar cualquier VM de TPU que no se comporte como se espera. En esta documentación, nos referimos a estas VM como valores atípicos.
El flujo de trabajo general para la solución de problemas es el siguiente:
- Consulta las métricas de Cloud TPU para verificar los valores atípicos de VM de TPU
- Visualiza los registros de Cloud TPU de las VMs de TPU con valores atípicos
- Cómo generar un perfil de tu carga de trabajo
Puedes ver las métricas y los registros en el Explorador de métricas y el Explorador de registros en la consola de Google Cloud. También puedes usar los paneles de supervisión y registro para recopilar todas las métricas y registros relacionados con Cloud TPU en paneles individuales.
Métricas de VM de Cloud TPU
Cloud Monitoring recopila automáticamente las métricas de tus TPU y las VM de Compute Engine del host. Las métricas realizan un seguimiento de las cantidades numéricas a lo largo del tiempo, por ejemplo, el uso de CPU, el uso de red o la duración de inactividad de TensorCore. Para obtener más información sobre las métricas de Cloud TPU, consulta Supervisa VM de TPU.
Registros de Cloud TPU
Cloud Logging recopila de forma automática los registros de tus TPU y las VM de Compute Engine del host. Cloud Logging realiza un seguimiento de los eventos que genera Cloud TPU. También puedes instrumentar tu código para generar registros. Cloud TPU genera dos tipos de registros:
- Registros de trabajadores de TPU
- Registros de recursos auditados
Los registros del trabajador TPU contienen información sobre un trabajador TPU específico en una zona específica, por ejemplo, la cantidad de memoria disponible en el trabajador TPU (system_available_memory_GiB).
Los registros de recursos auditados contienen información sobre cuándo se llamó a una API de Cloud TPU específica y quién la realizó. Por ejemplo, CreateNode
, UpdateNode
y DeleteNode
.
También puedes usar el paquete cloud-tpu-diagnostics
de PyPi para escribir seguimientos de pila en los registros. Para obtener más información, consulta Depura las VMs de TPU.
Para obtener más información sobre los registros, consulta Logging.
Paneles de supervisión y registro
Tener una sola página en la consola de Google Cloud puede facilitar la visualización y la interpretación de las métricas y los registros relacionados con Cloud TPU. El repositorio de GitHub de supervisión y depuración contiene un conjunto de secuencias de comandos y archivos de configuración que usan Terraform para implementar de forma automática paneles que contengan todas las métricas y los registros relacionados con Cloud TPU en los paneles. Para configurar estos paneles en tu proyecto de Google Cloud, consulta Paneles de Monitoring y Logging.
Crea perfiles de tus cargas de trabajo en VMs de TPU
La creación de perfiles te permite optimizar el rendimiento del entrenamiento de tu modelo en VMs de TPU. Usas TensorBoard y el complemento TPU TensorBoard para generar el perfil de tu modelo. Para obtener más información sobre cómo generar perfiles de tu carga de trabajo, consulta Perfila tu modelo en VMs de TPU.
Si deseas obtener más información sobre el uso de TensorBoard con uno de los frameworks compatibles, consulta los siguientes documentos: