Solução de problemas do PyTorch – TPU
Neste guia, apresentamos informações sobre como identificar e resolver que podem surgir ao treinar modelos PyTorch no Cloud TPU. Para um guia mais geral sobre como começar a usar o Cloud TPU, consulte o Guia de início rápido do PyTorch.
Solução de problemas de desempenho lento de treinamento
Se o treinamento do modelo for lento, gerar e analisar um relatório de métricas.
Para analisar automaticamente o relatório de métricas e fornecer um resumo, basta executar a carga de trabalho com PT_XLA_DEBUG=1.
Para mais informações sobre problemas que podem causar a lentidão do treinamento do modelo, consulte Ressalvas de desempenho conhecidas.
Criação de perfis de desempenho
Para criar perfis detalhados da sua carga de trabalho e encontrar gargalos, use os seguintes recursos:
- Criação de perfil de desempenho do PyTorch/XLA
- Criação de perfis do PyTorch/XLA do Colab
- Exemplo de script de treinamento MNIST com criação de perfil
Mais ferramentas de depuração
Especifique variáveis de ambiente para controlar o comportamento da pilha de software do PyTorch/XLA.
Se o processo do PyTorch parar de responder, registre um problema no GitHub e inclua stack traces.
Um utilitário debug_run.py
é fornecido em scripts/debug_run.py e pode ser usado para criar um arquivo tar.gz
com as informações necessárias para depurar execuções no PyTorch/XLA.
Como gerenciar tensores XLA
As peculiaridades de tensores do XLA descrevem o que você deve ou não fazer ao trabalhar com tensores XLA e pesos compartilhados.