Solução de problemas do PyTorch – TPU

Neste guia, apresentamos informações sobre como identificar e resolver que podem surgir ao treinar modelos PyTorch no Cloud TPU. Para um guia mais geral sobre como começar a usar o Cloud TPU, consulte o Guia de início rápido do PyTorch.

Solução de problemas de desempenho lento de treinamento

Se o treinamento do modelo for lento, gerar e analisar um relatório de métricas.

Para analisar automaticamente o relatório de métricas e fornecer um resumo, basta executar a carga de trabalho com PT_XLA_DEBUG=1.

Para mais informações sobre problemas que podem causar a lentidão do treinamento do modelo, consulte Ressalvas de desempenho conhecidas.

Criação de perfis de desempenho

Para criar perfis detalhados da sua carga de trabalho e encontrar gargalos, use os seguintes recursos:

Mais ferramentas de depuração

Especifique variáveis de ambiente para controlar o comportamento da pilha de software do PyTorch/XLA.

Se o processo do PyTorch parar de responder, registre um problema no GitHub e inclua stack traces.

Um utilitário debug_run.py é fornecido em scripts/debug_run.py e pode ser usado para criar um arquivo tar.gz com as informações necessárias para depurar execuções no PyTorch/XLA.

Como gerenciar tensores XLA

As peculiaridades de tensores do XLA descrevem o que você deve ou não fazer ao trabalhar com tensores XLA e pesos compartilhados.