Résoudre les problèmes liés à PyTorch – TPU

Ce guide fournit des informations de dépannage pour vous aider à identifier et à résoudre les problèmes que vous pouvez rencontrer lors de l'entraînement de modèles PyTorch sur Cloud TPU. Pour obtenir des conseils plus généraux pour faire vos premiers pas avec Cloud TPU, consultez le guide de démarrage rapide de PyTorch.

Résoudre les problèmes de lenteur d'entraînement

Si l'entraînement de votre modèle est lent, générez et examinez un rapport de métriques.

Pour analyser automatiquement le rapport des métriques et fournir un résumé, exécutez simplement votre charge de travail avec PT_XLA_DEBUG=1.

Pour en savoir plus sur les problèmes susceptibles de ralentir l'entraînement de votre modèle, consultez la section Mises en garde connues concernant les performances.

Profilage des performances

Pour profiler votre charge de travail en profondeur afin d'identifier les goulots d'étranglement, vous pouvez utiliser les ressources suivantes :

Autres outils de débogage

Vous pouvez spécifier des variables d'environnement pour contrôler le comportement de la pile logicielle PyTorch/XLA.

Si le processus PyTorch cesse de répondre, signalez un problème sur GitHub et incluez des traces de pile.

Un utilitaire debug_run.py est fourni dans scripts/debug_run.py et peut être utilisé pour créer une archive tar.gz contenant les informations requises pour déboguer les exécutions PyTorch/XLA.

Gérer les Tensors XLA

XLA Tensor Quirks décrit ce que vous devez et ne devez pas faire lorsque vous utilisez des Tensors XLA et des pondérations partagées.