Addestramento dei modelli PyTorch su Cloud TPU
Questo documento descrive i dettagli sull'esecuzione dei modelli PyTorch su Cloud TPU. Il modo in cui addestri i modelli PyTorch su Cloud TPU dipende dall'architettura che utilizzi. Per ulteriori informazioni, consulta la sezione Architettura di sistema
VM Cloud TPU
Con le VM Cloud TPU, non è presente alcuna VM utente e il modello e il codice vengono eseguiti in una VM sulla macchina host TPU. Puoi accedere tramite SSH direttamente all'host TPU. Puoi eseguire pacchetti di installazione di codice arbitrari, visualizzare i log, il codice di debug e così via.
PyTorch/XLA crea un server TensorFlow locale ogni volta che viene eseguito un nuovo programma PyTorch/XLA. Il client XRT (XLA Runtime) si connette al server TensorFlow locale.
Per ulteriori informazioni sull'addestramento di un modello PyTorch sulle VM TPU, consulta la guida rapida di Cloud TPU VM PyTorch.
Nodi TPU legacy
Quando utilizzi i nodi TPU legacy, hai bisogno di una VM utente per ogni TPU. Le VM degli utenti comunicano con i nodi TPU tramite le chiamate gRPC. Il nodo TPU esegue un server TensorFlow. Il client XRT (XLA Runtime) si connette al server TensorFlow attraverso la rete.