Addestramento dei modelli PyTorch su Cloud TPU

Questo documento descrive i dettagli sull'esecuzione dei modelli PyTorch su Cloud TPU. Il modo in cui addestri i modelli PyTorch su Cloud TPU dipende dall'architettura che utilizzi. Per ulteriori informazioni, consulta la sezione Architettura di sistema

VM Cloud TPU

Con le VM Cloud TPU, non è presente alcuna VM utente e il modello e il codice vengono eseguiti in una VM sulla macchina host TPU. Puoi accedere tramite SSH direttamente all'host TPU. Puoi eseguire pacchetti di installazione di codice arbitrari, visualizzare i log, il codice di debug e così via.

PyTorch/XLA crea un server TensorFlow locale ogni volta che viene eseguito un nuovo programma PyTorch/XLA. Il client XRT (XLA Runtime) si connette al server TensorFlow locale.

immagine

Per ulteriori informazioni sull'addestramento di un modello PyTorch sulle VM TPU, consulta la guida rapida di Cloud TPU VM PyTorch.

Nodi TPU legacy

Quando utilizzi i nodi TPU legacy, hai bisogno di una VM utente per ogni TPU. Le VM degli utenti comunicano con i nodi TPU tramite le chiamate gRPC. Il nodo TPU esegue un server TensorFlow. Il client XRT (XLA Runtime) si connette al server TensorFlow attraverso la rete.

immagine