Cloud TPU에서 PyTorch 모델 학습

이 문서에서는 Cloud TPU에서 PyTorch 모델 실행에 관한 세부정보에 대해 설명합니다. Cloud TPU에서 PyTorch 모델을 학습시키는 방법은 사용 중인 Cloud TPU 아키텍처에 따라 달라집니다. 자세한 내용은 시스템 아키텍처를 참조하세요.

Cloud TPU VM

Cloud TPU VM에서는 사용자 VM이 없고 모델 및 코드가 TPU 호스트 머신의 VM에서 실행됩니다. TPU 호스트에 직접 SSH로 연결할 수 있습니다. 임의의 코드 설치 패키지를 실행하고, 로그를 보고, 코드를 디버그할 수 있습니다.

PyTorch/XLA는 새 PyTorch/XLA 프로그램이 실행될 때마다 TensorFlow 로컬 서버를 만듭니다. XRT(XLA 런타임) 클라이언트는 로컬 TensorFlow 서버에 연결됩니다.

이미지

TPU VM에서 PyTorch 모델을 학습시키는 방법에 대한 자세한 내용은 Cloud TPU VM PyTorch 빠른 시작을 참조하세요.

기존 TPU 노드

기존 TPU 노드를 사용하는 경우 각 TPU에 사용자 VM이 필요합니다. 사용자 VM은 gRPC 호출을 통해 TPU 노드와 통신합니다. TPU 노드는 TensorFlow 서버를 실행합니다. XRT(XLA 런타임) 클라이언트는 네트워크를 통해 TensorFlow 서버에 연결합니다.

이미지