Pod에서 분산 처리
대규모 언어 모델은
-
Pax를 사용하여 단일 기기 TPU에서 학습
단일 기기 Cloud TPU에서 Pax로 SPMD 모델을 학습시키기 위한 가이드
-
v5e에서 JetStream MaxText 추론
추론을 위해 MaxText와 함께 JetStream을 설정하고 사용하는 방법을 안내하는 가이드
-
v5e에서 JetStream PyTorch 추론
추론을 위해 PyTorch와 함께 JetStream을 설정하고 사용하는 방법을 안내하는 가이드
-
vLLM을 사용하여 GKE에서 TPU를 사용하는 LLM 제공
vLLM을 사용하여 Google Kubernetes Engine (GKE)에서 Tensor Processing Unit (TPU)을 사용하는 대규모 언어 모델 (LLM)을 제공하는 방법을 안내하는 가이드입니다.