Pod 上的分布式处理
大语言模型
-
使用 Pax 在单设备 TPU 上训练
在单设备 Cloud TPU 上使用 Pax 训练 SPMD 模型的指南。
-
在 v5e 上进行 JetStream MaxText 推理
关于如何设置和使用 JetStream 与 MaxText 进行推理的指南。
-
在 v5e 上进行 JetStream PyTorch 推理
有关如何设置和使用 JetStream 与 PyTorch 进行推理的指南。
-
使用 vLLM 在 GKE 上使用 TPU 提供 LLM
本指南介绍了如何使用 vLLM 在 Google Kubernetes Engine (GKE) 上使用张量处理单元 (TPU) 部署大语言模型 (LLM)。