大语言模型
-
在 v6e 上进行 JetStream MaxText 推理
关于如何在 v6e 上设置和使用 JetStream 与 MaxText 搭配进行推理的指南。
-
在 v6e 上进行 JetStream PyTorch 推理
有关如何在 v6e 上设置和使用 JetStream 与 PyTorch 搭配进行推理的指南。
-
v6e 上的 vLLM 推理
有关在 v6e 上设置和使用 vLLM 进行推理的指南。
-
使用 vLLM 在 GKE 上使用 TPU 提供 LLM
本指南介绍了如何使用 vLLM 在 Google Kubernetes Engine (GKE) 上使用张量处理单元 (TPU) 部署大语言模型 (LLM)。