本頁面由 Cloud Translation API 翻譯而成。

透過 vLLM TPU 和 Cloud TPU 提供開放原始碼模型

vLLM TPU 是大型語言模型 (LLM) 的高效率服務框架，經過最佳化調整，適用於 Cloud TPU 硬體。這項外掛程式採用tpu-inference，是功能強大的全新硬體外掛程式，可將 JAX 和 PyTorch 整合在單一下降路徑下。

如要進一步瞭解這個架構，請參閱 vLLM TPU 網誌文章。

透過一鍵部署和筆記本，即可在 Model Garden 中使用 vLLM TPU。

開始使用 Model Garden

Model Garden 已整合 vLLM TPU 服務容器。您只要按一下即可部署，並透過各種模型的 Colab Enterprise 筆記本範例，存取這項服務解決方案。

您可以透過下列模型的模型資訊卡，使用 vLLM TPU 部署自訂 Vertex AI 端點：

步驟：

如要彈性自訂，可以使用 Colab Enterprise 筆記本範例，透過 Vertex AI SDK for Python，以 vLLM TPU 部署 Vertex AI 端點。

在 Model Garden 中，預設配額為 europe-west4 地區的 16 個 Cloud TPU v6e 晶片。這項配額適用於一鍵部署和 Colab Enterprise 筆記本部署作業。如果預設配額為 0，或想要求更多配額，請參閱「要求調整配額」。