透過 vLLM TPU 和 Cloud TPU 提供開放原始碼模型

vLLM TPU 是大型語言模型 (LLM) 的高效率服務框架,經過最佳化調整,適用於 Cloud TPU 硬體。這項外掛程式採用tpu-inference,是功能強大的全新硬體外掛程式,可將 JAXPyTorch 整合在單一下降路徑下。

如要進一步瞭解這個架構,請參閱 vLLM TPU 網誌文章

透過一鍵部署和筆記本,即可在 Model Garden 中使用 vLLM TPU。

開始使用 Model Garden

Model Garden 已整合 vLLM TPU 服務容器。您只要按一下即可部署,並透過各種模型的 Colab Enterprise 筆記本範例,存取這項服務解決方案。

使用一鍵部署功能

您可以透過下列模型的模型資訊卡,使用 vLLM TPU 部署自訂 Vertex AI 端點:

步驟:

  1. 前往模型資訊卡頁面 (例如 google/gemma-3-27b-it),然後按一下「Deploy model」(部署模型),開啟部署面板。

  2. 在「資源 ID」下方,選取要部署的模型變體。

  3. 找出要部署的模型變體,然後按一下「編輯設定」,並在「機器規格」下方選取 vLLM TPU 選項進行部署。

  4. 按一下面板底部的「Deploy」(部署),即可開始部署程序。 端點準備就緒時,您會收到電子郵件通知。

使用 Colab Enterprise 筆記本

如要彈性自訂,可以使用 Colab Enterprise 筆記本範例,透過 Vertex AI SDK for Python,以 vLLM TPU 部署 Vertex AI 端點。

  1. 在 Colab Enterprise 中開啟 vLLM TPU 筆記本

  2. 執行筆記本,使用 vLLM TPU 部署模型,並將預測要求傳送至端點。

申請 Cloud TPU 配額

在 Model Garden 中,預設配額為 europe-west4 地區的 16 個 Cloud TPU v6e 晶片。這項配額適用於一鍵部署和 Colab Enterprise 筆記本部署作業。如果預設配額為 0,或想要求更多配額,請參閱「要求調整配額」。