Cloud TPU で vLLM TPU を使用してオープンモデルをサービングする

vLLM TPU は、Cloud TPU ハードウェア用に最適化された、大規模言語モデル(LLM)用の高効率サービング フレームワークです。これは、tpu-inference によって実現されています。これは、JAXPytorch を単一の低減パスで統合する、表現力豊かで強力な新しいハードウェア プラグインです。

このフレームワークの詳細については、vLLM TPU のブログ投稿をご覧ください。

vLLM TPU は、ワンクリック デプロイとノートブックを通じて Model Garden で利用できます。

Model Garden を使ってみる

vLLM TPU サービング コンテナは Model Garden に統合されています。このサービング ソリューションは、さまざまなモデルのワンクリック デプロイと Colab Enterprise ノートブックの例で利用できます。

ワンクリック デプロイを使用する

次のモデルのモデルカードを使用して、vLLM TPU を備えたカスタム Vertex AI エンドポイントをデプロイできます。

手順:

  1. モデルカードのページ(google/gemma-3-27b-it など)に移動し、[モデルをデプロイ] をクリックしてデプロイ パネルを開きます。

  2. [リソース ID] で、デプロイするモデル バリアントを選択します。

  3. デプロイするモデル バリアントで、[設定を編集] をクリックし、[マシン仕様] でデプロイ用の vLLM TPU オプションを選択します。

  4. パネルの下部にある [デプロイ] をクリックして、デプロイ プロセスを開始します。エンドポイントの準備が完了すると、メール通知が届きます。

Colab Enterprise ノートブックを使用する

柔軟性とカスタマイズのために、Colab Enterprise ノートブックの例を使用して、Vertex AI SDK for Python を使用して vLLM TPU で Vertex AI エンドポイントをデプロイできます。

  1. Colab Enterprise で vLLM TPU ノートブックを開きます。

  2. ノートブックを実行して、vLLM TPU を使用してモデルをデプロイし、予測リクエストをエンドポイントに送信します。

Cloud TPU の割り当てをリクエストする

Model Garden では、デフォルトの割り当ては europe-west4 リージョンの Cloud TPU v6e チップ 16 個です。この割り当ては、ワンクリック デプロイと Colab Enterprise ノートブックのデプロイに適用されます。デフォルトの割り当てが 0 の場合や、割り当ての増加をリクエストする場合は、割り当ての調整をリクエストするをご覧ください。