このページは Cloud Translation API によって翻訳されました。

Cloud TPU で vLLM TPU を使用してオープンモデルをサービングする

vLLM TPU は、Cloud TPU ハードウェア用に最適化された、大規模言語モデル（LLM）用の高効率サービングフレームワークです。これは、tpu-inference によって実現されています。これは、JAX と Pytorch を単一の低減パスで統合する、表現力豊かで強力な新しいハードウェアプラグインです。

このフレームワークの詳細については、vLLM TPU のブログ投稿をご覧ください。

vLLM TPU は、ワンクリックデプロイとノートブックを通じて Model Garden で利用できます。

Model Garden を使ってみる

vLLM TPU サービングコンテナは Model Garden に統合されています。このサービングソリューションは、さまざまなモデルのワンクリックデプロイと Colab Enterprise ノートブックの例で利用できます。

ワンクリックデプロイを使用する

次のモデルのモデルカードを使用して、vLLM TPU を備えたカスタム Vertex AI エンドポイントをデプロイできます。

手順:

モデルカードのページ（google/gemma-3-27b-it など）に移動し、[モデルをデプロイ] をクリックしてデプロイパネルを開きます。
[リソース ID] で、デプロイするモデルバリアントを選択します。
デプロイするモデルバリアントで、[設定を編集] をクリックし、[マシン仕様] でデプロイ用の vLLM TPU オプションを選択します。
パネルの下部にある [デプロイ] をクリックして、デプロイプロセスを開始します。エンドポイントの準備が完了すると、メール通知が届きます。

Colab Enterprise ノートブックを使用する

柔軟性とカスタマイズのために、Colab Enterprise ノートブックの例を使用して、Vertex AI SDK for Python を使用して vLLM TPU で Vertex AI エンドポイントをデプロイできます。

Colab Enterprise で vLLM TPU ノートブックを開きます。
ノートブックを実行して、vLLM TPU を使用してモデルをデプロイし、予測リクエストをエンドポイントに送信します。

Cloud TPU の割り当てをリクエストする

Model Garden では、デフォルトの割り当ては europe-west4 リージョンの Cloud TPU v6e チップ 16 個です。この割り当ては、ワンクリックデプロイと Colab Enterprise ノートブックのデプロイに適用されます。デフォルトの割り当てが 0 の場合や、割り当ての増加をリクエストする場合は、割り当ての調整をリクエストするをご覧ください。

Cloud TPU で vLLM TPU を使用してオープンモデルをサービングする

Model Garden を使ってみる

ワンクリック デプロイを使用する

Colab Enterprise ノートブックを使用する

Cloud TPU の割り当てをリクエストする

ワンクリックデプロイを使用する