このチュートリアルでは、Ray Operator アドオンと vLLM サービング フレームワークを使用して、Google Kubernetes Engine(GKE)で Tensor Processing Unit(TPU)を使用して大規模言語モデル(LLM)を提供する方法について説明します。
このチュートリアルでは、次のように TPU v5e または TPU Trillium(v6e)で LLM モデルを提供できます。
- 単一ホストの TPU v5e で Llama 3 8B 命令。
- 単一ホストの TPU v5e で Mistral 7B instruct v0.3。
- 単一ホスト TPU Trillium(v6e)での Llama 3.1 70B。
このガイドは、生成 AI をご利用のお客様、GKE の新規または既存のユーザー、ML エンジニア、MLOps(DevOps)エンジニア、プラットフォーム管理者で、Kubernetes コンテナ オーケストレーション機能を使用して、vLLM を使用して TPU で Ray を使用してモデルを提供することに関心のある方を対象としています。
背景
このセクションでは、このガイドで使用されている重要なテクノロジーについて説明します。
GKE マネージド Kubernetes サービス
Google Cloud には、AI/ML ワークロードのデプロイと管理に適した GKE など、幅広いサービスが用意されています。GKE は、コンテナ化されたアプリケーションのデプロイ、スケーリング、管理を簡素化するマネージド Kubernetes サービスです。GKE は、LLM の計算需要を処理するために必要なインフラストラクチャ(スケーラブルなリソース、分散コンピューティング、効率的なネットワーキングなど)を提供します。
Kubernetes の主なコンセプトについて詳しくは、Kubernetes の学習を開始するをご覧ください。GKE の詳細と、GKE が Kubernetes のスケーリング、自動化、管理にどのように役立つかについては、GKE の概要をご覧ください。
Ray オペレーター
GKE の Ray Operator アドオンは、ML ワークロードのサービング、トレーニング、ファインチューニングを行うエンドツーエンドの AI/ML プラットフォームを提供します。このチュートリアルでは、Ray のフレームワークである Ray Serve を使用して、Hugging Face の一般的な LLM を提供します。
TPU
TPU は、Google が独自に開発した特定用途向け集積回路(ASIC)であり、TensorFlow、PyTorch、JAX などのフレームワークを使用して構築された ML モデルと AI モデルを高速化するために使用されます。
このチュートリアルでは、低レイテンシでプロンプトをサービングするための各モデルの要件に基づいて構成された TPU トポロジを使用して、TPU v5e ノードまたは TPU Trillium(v6e)ノードで LLM モデルをサービングする方法について説明します。
vLLM
vLLM は、TPU のサービング スループットを向上させることができる、高度に最適化されたオープンソースの LLM サービング フレームワークであり、次のような機能を備えています。
- PagedAttention による Transformer の実装の最適化
- サービング スループットを全体的に向上させる連続的なバッチ処理
- 複数の GPU でのテンソル並列処理と分散サービング
詳細については、vLLM のドキュメントをご覧ください。
目標
このチュートリアルでは、次の手順について説明します。
- TPU ノードプールを含む GKE クラスタを作成します。
- 単一ホストの TPU スライスを使用して RayCluster カスタム リソースをデプロイします。GKE は、RayCluster カスタム リソースを Kubernetes Pod としてデプロイします。
- LLM を提供する。
- モデルを操作する。
必要に応じて、Ray Serve フレームワークでサポートされている次のモデル提供リソースと手法を構成できます。
- RayService カスタム リソースをデプロイします。
- モデル構成で複数のモデルを作成する。
始める前に
作業を始める前に、次のことを確認してください。
- Google Kubernetes Engine API を有効にする。 Google Kubernetes Engine API の有効化
- このタスクに Google Cloud CLI を使用する場合は、gcloud CLI をインストールして初期化する。すでに gcloud CLI をインストールしている場合は、
gcloud components update
を実行して最新のバージョンを取得する。
- Hugging Face アカウントを作成します(まだ作成していない場合)。
- Hugging Face トークンがあることを確認します。
- 使用する Hugging Face モデルにアクセスできることを確認します。通常、このアクセス権は、契約に署名し、Hugging Face モデルページでモデル所有者にアクセスをリクエストすることで取得できます。
環境を準備する
Google Cloud 単一ホスト TPU v5e または単一ホスト TPU Trillium(v6e)に十分な割り当てがプロジェクトにあることを確認します。割り当てを管理するには、TPU の割り当てをご覧ください。
Google Cloud コンソールで、Cloud Shell インスタンスを起動します。
Cloud Shell を開くサンプル リポジトリのクローンを作成します。
git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples.git cd kubernetes-engine-samples
作業ディレクトリに移動します。
cd ai-ml/gke-ray/rayserve/llm
GKE クラスタの作成にデフォルトの環境変数を設定します。
Llama-3-8B-Instruct
export PROJECT_ID=$(gcloud config get project) export PROJECT_NUMBER=$(gcloud projects describe ${PROJECT_ID} --format="value(projectNumber)") export CLUSTER_NAME=vllm-tpu export COMPUTE_REGION=REGION export COMPUTE_ZONE=ZONE export HF_TOKEN=HUGGING_FACE_TOKEN export GSBUCKET=vllm-tpu-bucket export KSA_NAME=vllm-sa export NAMESPACE=default export MODEL_ID="meta-llama/Meta-Llama-3-8B-Instruct" export VLLM_IMAGE=docker.io/vllm/vllm-tpu:866fa4550d572f4ff3521ccf503e0df2e76591a1 export SERVICE_NAME=vllm-tpu-head-svc
次のように置き換えます。
HUGGING_FACE_TOKEN
: Hugging Face アクセス トークン。REGION
: TPU 割り当てがあるリージョン。使用する TPU バージョンがこのリージョンで使用可能であることを確認します。詳細については、GKE での TPU の可用性をご覧ください。ZONE
: 使用可能な TPU 割り当てがあるゾーン。VLLM_IMAGE
: vLLM TPU イメージ。公開docker.io/vllm/vllm-tpu:866fa4550d572f4ff3521ccf503e0df2e76591a1
イメージを使用するか、独自の TPU イメージをビルドできます。
Mistral-7B
export PROJECT_ID=$(gcloud config get project) export PROJECT_NUMBER=$(gcloud projects describe ${PROJECT_ID} --format="value(projectNumber)") export CLUSTER_NAME=vllm-tpu export COMPUTE_REGION=REGION export COMPUTE_ZONE=ZONE export HF_TOKEN=HUGGING_FACE_TOKEN export GSBUCKET=vllm-tpu-bucket export KSA_NAME=vllm-sa export NAMESPACE=default export MODEL_ID="mistralai/Mistral-7B-Instruct-v0.3" export TOKENIZER_MODE=mistral export VLLM_IMAGE=docker.io/vllm/vllm-tpu:866fa4550d572f4ff3521ccf503e0df2e76591a1 export SERVICE_NAME=vllm-tpu-head-svc
次のように置き換えます。
HUGGING_FACE_TOKEN
: Hugging Face アクセス トークン。REGION
: TPU 割り当てがあるリージョン。使用する TPU バージョンがこのリージョンで利用可能であることを確認します。詳細については、GKE での TPU の可用性をご覧ください。ZONE
: 使用可能な TPU 割り当てがあるゾーン。VLLM_IMAGE
: vLLM TPU イメージ。公開docker.io/vllm/vllm-tpu:866fa4550d572f4ff3521ccf503e0df2e76591a1
イメージを使用するか、独自の TPU イメージをビルドできます。
Llama 3.1 70B
export PROJECT_ID=$(gcloud config get project) export PROJECT_NUMBER=$(gcloud projects describe ${PROJECT_ID} --format="value(projectNumber)") export CLUSTER_NAME=vllm-tpu export COMPUTE_REGION=REGION export COMPUTE_ZONE=ZONE export HF_TOKEN=HUGGING_FACE_TOKEN export GSBUCKET=vllm-tpu-bucket export KSA_NAME=vllm-sa export NAMESPACE=default export MODEL_ID="meta-llama/Llama-3.1-70B" export MAX_MODEL_LEN=8192 export VLLM_IMAGE=docker.io/vllm/vllm-tpu:866fa4550d572f4ff3521ccf503e0df2e76591a1 export SERVICE_NAME=vllm-tpu-head-svc
次のように置き換えます。
HUGGING_FACE_TOKEN
: Hugging Face アクセス トークン。REGION
: TPU 割り当てがあるリージョン。使用する TPU バージョンがこのリージョンで利用可能であることを確認します。詳細については、GKE での TPU の可用性をご覧ください。ZONE
: 使用可能な TPU 割り当てがあるゾーン。VLLM_IMAGE
: vLLM TPU イメージ。公開docker.io/vllm/vllm-tpu:866fa4550d572f4ff3521ccf503e0df2e76591a1
イメージを使用するか、独自の TPU イメージをビルドできます。
vLLM コンテナ イメージを pull します。
docker pull ${VLLM_IMAGE}
クラスタの作成
Ray Operator アドオンを使用して、GKE Autopilot クラスタまたは Standard クラスタで Ray を使用して TPU で LLM を提供できます。
フルマネージドの Kubernetes エクスペリエンスを実現するには、Autopilot クラスタを使用します。ワークロードに最適な GKE の運用モードを選択するには、GKE の運用モードを選択するをご覧ください。
Cloud Shell を使用して、Autopilot クラスタまたは Standard クラスタを作成します。
Autopilot
Ray Operator アドオンを有効にして GKE Autopilot クラスタを作成します。
gcloud container clusters create-auto ${CLUSTER_NAME} \ --enable-ray-operator \ --release-channel=rapid \ --location=${COMPUTE_REGION}
Standard
Ray Operator アドオンを有効にして Standard クラスタを作成します。
gcloud container clusters create ${CLUSTER_NAME} \ --release-channel=rapid \ --location=${COMPUTE_ZONE} \ --workload-pool=${PROJECT_ID}.svc.id.goog \ --machine-type="n1-standard-4" \ --addons=RayOperator,GcsFuseCsiDriver
単一ホストの TPU スライス ノードプールを作成します。
Llama-3-8B-Instruct
gcloud container node-pools create tpu-1 \ --location=${COMPUTE_ZONE} \ --cluster=${CLUSTER_NAME} \ --machine-type=ct5lp-hightpu-8t \ --num-nodes=1
GKE は、
ct5lp-hightpu-8t
マシンタイプを持つ TPU v5e ノードプールを作成します。Mistral-7B
gcloud container node-pools create tpu-1 \ --location=${COMPUTE_ZONE} \ --cluster=${CLUSTER_NAME} \ --machine-type=ct5lp-hightpu-8t \ --num-nodes=1
GKE は、
ct5lp-hightpu-8t
マシンタイプを持つ TPU v5e ノードプールを作成します。Llama 3.1 70B
gcloud container node-pools create tpu-1 \ --location=${COMPUTE_ZONE} \ --cluster=${CLUSTER_NAME} \ --machine-type=ct6e-standard-8t \ --num-nodes=1
GKE は、
ct6e-standard-8t
マシンタイプを持つ TPU v6e ノードプールを作成します。
クラスタと通信するように kubectl を設定する
クラスタと通信するように kubectl を構成するには、次のコマンドを実行します。
Autopilot
gcloud container clusters get-credentials ${CLUSTER_NAME} \
--location=${COMPUTE_REGION}
Standard
gcloud container clusters get-credentials ${CLUSTER_NAME} \
--location=${COMPUTE_ZONE}
Hugging Face の認証情報用の Kubernetes Secret を作成する
Hugging Face トークンを含む Kubernetes Secret を作成するには、次のコマンドを実行します。
kubectl create secret generic hf-secret \
--from-literal=hf_api_token=${HF_TOKEN} \
--dry-run=client -o yaml | kubectl --namespace ${NAMESPACE} apply -f -
Cloud Storage バケットを作成する
vLLM デプロイの起動時間を短縮し、ノードあたりに必要なディスク容量を最小限に抑えるには、Cloud Storage FUSE CSI ドライバを使用して、ダウンロードしたモデルとコンパイル キャッシュを Ray ノードにマウントします。
Cloud Shell で、次のコマンドを実行します。
gcloud storage buckets create gs://${GSBUCKET} \
--uniform-bucket-level-access
このコマンドは、Hugging Face からダウンロードしたモデルファイルを保存する Cloud Storage バケットを作成します。
バケットにアクセスする Kubernetes ServiceAccount を設定する
Kubernetes ServiceAccount を作成します。
kubectl create serviceaccount ${KSA_NAME} \ --namespace ${NAMESPACE}
Kubernetes ServiceAccount に Cloud Storage バケットに対する読み取り / 書き込みアクセス権を付与します。
gcloud storage buckets add-iam-policy-binding gs://${GSBUCKET} \ --member "principal://iam.googleapis.com/projects/${PROJECT_NUMBER}/locations/global/workloadIdentityPools/${PROJECT_ID}.svc.id.goog/subject/ns/${NAMESPACE}/sa/${KSA_NAME}" \ --role "roles/storage.objectUser"
GKE は、LLM 用に次のリソースを作成します。
- ダウンロードしたモデルとコンパイル キャッシュを保存する Cloud Storage バケット。Cloud Storage FUSE CSI ドライバがバケットのコンテンツを読み取ります。
- ファイル キャッシュが有効になっているボリュームと、Cloud Storage FUSE の並列ダウンロード機能。
ベスト プラクティス: モデル コンテンツ(重みファイルなど)の予想サイズに応じて、
tmpfs
またはHyperdisk / Persistent Disk
を基盤とするファイル キャッシュを使用します。このチュートリアルでは、RAM を基盤とする Cloud Storage FUSE ファイル キャッシュを使用します。
RayCluster カスタム リソースをデプロイする
RayCluster カスタム リソースをデプロイします。通常、これは 1 つのシステム Pod と複数のワーカー Pod で構成されます。
Llama-3-8B-Instruct
Llama 3 8B 命令チューニング済みモデルをデプロイする RayCluster カスタム リソースを作成します。手順は次のとおりです。
ray-cluster.tpu-v5e-singlehost.yaml
マニフェストを調べます。次のようにマニフェストを適用します。
envsubst < tpu/ray-cluster.tpu-v5e-singlehost.yaml | kubectl --namespace ${NAMESPACE} apply -f -
envsubst
コマンドは、マニフェスト内の環境変数を置き換えます。
GKE は、2x4
トポロジに TPU v5e 単一ホストを含む workergroup
を使用して RayCluster カスタム リソースを作成します。
Mistral-7B
Mistral-7B モデルをデプロイする RayCluster カスタム リソースを作成するには、次の操作を行います。
ray-cluster.tpu-v5e-singlehost.yaml
マニフェストを調べます。次のようにマニフェストを適用します。
envsubst < tpu/ray-cluster.tpu-v5e-singlehost.yaml | kubectl --namespace ${NAMESPACE} apply -f -
envsubst
コマンドは、マニフェスト内の環境変数を置き換えます。
GKE は、2x4
トポロジに TPU v5e 単一ホストを含む workergroup
を使用して RayCluster カスタム リソースを作成します。
Llama 3.1 70B
Llama 3.1 70B モデルをデプロイする RayCluster カスタム リソースを作成します。手順は次のとおりです。
ray-cluster.tpu-v6e-singlehost.yaml
マニフェストを調べます。次のようにマニフェストを適用します。
envsubst < tpu/ray-cluster.tpu-v6e-singlehost.yaml | kubectl --namespace ${NAMESPACE} apply -f -
envsubst
コマンドは、マニフェスト内の環境変数を置き換えます。
GKE は、2x4
トポロジに TPU v6e 単一ホストを含む workergroup
を使用して RayCluster カスタム リソースを作成します。
RayCluster カスタム リソースに接続する
RayCluster カスタム リソースが作成されたら、RayCluster リソースに接続してモデルの提供を開始できます。
GKE が RayCluster Service を作成したことを確認します。
kubectl --namespace ${NAMESPACE} get raycluster/vllm-tpu \ --output wide
出力は次のようになります。
NAME DESIRED WORKERS AVAILABLE WORKERS CPUS MEMORY GPUS TPUS STATUS AGE HEAD POD IP HEAD SERVICE IP vllm-tpu 1 1 ### ###G 0 8 ready ### ###.###.###.### ###.###.###.###
STATUS
がready
になり、HEAD POD IP
列とHEAD SERVICE IP
列に IP アドレスが表示されるまで待ちます。Ray ヘッドへの
port-forwarding
セッションを確立します。pkill -f "kubectl .* port-forward .* 8265:8265" pkill -f "kubectl .* port-forward .* 10001:10001" kubectl --namespace ${NAMESPACE} port-forward service/${SERVICE_NAME} 8265:8265 2>&1 >/dev/null & kubectl --namespace ${NAMESPACE} port-forward service/${SERVICE_NAME} 10001:10001 2>&1 >/dev/null &
Ray クライアントがリモートの RayCluster カスタム リソースに接続できることを確認します。
docker run --net=host -it ${VLLM_IMAGE} \ ray list nodes --address http://localhost:8265
出力は次のようになります。
======== List: YYYY-MM-DD HH:MM:SS.NNNNNN ======== Stats: ------------------------------ Total: 2 Table: ------------------------------ NODE_ID NODE_IP IS_HEAD_NODE STATE STATE_MESSAGE NODE_NAME RESOURCES_TOTAL LABELS 0 XXXXXXXXXX ###.###.###.### True ALIVE ###.###.###.### CPU: 2.0 ray.io/node_id: XXXXXXXXXX memory: #.### GiB node:###.###.###.###: 1.0 node:__internal_head__: 1.0 object_store_memory: #.### GiB 1 XXXXXXXXXX ###.###.###.### False ALIVE ###.###.###.### CPU: 100.0 ray.io/node_id: XXXXXXXXXX TPU: 8.0 TPU-v#e-8-head: 1.0 accelerator_type:TPU-V#E: 1.0 memory: ###.### GiB node:###.###.###.###: 1.0 object_store_memory: ##.### GiB tpu-group-0: 1.0
vLLM を使用してモデルをデプロイする
vLLM を使用してモデルをデプロイします。
Llama-3-8B-Instruct
docker run \
--env MODEL_ID=${MODEL_ID} \
--net=host \
--volume=./tpu:/workspace/vllm/tpu \
-it \
${VLLM_IMAGE} \
serve run serve_tpu:model \
--address=ray://localhost:10001 \
--app-dir=./tpu \
--runtime-env-json='{"env_vars": {"MODEL_ID": "meta-llama/Meta-Llama-3-8B-Instruct"}}'
Mistral-7B
docker run \
--env MODEL_ID=${MODEL_ID} \
--env TOKENIZER_MODE=${TOKENIZER_MODE} \
--net=host \
--volume=./tpu:/workspace/vllm/tpu \
-it \
${VLLM_IMAGE} \
serve run serve_tpu:model \
--address=ray://localhost:10001 \
--app-dir=./tpu \
--runtime-env-json='{"env_vars": {"MODEL_ID": "mistralai/Mistral-7B-Instruct-v0.3", "TOKENIZER_MODE": "mistral"}}'
Llama 3.1 70B
docker run \
--env MAX_MODEL_LEN=${MAX_MODEL_LEN} \
--env MODEL_ID=${MODEL_ID} \
--net=host \
--volume=./tpu:/workspace/vllm/tpu \
-it \
${VLLM_IMAGE} \
serve run serve_tpu:model \
--address=ray://localhost:10001 \
--app-dir=./tpu \
--runtime-env-json='{"env_vars": {"MAX_MODEL_LEN": "8192", "MODEL_ID": "meta-llama/Meta-Llama-3.1-70B"}}'
Ray ダッシュボードを表示する
Ray Serve デプロイとその関連ログは、Ray ダッシュボードで確認できます。
- Cloud Shell タスクバーの右上にある [
ウェブでプレビュー] ボタンをクリックします。
- [ポートを変更] をクリックし、ポート番号を
8265
に設定します。 - [変更してプレビュー] をクリックします。
- Ray ダッシュボードで、[Serve] タブをクリックします。
Serve デプロイのステータスが HEALTHY
になると、モデルは入力の処理を開始できます。
モデルをサービングする
このガイドでは、プロンプトからテキスト コンテンツを作成できる手法であるテキスト生成をサポートするモデルについて説明します。
Llama-3-8B-Instruct
サーバーへのポート転送を設定します。
pkill -f "kubectl .* port-forward .* 8000:8000" kubectl --namespace ${NAMESPACE} port-forward service/${SERVICE_NAME} 8000:8000 2>&1 >/dev/null &
Serve エンドポイントにプロンプトを送信します。
curl -X POST http://localhost:8000/v1/generate -H "Content-Type: application/json" -d '{"prompt": "What are the top 5 most popular programming languages? Be brief.", "max_tokens": 1024}'
Mistral-7B
サーバーへのポート転送を設定します。
pkill -f "kubectl .* port-forward .* 8000:8000" kubectl --namespace ${NAMESPACE} port-forward service/${SERVICE_NAME} 8000:8000 2>&1 >/dev/null &
Serve エンドポイントにプロンプトを送信します。
curl -X POST http://localhost:8000/v1/generate -H "Content-Type: application/json" -d '{"prompt": "What are the top 5 most popular programming languages? Be brief.", "max_tokens": 1024}'
Llama 3.1 70B
サーバーへのポート転送を設定します。
pkill -f "kubectl .* port-forward .* 8000:8000" kubectl --namespace ${NAMESPACE} port-forward service/${SERVICE_NAME} 8000:8000 2>&1 >/dev/null &
Serve エンドポイントにプロンプトを送信します。
curl -X POST http://localhost:8000/v1/generate -H "Content-Type: application/json" -d '{"prompt": "What are the top 5 most popular programming languages? Be brief.", "max_tokens": 1024}'
追加構成
必要に応じて、Ray Serve フレームワークでサポートされている次のモデル提供リソースと手法を構成できます。
- RayService カスタム リソースをデプロイします。このチュートリアルの前の手順では、RayService ではなく RayCluster を使用します。本番環境には RayService をおすすめします。
- モデル構成で複数のモデルを作成する。Ray Serve フレームワークでサポートされているモデルの多重化とモデルの構成を構成します。モデル構成を使用すると、複数の LLM の入力と出力を連結し、モデルを単一のアプリケーションとしてスケーリングできます。
- 独自の TPU イメージをビルドしてデプロイする。Docker イメージの内容をきめ細かく制御する必要がある場合は、このオプションをおすすめします。
RayService をデプロイする
このチュートリアルのモデルは、RayService カスタム リソースを使用してデプロイできます。
このチュートリアルで作成した RayCluster カスタム リソースを削除します。
kubectl --namespace ${NAMESPACE} delete raycluster/vllm-tpu
RayService カスタム リソースを作成してモデルをデプロイします。
Llama-3-8B-Instruct
ray-service.tpu-v5e-singlehost.yaml
マニフェストを調べます。次のようにマニフェストを適用します。
envsubst < tpu/ray-service.tpu-v5e-singlehost.yaml | kubectl --namespace ${NAMESPACE} apply -f -
envsubst
コマンドは、マニフェスト内の環境変数を置き換えます。GKE は、
2x4
トポロジに TPU v5e 単一ホストを含むworkergroup
を使用して RayService を作成します。
Mistral-7B
ray-service.tpu-v5e-singlehost.yaml
マニフェストを調べます。次のようにマニフェストを適用します。
envsubst < tpu/ray-service.tpu-v5e-singlehost.yaml | kubectl --namespace ${NAMESPACE} apply -f -
envsubst
コマンドは、マニフェスト内の環境変数を置き換えます。GKE は、
2x4
トポロジに TPU v5e 単一ホストを含むworkergroup
を使用して RayService を作成します。
Llama 3.1 70B
ray-service.tpu-v6e-singlehost.yaml
マニフェストを調べます。次のようにマニフェストを適用します。
envsubst < tpu/ray-service.tpu-v6e-singlehost.yaml | kubectl --namespace ${NAMESPACE} apply -f -
envsubst
コマンドは、マニフェスト内の環境変数を置き換えます。
GKE は、Ray Serve アプリケーションがデプロイされ、後続の RayService カスタム リソースが作成される RayCluster カスタム リソースを作成します。
RayService リソースのステータスを確認します。
kubectl --namespace ${NAMESPACE} get rayservices/vllm-tpu
Service のステータスが
Running
に変わるまで待ちます。NAME SERVICE STATUS NUM SERVE ENDPOINTS vllm-tpu Running 1
RayCluster ヘッドサービスの名前を取得します。
SERVICE_NAME=$(kubectl --namespace=${NAMESPACE} get rayservices/vllm-tpu \ --template={{.status.activeServiceStatus.rayClusterStatus.head.serviceName}})
Ray ヘッドへの
port-forwarding
セッションを確立して、Ray ダッシュボードを表示します。pkill -f "kubectl .* port-forward .* 8265:8265" kubectl --namespace ${NAMESPACE} port-forward service/${SERVICE_NAME} 8265:8265 2>&1 >/dev/null &
Ray ダッシュボードを表示します。
RayService リソースをクリーンアップします。
kubectl --namespace ${NAMESPACE} delete rayservice/vllm-tpu
モデル構成で複数のモデルを作成する
モデルの構成は、複数のモデルを 1 つのアプリケーションに作成するための手法です。
このセクションでは、GKE クラスタを使用して、Llama 3 8B IT モデルと Gemma 7B IT モデルを 1 つのアプリケーションにコンポーズします。
- 最初のモデルは、プロンプトで尋ねられた質問に回答するアシスタント モデルです。
- 2 番目のモデルは、要約モデルです。アシスタント モデルの出力は、要約モデルの入力に連結されます。最終的な結果は、アシスタント モデルからのレスポンスの要約版です。
環境を設定します。
export ASSIST_MODEL_ID=meta-llama/Meta-Llama-3-8B-Instruct export SUMMARIZER_MODEL_ID=google/gemma-7b-it
Standard クラスタの場合は、単一ホストの TPU スライス ノードプールをさらに作成します。
gcloud container node-pools create tpu-2 \ --location=${COMPUTE_ZONE} \ --cluster=${CLUSTER_NAME} \ --machine-type=MACHINE_TYPE \ --num-nodes=1
MACHINE_TYPE
は、次のいずれかのマシンタイプに置き換えます。ct5lp-hightpu-8t
: TPU v5e をプロビジョニングします。ct6e-standard-8t
: TPU v6e をプロビジョニングします。
Autopilot クラスタは、必要なノードを自動的にプロビジョニングします。
使用する TPU のバージョンに基づいて RayService リソースをデプロイします。
TPU v5e
ray-service.tpu-v5e-singlehost.yaml
マニフェストを調べます。次のようにマニフェストを適用します。
envsubst < model-composition/ray-service.tpu-v5e-singlehost.yaml | kubectl --namespace ${NAMESPACE} apply -f -
TPU v6e
ray-service.tpu-v6e-singlehost.yaml
マニフェストを調べます。次のようにマニフェストを適用します。
envsubst < model-composition/ray-service.tpu-v6e-singlehost.yaml | kubectl --namespace ${NAMESPACE} apply -f -
RayService リソースのステータスが
Running
に変わるまで待ちます。kubectl --namespace ${NAMESPACE} get rayservice/vllm-tpu
出力は次のようになります。
NAME SERVICE STATUS NUM SERVE ENDPOINTS vllm-tpu Running 2
この出力では、
RUNNING
ステータスは RayService リソースの準備ができていることを示します。GKE が Ray Serve アプリケーションの Service を作成したことを確認します。
kubectl --namespace ${NAMESPACE} get service/vllm-tpu-serve-svc
出力は次のようになります。
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE vllm-tpu-serve-svc ClusterIP ###.###.###.### <none> 8000/TCP ###
Ray ヘッドへの
port-forwarding
セッションを確立します。pkill -f "kubectl .* port-forward .* 8000:8000" kubectl --namespace ${NAMESPACE} port-forward service/vllm-tpu-serve-svc 8000:8000 2>&1 >/dev/null &
モデルにリクエストを送信します。
curl -X POST http://localhost:8000/ -H "Content-Type: application/json" -d '{"prompt": "What is the most popular programming language for machine learning and why?", "max_tokens": 1000}'
出力は次のようになります。
{"text": [" used in various data science projects, including building machine learning models, preprocessing data, and visualizing results.\n\nSure, here is a single sentence summarizing the text:\n\nPython is the most popular programming language for machine learning and is widely used in data science projects, encompassing model building, data preprocessing, and visualization."]}
TPU イメージをビルドしてデプロイする
このチュートリアルでは、vLLM のホストされている TPU イメージを使用します。vLLM は、TPU の依存関係を含む必要な PyTorch XLA イメージ上に vLLM をビルドする Dockerfile.tpu
イメージを提供します。ただし、独自の TPU イメージをビルドしてデプロイし、Docker イメージの内容をきめ細かく制御することもできます。
このガイドのコンテナ イメージを保存する Docker リポジトリを作成します。
gcloud artifacts repositories create vllm-tpu --repository-format=docker --location=${COMPUTE_REGION} && \ gcloud auth configure-docker ${COMPUTE_REGION}-docker.pkg.dev
vLLM リポジトリのクローンを作成します。
git clone https://github.com/vllm-project/vllm.git cd vllm
イメージをビルドします。
docker build -f Dockerfile.tpu . -t vllm-tpu
TPU イメージに Artifact Registry 名をタグ付けします。
export VLLM_IMAGE=${COMPUTE_REGION}-docker.pkg.dev/${PROJECT_ID}/vllm-tpu/vllm-tpu:TAG docker tag vllm-tpu ${VLLM_IMAGE}
TAG
は、定義するタグの名前に置き換えます。タグを指定しない場合、Docker はデフォルトの latest タグを適用します。イメージを Artifact Registry に push します。
docker push ${VLLM_IMAGE}
個々のリソースの削除
使用している既存のプロジェクトを削除しない場合は、リソースを個別に削除できます。
RayCluster カスタム リソースを削除します。
kubectl --namespace ${NAMESPACE} delete rayclusters vllm-tpu
Cloud Storage バケットを削除します。
gcloud storage rm -r gs://${GSBUCKET}
Artifact Registry リポジトリを削除します。
gcloud artifacts repositories delete vllm-tpu \ --location=${COMPUTE_REGION}
クラスタを削除します。
gcloud container clusters delete ${CLUSTER_NAME} \ --location=LOCATION
LOCATION
は、次のいずれかの環境変数に置き換えます。- Autopilot クラスタの場合は、
COMPUTE_REGION
を使用します。 - Standard クラスタの場合は、
COMPUTE_ZONE
を使用します。
- Autopilot クラスタの場合は、
プロジェクトの削除
チュートリアルを新しいプロジェクトにデプロイした後、そのプロジェクトが不要になった場合は、次の手順で削除します。 Google Cloud
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
次のステップ
- GKE プラットフォームのオーケストレーション機能を使用して、最適化された AI / ML ワークロードを実行する方法を確認する。
- GKE で Ray Serve を使用する方法については、GitHub のサンプルコードをご覧ください。
- Ray on GKE クラスタのログと指標を収集して表示するの手順に沿って、GKE で実行されている Ray クラスタの指標を収集して表示する方法を確認します。