Visão geral
Neste tutorial, mostramos como disponibilizar o Llama 3.1 405b usando unidades de processamento gráfico (GPUs) em vários nós no Google Kubernetes Engine (GKE), usando o framework de disponibilização vLLM e a API LeaderWorkerSet (LWS).
Este guia é um bom ponto de partida se você precisar do controle granular, da escalonabilidade, da resiliência, da portabilidade e da economia do Kubernetes gerenciado ao implantar e disponibilizar suas cargas de trabalho de IA/ML.
LeaderWorkerSet (LWS)
O LWS é uma API de implantação do Kubernetes que aborda padrões de implantação comuns de cargas de trabalho de inferência multinó de IA/ML. O LWS permite tratar vários pods como um grupo.
Disponibilidade de vários hosts com vLLM
Ao implantar modelos de linguagem excepcionalmente grandes que não cabem em um único nó de GPU, use vários nós de GPU para veicular o modelo. O vLLM oferece suporte ao paralelismo de tensor e ao paralelismo de pipeline para executar cargas de trabalho em GPUs.
O paralelismo de tensor divide as multiplicações de matriz na camada do transformador em várias GPUs. No entanto, essa estratégia exige uma rede rápida devido à comunicação necessária entre as GPUs, tornando-a menos adequada para executar cargas de trabalho em nós.
O paralelismo de pipeline divide o modelo por camada ou verticalmente. Essa estratégia não exige comunicação constante entre as GPUs, o que a torna uma opção melhor para executar modelos em vários nós.
Você pode usar as duas estratégias na veiculação multinó. Por exemplo, ao usar dois nós com 8 GPUs H100 cada, é possível usar o paralelismo de pipeline bidirecional para dividir o modelo entre os dois nós e o paralelismo de tensor de oito vias para dividir o modelo entre as oito GPUs em cada nó.
Objetivos
- Preparar um cluster do GKE Standard.
- Implantar o vLLM em vários nós no cluster.
- Usar o vLLM para exibir o modelo Llama3 405b por meio de
curl
.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the required API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the required API.
-
Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Acessar o IAM - Selecionar um projeto.
- Clique em CONCEDER ACESSO.
-
No campo Novos principais, insira seu identificador de usuário. Normalmente, é o endereço de e-mail de uma Conta do Google.
- Na lista Selecionar um papel, escolha um.
- Para conceder outros papéis, clique em Adicionar outro papel e adicione cada papel adicional.
- Clique em Salvar.
-
- Crie uma conta do Hugging Face caso ainda não tenha uma.
- Verifique se o projeto tem cota suficiente para GPUs. Para saber mais, consulte Sobre GPUs e Cotas de alocação.
Receber acesso ao modelo
Gerar um token de acesso
Se você ainda não tiver um, gere um novo token do Huggin' Face:
- Clique em Seu perfil > Configurações > Tokens de acesso.
- Selecione Novo token.
- Especifique um Nome de sua escolha e um Papel de pelo menos
Read
. - Selecione Gerar um token.
Prepare o ambiente
Neste tutorial, você usará o Cloud Shell para gerenciar recursos hospedados no
Google Cloud. O Cloud Shell vem pré-instalado com o software necessário
para este tutorial, incluindo
kubectl
e
gcloud CLI.
Para configurar o ambiente com o Cloud Shell, siga estas etapas:
No console do Google Cloud, inicie uma sessão do Cloud Shell clicando em Ativar o Cloud Shell no console do Google Cloud. Isso inicia uma sessão no painel inferior do console do Google Cloud.
Defina as variáveis de ambiente padrão:
gcloud config set project PROJECT_ID export PROJECT_ID=$(gcloud config get project) export CLUSTER_NAME=CLUSTER_NAME export ZONE=ZONE export HF_TOKEN=HUGGING_FACE_TOKEN
Substitua os seguintes valores:
- PROJECT_ID: é o ID do projeto do Google Cloud.
- CLUSTER_NAME: o nome do cluster do GKE.
- ZONE: uma zona compatível com H100s.
Criar um cluster do GKE
Crie um cluster do GKE Standard com dois nós de CPU:
gcloud container clusters create CLUSTER_NAME \
--project=PROJECT_ID \
--num-nodes=2 \
--location=ZONE \
--machine-type=e2-standard-16
Criar um pool de nós de GPU
Crie um pool de nós A3 com dois nós, cada um com oito H100s:
gcloud container node-pools create gpu-nodepool \
--location=ZONE \
--num-nodes=2 \
--machine-type=a3-highgpu-8g \
--accelerator=type=nvidia-h100-80gb,count=8,gpu-driver-version=LATEST \
--placement-type=COMPACT \
--cluster=CLUSTER_NAME
Configure kubectl
para se comunicar com o cluster:
gcloud container clusters get-credentials CLUSTER_NAME --location=ZONE
Criar um Secret do Kubernetes para as credenciais do Hugging Face
Crie um secret do Kubernetes que contenha o token do Hugging Face:
kubectl create secret generic hf-secret \
--from-literal=hf_api_token=${HF_TOKEN} \
--dry-run=client -o yaml | kubectl apply -f -
Instalar o LeaderWorkerSet
Para instalar o LWS, execute o seguinte comando:
VERSION=v0.4.0
kubectl apply --server-side -f https://github.com/kubernetes-sigs/lws/releases/download/$VERSION/manifests.yaml
Valide se o controlador LeaderWorkerSet está em execução no namespace lws-system
:
kubectl get pod -n lws-system
O resultado será assim:
NAME READY STATUS RESTARTS AGE
lws-controller-manager-5c4ff67cbd-9jsfc 2/2 Running 0 6d23h
Implantar o servidor de modelos do vLLM
Para implantar o servidor de modelo vLLM, siga estas etapas:
Inspecione o manifesto
vllm-llama3-405b-A3.yaml
.Aplique o manifesto executando o seguinte comando:
kubectl apply -f vllm-llama3-405b-A3.yaml
Conferir os registros do servidor de modelo em execução
kubectl logs vllm-0 -c vllm-leader
A saída será parecida com esta:
INFO 08-09 21:01:34 api_server.py:297] Route: /detokenize, Methods: POST INFO 08-09 21:01:34 api_server.py:297] Route: /v1/models, Methods: GET INFO 08-09 21:01:34 api_server.py:297] Route: /version, Methods: GET INFO 08-09 21:01:34 api_server.py:297] Route: /v1/chat/completions, Methods: POST INFO 08-09 21:01:34 api_server.py:297] Route: /v1/completions, Methods: POST INFO 08-09 21:01:34 api_server.py:297] Route: /v1/embeddings, Methods: POST INFO: Started server process [7428] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)
Disponibilizar o modelo
Execute o seguinte comando para configurar o encaminhamento de portas para o modelo
kubectl port-forward svc/vllm-leader 8080:8080
Interagir com o modelo usando curl
Em um novo terminal, envie uma solicitação para o servidor:
curl http://localhost:8080/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Meta-Llama-3.1-405B-Instruct",
"prompt": "San Francisco is a",
"max_tokens": 7,
"temperature": 0
}'
A saída será semelhante a esta:
{"id":"cmpl-0a2310f30ac3454aa7f2c5bb6a292e6c",
"object":"text_completion","created":1723238375,"model":"meta-llama/Meta-Llama-3.1-405B-Instruct","choices":[{"index":0,"text":" top destination for foodies, with","logprobs":null,"finish_reason":"length","stop_reason":null}],"usage":{"prompt_tokens":5,"total_tokens":12,"completion_tokens":7}}
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
Excluir os recursos implantados
Para evitar cobranças na sua conta do Google Cloud pelos recursos criados neste guia, execute o seguinte comando:
gcloud container clusters delete CLUSTER_NAME \
--location=ZONE
A seguir
- Saiba mais sobre GPUs no GKE.
- Conheça o repositório do GitHub e a documentação do vLLM.
- Conheça o repositório do GitHub do LWS.