Este tutorial mostra como publicar um modelo de geração de imagens SDXL usando unidades de processamento tensor (TPUs) no Google Kubernetes Engine (GKE) com o MaxDiffusion. Neste tutorial, vai transferir o modelo do Hugging Face e implementá-lo num cluster Autopilot ou Standard usando um contentor que execute o MaxDiffusion.
Este guia é um bom ponto de partida se precisar do controlo detalhado, da personalização, da escalabilidade, da resiliência, da portabilidade e da rentabilidade do Kubernetes gerido ao implementar e publicar as suas cargas de trabalho de IA/ML. Se precisar de uma plataforma de IA gerida unificada para criar e apresentar rapidamente modelos de ML de forma rentável, recomendamos que experimente a nossa solução de implementação do Vertex AI.
Contexto
Ao publicar o SDXL com TPUs no GKE com o MaxDiffusion, pode criar uma solução de publicação robusta e pronta para produção com todas as vantagens do Kubernetes gerido, incluindo rentabilidade, escalabilidade e maior disponibilidade. Esta secção descreve as tecnologias principais usadas neste tutorial.
Stable Diffusion XL (SDXL)
O Stable Diffusion XL (SDXL) é um tipo de modelo de difusão latente (LDM) suportado pelo MaxDiffusion para inferência. Para a IA generativa, pode usar os MDAs para gerar imagens de alta qualidade a partir de descrições de texto. Os MDGs são úteis para aplicações como a pesquisa de imagens e a geração de legendas de imagens.
O SDXL suporta a inferência de anotações de fragmentação com um ou vários anfitriões. Isto permite que o SDXL seja preparado e executado em várias máquinas, o que pode melhorar a eficiência.
Para saber mais, consulte o repositório de modelos generativos da Stability AI e o artigo SDXL.
TPUs
As TPUs são circuitos integrados específicos da aplicação (ASICs) desenvolvidos pela Google e usados para acelerar a aprendizagem automática e os modelos de IA criados com frameworks como o TensorFlow, o PyTorch e o JAX.
Antes de usar as TPUs no GKE, recomendamos que conclua o seguinte percurso de aprendizagem:
- Saiba mais sobre a disponibilidade da versão atual da TPU com a arquitetura do sistema Cloud TPU.
- Saiba mais sobre as TPUs no GKE.
Este tutorial aborda a publicação do modelo SDXL. O GKE
implementa o modelo em nós da TPU v5e de anfitrião único com topologias de TPU configuradas
com base nos requisitos do modelo para publicar comandos com baixa latência. Neste guia, o modelo usa um chip TPU v5e com uma topologia 1x1
.
MaxDiffusion
O MaxDiffusion é uma coleção de implementações de referência, escritas em Python e Jax, de vários modelos de difusão latente que são executados em dispositivos XLA, incluindo TPUs e GPUs. O MaxDiffusion é um ponto de partida para projetos de difusão para investigação e produção.
Para saber mais, consulte o repositório MaxDiffusion.
Objetivos
Este tutorial destina-se a clientes de IA generativa que usam o JAX, utilizadores novos ou existentes do SDXL, e engenheiros de AA, engenheiros de MLOps (DevOps) ou administradores de plataformas que tenham interesse em usar capacidades de orquestração de contentores do Kubernetes para publicar MDIs.
Este tutorial abrange os seguintes passos:
- Crie um cluster do GKE Autopilot ou Standard com a topologia de TPU recomendada, com base nas caraterísticas do modelo.
- Crie uma imagem de contentor de inferência do SDXL.
- Implemente o servidor de inferência SDXL no GKE.
- Publicar uma interação com o modelo através de uma app Web.
Arquitetura
Esta secção descreve a arquitetura do GKE usada neste tutorial. A arquitetura consiste num cluster do GKE Autopilot ou Standard que aprovisiona as TPUs e aloja os componentes do MaxDiffusion. O GKE usa estes componentes para implementar e publicar os modelos.
O diagrama seguinte mostra os componentes desta arquitetura:
Esta arquitetura inclui os seguintes componentes:
- Um cluster regional do GKE Autopilot ou Standard.
- Um único conjunto de nós de fatia de TPU de anfitrião único que aloja o modelo SDXL na implementação do MaxDiffusion.
- O componente Service com um balanceador de carga do tipo
ClusterIP
. Este serviço distribui o tráfego de entrada por todas as réplicasMaxDiffusion HTTP
. - O servidor
WebApp HTTP
com um serviçoLoadBalancer
externo que distribui o tráfego de entrada e redireciona o tráfego de publicação de modelos para o serviçoClusterIP
.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the required API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the required API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/artifactregistry.admin
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Aceder ao IAM - Selecione o projeto.
- Clique em Conceder acesso.
-
No campo Novos responsáveis, introduza o identificador do utilizador. Normalmente, este é o endereço de email de uma Conta Google.
- Na lista Selecionar uma função, selecione uma função.
- Para conceder funções adicionais, clique em Adicionar outra função e adicione cada função adicional.
- Clique em Guardar.
- Verifique se tem quota suficiente para chips TPU v5e PodSlice Lite. Neste tutorial, vai usar instâncias a pedido.
Na Google Cloud consola, inicie uma sessão do Cloud Shell clicando em
Ativar Cloud Shell na Google Cloud consola. Esta ação inicia uma sessão no painel inferior da consola. Google Cloud
Defina as variáveis de ambiente predefinidas:
gcloud config set project PROJECT_ID gcloud config set billing/quota_project PROJECT_ID export PROJECT_ID=$(gcloud config get project) export CLUSTER_NAME=CLUSTER_NAME export REGION=REGION_NAME export ZONE=ZONE
Substitua os seguintes valores:
- PROJECT_ID: o seu Google Cloud ID do projeto.
- CLUSTER_NAME: o nome do seu cluster do GKE.
- REGION_NAME: a região onde o cluster do GKE, o contentor do Cloud Storage e os nós da TPU estão localizados. A região contém zonas onde os tipos de máquinas TPU v5e estão disponíveis (por exemplo,
us-west1
,us-west4
,us-central1
,us-east1
,us-east5
oueurope-west4
). - (Apenas para clusters padrão) ZONE: a zona onde os recursos de TPU estão disponíveis (por exemplo,
us-west4-a
). Para clusters do Autopilot, não precisa de especificar a zona, apenas a região.
Clone o repositório de exemplo e abra o diretório do tutorial:
git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples cd kubernetes-engine-samples/ai-ml/maxdiffusion-tpu WORK_DIR=$(pwd) gcloud artifacts repositories create gke-llm --repository-format=docker --location=$REGION gcloud auth configure-docker $REGION-docker.pkg.dev
No Cloud Shell, execute o seguinte comando:
gcloud container clusters create-auto ${CLUSTER_NAME} \ --project=${PROJECT_ID} \ --location=${REGION} \ --release-channel=rapid \ --cluster-version=1.29
O GKE cria um cluster do Autopilot com nós de CPU e TPU, conforme solicitado pelas cargas de trabalho implementadas.
Configure
kubectl
para comunicar com o cluster:gcloud container clusters get-credentials ${CLUSTER_NAME} --location=${REGION}
Crie um cluster padrão do GKE regional que use a Workload Identity Federation para o GKE.
gcloud container clusters create ${CLUSTER_NAME} \ --enable-ip-alias \ --machine-type=n2-standard-4 \ --num-nodes=2 \ --workload-pool=${PROJECT_ID}.svc.id.goog \ --location=${REGION}
A criação do cluster pode demorar vários minutos.
Execute o seguinte comando para criar um node pool para o cluster:
gcloud container node-pools create maxdiffusion-tpu-nodepool \ --cluster=${CLUSTER_NAME} \ --machine-type=ct5lp-hightpu-1t \ --num-nodes=1 \ --location=${REGION} \ --node-locations=${ZONE} \ --spot
O GKE cria um node pool de TPUs v5e com uma topologia
1x1
e um nó.Para criar pools de nós com topologias diferentes, saiba como planear a configuração da TPU. Certifique-se de que atualiza os valores de exemplo neste tutorial, como
cloud.google.com/gke-tpu-topology
egoogle.com/tpu
.Configure
kubectl
para comunicar com o cluster:gcloud container clusters get-credentials ${CLUSTER_NAME} --location=${REGION}
Abra o manifesto
build/server/cloudbuild.yaml
:Execute a compilação e crie a imagem do contentor de inferência.
cd $WORK_DIR/build/server gcloud builds submit . --region=$REGION
A saída contém o caminho da imagem do contentor.
Explore o
serve_sdxl_v5e.yaml
manifesto.Atualize o ID do projeto no manifesto.
cd $WORK_DIR perl -pi -e 's|PROJECT_ID|PROJECT_ID|g' serve_sdxl_v5e.yaml perl -pi -e 's|REGION|REGION_NAME|g' serve_sdxl_v5e.yaml
Aplique o manifesto:
kubectl apply -f serve_sdxl_v5e.yaml
O resultado é semelhante ao seguinte:
deployment.apps/max-diffusion-server created
Valide o estado do modelo:
kubectl get deploy --watch
O resultado é semelhante ao seguinte:
NAME READY UP-TO-DATE AVAILABLE AGE stable-diffusion-deployment 1/1 1 1 8m21s
Recupere o endereço
ClusterIP
:kubectl get service max-diffusion-server
O resultado contém um campo
ClusterIP
. Tome nota do valor CLUSTER-IP.Valide a implementação:
export ClusterIP=CLUSTER_IP kubectl run curl --image=curlimages/curl \ -it --rm --restart=Never \ -- "$ClusterIP:8000"
Substitua CLUSTER_IP pelo valor CLUSTER-IP que anotou anteriormente. O resultado é semelhante ao seguinte:
{"message":"Hello world! From FastAPI running on Uvicorn with Gunicorn."} pod "curl" deleted
Veja os registos da implementação:
kubectl logs -l app=max-diffusion-server
Quando a implementação terminar, o resultado é semelhante ao seguinte:
2024-06-12 15:45:45,459 [INFO] __main__: replicate params: 2024-06-12 15:45:46,175 [INFO] __main__: start initialized compiling 2024-06-12 15:45:46,175 [INFO] __main__: Compiling ... 2024-06-12 15:45:46,175 [INFO] __main__: aot compiling: 2024-06-12 15:45:46,176 [INFO] __main__: tokenize prompts:2024-06-12 15:48:49,093 [INFO] __main__: Compiled in 182.91802048683167 INFO: Started server process [1] INFO: Waiting for application startup. INFO: Application startup complete.
Explore o
build/webapp/cloudbuild.yaml
manifesto.Execute a compilação e crie a imagem do contentor do cliente no diretório
build/webapp
.cd $WORK_DIR/build/webapp gcloud builds submit . --region=$REGION
A saída contém o caminho da imagem do contentor.
Abra o manifesto
serve_sdxl_client.yaml
:Edite o ID do projeto no manifesto:
cd $WORK_DIR perl -pi -e 's|PROJECT_ID|PROJECT_ID|g' serve_sdxl_client.yaml perl -pi -e 's|ClusterIP|CLUSTER_IP|g' serve_sdxl_client.yaml perl -pi -e 's|REGION|REGION_NAME|g' serve_sdxl_client.yaml
Aplique o manifesto:
kubectl apply -f serve_sdxl_client.yaml
Recupere o endereço IP
LoadBalancer
:kubectl get service max-diffusion-client-service
O resultado contém um campo
LoadBalancer
. Tome nota do valor EXTERNAL-IP.Acesso ao seguinte URL a partir de um navegador de Internet:
http://EXTERNAL_IP:8080
Substitua EXTERNAL_IP pelo valor
EXTERNAL_IP
que anotou anteriormente.Interaja com o SDXL através da interface de chat. Adicione um comando e clique em Enviar. Por exemplo:
Create a detailed image of a fictional historical site, capturing its unique architecture and cultural significance
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
- Configure o tutorial com outras topologias de TPU. Para saber mais sobre outras topologias de TPU, consulte o artigo Planeie a configuração da TPU.
- Explore o código de exemplo do servidor de inferência MaxDiffusion no repositório de exemplo que clonou neste tutorial.
- Saiba mais acerca das TPUs no GKE.
- Explore o repositório do GitHub do JetStream.
- Explore o Vertex AI Model Garden.
Prepare o ambiente
Neste tutorial, vai usar o Cloud Shell para gerir recursos alojados no Google Cloud. O Cloud Shell vem pré-instalado com o software de que precisa para este tutorial, incluindo o
kubectl
e a CLI gcloud.Para configurar o seu ambiente com o Cloud Shell, siga estes passos:
Crie e configure Google Cloud recursos
Siga estas instruções para criar os recursos necessários.
Crie um cluster do GKE
Pode publicar SDXLs em TPUs num cluster do GKE Autopilot ou Standard. Recomendamos que use um cluster do Autopilot para uma experiência do Kubernetes totalmente gerida. Para escolher o modo de funcionamento do GKE mais adequado às suas cargas de trabalho, consulte o artigo Escolha um modo de funcionamento do GKE.
Piloto automático
Standard
Crie o contentor de inferência do SDXL
Siga estas instruções para criar uma imagem de contentor para o servidor de inferência SDXL.
Implemente o servidor de inferência SDXL
Nesta secção, implementa o servidor de inferência SDXL. Para implementar o servidor, este tutorial usa uma implementação do Kubernetes. Uma implementação é um objeto da API Kubernetes que lhe permite executar várias réplicas de pods distribuídas entre os nós num cluster.
Implemente o cliente da app Web
Nesta secção, implementa o cliente da app Web para publicar o modelo SDXL.
Interaja com o modelo através da página Web
O resultado é uma imagem gerada pelo modelo semelhante ao seguinte exemplo:
Limpar
Para evitar incorrer em custos na sua conta do Google Cloud pelos recursos usados neste tutorial, elimine o projeto que contém os recursos ou mantenha o projeto e elimine os recursos individuais.
Elimine o projeto
Elimine os recursos individuais
Manter o projeto e eliminar os recursos individuais, conforme descrito na secção seguinte. Execute os seguintes comandos e siga as instruções:
gcloud container clusters delete ${CLUSTER_NAME} --location=${REGION}
O que se segue?
-