Esta página foi traduzida pela API Cloud Translation.

Publique um MDG com a TPU Trillium no GKE com o vLLM

Padrão Autopilot

Este tutorial mostra como publicar grandes modelos de linguagem (GMLs) usando unidades de processamento tensor (TPUs) no Google Kubernetes Engine (GKE) com a framework de publicação vLLM. Neste tutorial, vai publicar o Llama 3.1 70b, usar a TPU Trillium e configurar a escala automática de pods horizontal usando métricas do servidor vLLM.

Este documento é um bom ponto de partida se precisar do controlo detalhado, da escalabilidade, da resiliência, da portabilidade e da rentabilidade do Kubernetes gerido quando implementa e publica as suas cargas de trabalho de IA/ML.

Contexto

Ao usar a TPU Trillium no GKE, pode implementar uma solução de publicação robusta e pronta para produção com todas as vantagens do Kubernetes gerido, incluindo escalabilidade eficiente e maior disponibilidade. Esta secção descreve as principais tecnologias usadas neste guia.

TPU Trillium

As TPUs são circuitos integrados específicos da aplicação (ASICs) desenvolvidos pela Google. As TPUs são usadas para acelerar a aprendizagem automática e os modelos de IA criados com frameworks como o TensorFlow, o PyTorch e o JAX. Este tutorial usa a TPU Trillium, que é a TPU de sexta geração da Google.

Antes de usar as TPUs no GKE, recomendamos que conclua o seguinte percurso de aprendizagem:

Saiba mais sobre a arquitetura do sistema da TPU Trillium.
Saiba mais sobre as TPUs no GKE.

vLLM

O vLLM é uma framework de código aberto altamente otimizada para publicar GMLs. O vLLM pode aumentar a taxa de transferência de publicação em TPUs, com funcionalidades como as seguintes:

Implementação do transformador otimizada com PagedAttention.
Processamento em lote contínuo para melhorar o débito geral da publicação.
Paralelismo de tensores e publicação distribuída em várias UTPs.

Para saber mais, consulte a documentação do vLLM.

Nota: este tutorial centra-se na implementação do vLLM numa configuração de anfitrião único, o que é ideal para modelos que podem ser publicados a partir de uma única fatia de TPU, como o Llama 3.1 70b num tipo de máquina ct6e-standard-8t. É importante ter em atenção que as configurações com vários anfitriões não são suportadas quando usa o vLLM com TPUs no GKE. A falta de suporte para vários anfitriões limita a utilização do vLLM para publicar modelos extremamente grandes (por exemplo, mais de 400 mil milhões de parâmetros) que requerem a memória agregada e o cálculo de vários anfitriões. Para sistemas ou modelos de produção que requerem uma configuração com vários anfitriões, a solução recomendada e otimizada para o desempenho é usar o JetStream, o motor da Google para a inferência de TPUs. Para começar com uma implementação de vários anfitriões, consulte o artigo Inferência de JetStream MaxText na TPU v6e.

Cloud Storage FUSE

O Cloud Storage FUSE fornece acesso do seu cluster do GKE ao Cloud Storage para pesos de modelos que residem em contentores de armazenamento de objetos. Neste tutorial, o contentor do Cloud Storage criado vai estar inicialmente vazio. Quando o vLLM é iniciado, o GKE transfere o modelo do Hugging Face e coloca em cache os pesos no contentor do Cloud Storage. No reinício do pod ou no aumento da escala de implementação, os carregamentos de modelos subsequentes transferem dados em cache do contentor do Cloud Storage, tirando partido das transferências paralelas para um desempenho ideal.

Para saber mais, consulte a documentação do controlador CSI FUSE do Cloud Storage.

Objetivos

Este tutorial destina-se a engenheiros de MLOps ou DevOps, ou administradores de plataformas que queiram usar as capacidades de orquestração do GKE para publicar MDIs.

Este tutorial abrange os seguintes passos:

Crie um cluster do GKE com a topologia de TPU Trillium recomendada com base nas caraterísticas do modelo.
Implemente a framework vLLM num node pool no seu cluster.
Use a framework vLLM para publicar o Llama 3.1 70b através de um balanceador de carga.
Configure a escala automática horizontal de pods através das métricas do servidor vLLM.
Publique o modelo.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/iam.securityAdmin, roles/artifactregistry.writer, roles/container.clusterAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Aceder ao IAM
2. Selecione o projeto.
3. Clique em Conceder acesso.
4. No campo Novos responsáveis, introduza o identificador do utilizador. Normalmente, este é o endereço de email de uma Conta Google.
5. Na lista Selecionar uma função, selecione uma função.
6. Para conceder funções adicionais, clique em Adicionar outra função e adicione cada função adicional.
7. Clique em Guardar.

Publique um MDG com a TPU Trillium no GKE com o vLLM

Contexto

TPU Trillium

vLLM

Cloud Storage FUSE

Objetivos

Antes de começar

Check for the roles

Grant the roles

Prepare o ambiente

Aceda ao modelo

Gere um token de acesso

Inicie o Cloud Shell

Crie um cluster do GKE

Piloto automático

Standard

Configure o kubectl para comunicar com o seu cluster

Crie um segredo do Kubernetes para as credenciais do Hugging Face

Crie um contentor do Cloud Storage

Configure uma conta de serviço do Kubernetes para aceder ao contentor

Implemente o servidor de modelos vLLM

Publique o modelo

Configure o escalador automático personalizado

Crie carga no ponto final do vLLM

Verifique se o serviço gerido do Google Cloud para Prometheus introduz as métricas

Implemente a configuração do redimensionador automático horizontal de pods

Limpar

Elimine os recursos implementados

O que se segue?

Publique um MDG com a TPU Trillium no GKE com o vLLM Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Contexto

TPU Trillium

vLLM

Cloud Storage FUSE

Objetivos

Antes de começar

Check for the roles

Grant the roles

Prepare o ambiente

Aceda ao modelo

Gere um token de acesso

Inicie o Cloud Shell

Crie um cluster do GKE

Piloto automático

Standard

Configure o kubectl para comunicar com o seu cluster

Crie um segredo do Kubernetes para as credenciais do Hugging Face

Crie um contentor do Cloud Storage

Configure uma conta de serviço do Kubernetes para aceder ao contentor

Implemente o servidor de modelos vLLM

Publique o modelo

Configure o escalador automático personalizado

Crie carga no ponto final do vLLM

Verifique se o serviço gerido do Google Cloud para Prometheus introduz as métricas

Implemente a configuração do redimensionador automático horizontal de pods

Limpar

Elimine os recursos implementados

O que se segue?

Publique um MDG com a TPU Trillium no GKE com o vLLM