Esta página foi traduzida pela API Cloud Translation.

Publique um LLM com TPUs no GKE com o JetStream e o PyTorch

Autopilot Padrão

Este guia mostra como publicar um modelo de linguagem (conteúdo extenso) (MDI/CE) usando unidades de processamento tensor (TPUs) no Google Kubernetes Engine (GKE) com o JetStream através do PyTorch. Neste guia, transfere os pesos dos modelos para o Cloud Storage e implementa-os num cluster do GKE Autopilot ou Standard através de um contentor que executa o JetStream.

Se precisar da escalabilidade, da resiliência e da rentabilidade oferecidas pelas funcionalidades do Kubernetes ao implementar o seu modelo no JetStream, este guia é um bom ponto de partida.

Este guia destina-se a clientes de IA generativa que usam o PyTorch, utilizadores novos ou existentes do GKE, engenheiros de ML, engenheiros de MLOps (DevOps) ou administradores de plataformas que tenham interesse em usar capacidades de orquestração de contentores do Kubernetes para publicar LLMs.

Contexto

Ao publicar um MDG com TPUs no GKE com o JetStream, pode criar uma solução de publicação robusta e pronta para produção com todas as vantagens do Kubernetes gerido, incluindo rentabilidade, escalabilidade e maior disponibilidade. Esta secção descreve as tecnologias principais usadas neste tutorial.

Acerca das TPUs

As TPUs são circuitos integrados específicos da aplicação (ASICs) desenvolvidos pela Google e usados para acelerar a aprendizagem automática e os modelos de IA criados com frameworks como o TensorFlow, o PyTorch e o JAX.

Antes de usar as TPUs no GKE, recomendamos que conclua o seguinte percurso de aprendizagem:

Saiba mais sobre a disponibilidade da versão atual da TPU com a arquitetura do sistema Cloud TPU.
Saiba mais sobre as TPUs no GKE.

Este tutorial aborda a publicação de vários modelos de MDIs. O GKE implementa o modelo em nós TPUv5e de anfitrião único com topologias de TPU configuradas com base nos requisitos do modelo para publicar comandos com baixa latência.

Acerca do JetStream

O JetStream é uma framework de fornecimento de inferência de código aberto desenvolvida pela Google. O JetStream permite uma inferência de alto desempenho, com elevado débito e otimizada em função da memória em TPUs e GPUs. O JetStream oferece otimizações de desempenho avançadas, incluindo o processamento em lote contínuo, otimizações da cache KV e técnicas de quantização, para facilitar a implementação de LLMs. O JetStream permite a publicação de TPUs do PyTorch/XLA e JAX para alcançar um desempenho ótimo.

Criação de lotes contínua

O processamento em lote contínuo é uma técnica que agrupa dinamicamente os pedidos de inferência recebidos em lotes, reduzindo a latência e aumentando o débito.

Quantização da cache KV

A quantização da cache KV envolve a compressão da cache de chave-valor usada nos mecanismos de atenção, o que reduz os requisitos de memória.

Quantização de pesos Int8

A quantização de pesos Int8 reduz a precisão dos pesos do modelo de ponto flutuante de 32 bits para números inteiros de 8 bits, o que resulta num cálculo mais rápido e numa utilização de memória reduzida.

Para saber mais acerca destas otimizações, consulte os repositórios dos projetos JetStream PyTorch e JetStream MaxText.

Acerca do PyTorch

O PyTorch é um framework de aprendizagem automática de código aberto desenvolvido pela Meta e agora parte da Linux Foundation. O PyTorch oferece funcionalidades de alto nível, como o cálculo de tensores e redes neurais profundas.

Objetivos

Prepare um cluster do GKE Autopilot ou Standard com a topologia de TPU recomendada com base nas caraterísticas do modelo.
Implemente componentes do JetStream no GKE.
Obtenha e publique o seu modelo.
Publicar e interagir com o modelo publicado.

Arquitetura

Esta secção descreve a arquitetura do GKE usada neste tutorial. A arquitetura inclui um cluster do GKE Autopilot ou Standard que aprovisiona as TPUs e aloja os componentes do JetStream para implementar e publicar os modelos.

O diagrama seguinte mostra os componentes desta arquitetura:

Arquitetura do cluster do GKE com pools de nós da TPU de anfitrião único que contêm os componentes JetStream-PyTorch e HTTP JetStream.

Esta arquitetura inclui os seguintes componentes:

Um cluster regional do GKE Autopilot ou Standard.
Dois pools de nós de fatias de TPUs de anfitrião único que alojam a implementação do JetStream.
O componente Service distribui o tráfego de entrada por todas as réplicas JetStream HTTP.
JetStream HTTP é um servidor HTTP que aceita pedidos como um wrapper para o formato necessário do JetStream e envia-o para o cliente GRPC do JetStream.
O JetStream-PyTorch é um servidor JetStream que realiza inferências com processamento em lote contínuo.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/resourcemanager.projectIamAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Aceder ao IAM
2. Selecione o projeto.
3. Clique em Conceder acesso.
4. No campo Novos responsáveis, introduza o identificador do utilizador. Normalmente, este é o endereço de email de uma Conta Google.
5. Na lista Selecionar uma função, selecione uma função.
6. Para conceder funções adicionais, clique em Adicionar outra função e adicione cada função adicional.
7. Clique em Guardar.

Publique um LLM com TPUs no GKE com o JetStream e o PyTorch

Contexto

Acerca das TPUs

Acerca do JetStream

Acerca do PyTorch

Objetivos

Arquitetura

Antes de começar

Check for the roles

Grant the roles

Aceda ao modelo

Gemma 7B-it

Llama 3 8B

Prepare o ambiente

Crie e configure Google Cloud recursos

Crie um cluster do GKE

Piloto automático

Standard

Gere o seu token da CLI Hugging Face no Cloud Shell

Crie um segredo do Kubernetes para as credenciais do Hugging Face

Configure o acesso das suas cargas de trabalho através da federação de identidades de cargas de trabalho para o GKE

Implemente o JetStream

Gemma 7B-it

Llama 3 8B

Publique o modelo

Configure o encaminhamento de portas

Interaja com o modelo através do curl

Observe o desempenho do modelo

Resolver problemas

Limpar

Elimine os recursos implementados

O que se segue?

Publique um LLM com TPUs no GKE com o JetStream e o PyTorch Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Contexto

Acerca das TPUs

Acerca do JetStream

Acerca do PyTorch

Objetivos

Arquitetura

Antes de começar

Check for the roles

Grant the roles

Aceda ao modelo

Gemma 7B-it

Llama 3 8B

Prepare o ambiente

Crie e configure Google Cloud recursos

Crie um cluster do GKE

Piloto automático

Standard

Gere o seu token da CLI Hugging Face no Cloud Shell

Crie um segredo do Kubernetes para as credenciais do Hugging Face

Configure o acesso das suas cargas de trabalho através da federação de identidades de cargas de trabalho para o GKE

Implemente o JetStream

Gemma 7B-it

Llama 3 8B

Publique o modelo

Configure o encaminhamento de portas

Interaja com o modelo através do curl

Observe o desempenho do modelo

Resolver problemas

Limpar

Elimine os recursos implementados

O que se segue?

Publique um LLM com TPUs no GKE com o JetStream e o PyTorch