A HuggingFace fornece modelos pré-treinados, scripts de ajuste e APIs de desenvolvimento que facilitam o processo de criação e descoberta de LLMs. O Model Garden pode oferecer Inferência de embedding de texto, Inferência de Pytorch regular e modelos compatíveis com a Inferência de geração de texto no HuggingFace.
Opções de implantação para modelos do Hugging Face
É possível implantar modelos do Hugging Face com suporte na Vertex AI ou no Google Kubernetes Engine (GKE). A opção de implantação escolhida pode depender do modelo que você está usando e do controle que você quer ter sobre as cargas de trabalho.
Implantar na Vertex AI
A Vertex AI oferece uma plataforma gerenciada para criar e escalonar projetos de machine learning sem experiência interna em MLOps. É possível usar a Vertex AI como o aplicativo downstream que veicula os modelos de Hugging Face. Recomendamos o uso da Vertex AI se você quiser recursos de MLOps completos, recursos de ML com valor agregado e uma experiência sem servidor para um desenvolvimento simplificado.
Para implantar um modelo Hugging Face com suporte na Vertex AI, acesse o Model Garden.
Acesse a seção Modelos de código aberto no Hugging Face e clique em Mostrar mais.
Encontre e selecione um modelo para implantar.
Opcional: selecione Vertex AI como Ambiente de implantação.
Opcional: especifique os detalhes da implantação.
Clique em Implantar.
Para começar, consulte os exemplos a seguir:
- Alguns modelos têm cards de modelo detalhados e configurações de implantação verificadas, como google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf, mistralai/Mistral-7B-v0.1, BAAI/bge-m3, intfloat/multilingual-e5-large-instruct, stabilityai/stable-diffusion-2-1 e HuggingFaceFW/fineweb-edu-classifier.
- Alguns modelos têm as configurações de implantação verificadas pelo Google, mas não têm cards de modelo detalhados, como NousResearch/Genstruct-7B.
- Alguns modelos têm configurações de implantação geradas automaticamente, como o ai4bharat/Airavata.
- Alguns modelos têm configurações de implantação geradas automaticamente com base nos metadados, como alguns modelos de tendências mais recentes em geração de texto, embedding de texto e geração de texto para imagem.
Implantar no GKE
O Google Kubernetes Engine (GKE) é a solução do Google Cloud para o Kubernetes gerenciado que oferece escalonabilidade, segurança, resiliência e economia. Recomendamos essa opção se você tiver investimentos atuais no Kubernetes, se sua organização tiver experiência interna em MLOps ou se precisar de controle granular sobre cargas de trabalho complexas de IA/ML com segurança, pipeline de dados e recursos exclusivos de gerenciamento de projetos.
Para implantar um modelo Hugging Face com suporte no GKE, acesse o Model Garden.
Acesse a seção Modelos de código aberto no Hugging Face e clique em Mostrar mais.
Encontre e selecione um modelo para implantar.
Em Ambiente de implantação, selecione GKE.
Siga as instruções de implantação.
Para começar, consulte os exemplos a seguir:
- Alguns modelos têm cards de modelo detalhados e configurações de implantação verificadas, como google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf e mistralai/Mistral-7B-v0.1.
- Alguns modelos têm configurações de implantação verificadas, mas nenhum cartão de modelo detalhado, como NousResearch/Genstruct-7B.