HuggingFace proporciona modelos previamente entrenados, secuencias de comandos de ajuste fino y APIs de desarrollo que facilitan el proceso de creación y descubrimiento de LLM. Model Garden puede entregar modelos compatibles con inferencia de embedding de texto, inferencia de PyTorch regular e inferencia de generación de texto en HuggingFace.
Opciones de implementación para modelos de Hugging Face
Puedes implementar modelos compatibles de Hugging Face en Vertex AI o Google Kubernetes Engine (GKE). La opción de implementación que elijas puede depender del modelo que uses y del grado de control que desees sobre tus cargas de trabajo.
Implementa en Vertex AI
Vertex AI ofrece una plataforma administrada para compilar y escalar con rapidez proyectos de aprendizaje automático sin tener experiencia interna en MLOps. Puedes usar Vertex AI como la aplicación descendente que entrega los modelos de Hugging Face. Recomendamos usar Vertex AI si deseas funciones de MLOps de extremo a extremo, funciones de AA de valor agregado y una experiencia sin servidores para un desarrollo optimizado.
Para implementar un modelo de Hugging Face compatible en Vertex AI, ve a Model Garden.
Ve a la sección Modelos de código abierto en Hugging Face y haz clic en Mostrar más.
Busca y selecciona un modelo para implementar.
Opcional: En Entorno de implementación, selecciona Vertex AI.
Opcional: Especifica los detalles de la implementación.
Haz clic en Implementar.
Para comenzar, consulta los siguientes ejemplos:
- Algunos modelos tienen tarjetas de modelo detalladas, y Google verifica la configuración de implementación, como google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf, mistralai/Mistral-7B-v0.1, BAAI/bge-m3, intfloat/multilingual-e5-large-instruct, stabilityai/stable-diffusion-2-1 y HuggingFaceFW/fineweb-edu-classifier.
- Google verificó la configuración de implementación de algunos modelos, pero no tiene tarjetas de modelo detalladas, como NousResearch/Genstruct-7B.
- Algunos modelos tienen parámetros de configuración de implementación generados automáticamente, como ai4bharat/Airavata.
- Algunos modelos tienen parámetros de configuración de implementación generados automáticamente que se basan en metadatos del modelo, como algunos de los modelos más recientes en generación de texto, embedding de texto y generación de texto a imagen.
Implementa en GKE
Google Kubernetes Engine (GKE) es la solución de Google Cloud para Kubernetes administrado que proporciona escalabilidad, seguridad, resiliencia y rentabilidad. Recomendamos esta opción si tienes inversiones existentes en Kubernetes, tu organización tiene experiencia interna en MLOps o si necesitas un control detallado sobre cargas de trabajo de IA/AA complejas con requisitos únicos de seguridad, canalización de datos y administración de recursos.
Para implementar un modelo de Hugging Face compatible en GKE, ve a Model Garden.
Ve a la sección Modelos de código abierto en Hugging Face y haz clic en Mostrar más.
Busca y selecciona un modelo para implementar.
En Entorno de implementación, selecciona GKE.
Sigue las instrucciones de implementación.
Para comenzar, consulta los siguientes ejemplos:
- Algunos modelos tienen tarjetas de modelo detalladas y configuración de implementación verificada, como google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf y mistralai/Mistral-7B-v0.1).
- Algunos modelos tienen verificada la configuración de implementación, pero no tarjetas de modelo detalladas, como NousResearch/Genstruct-7B.