Esta página se ha traducido con Cloud Translation API.

Desplegar una aplicación de IA basada en agentes en GKE con Agent Development Kit (ADK) y un LLM autohospedado

En este tutorial se muestra cómo desplegar y gestionar aplicaciones de IA/ML de agentes en contenedores mediante Google Kubernetes Engine (GKE). Si combinas el kit de desarrollo de agentes (ADK) de Google con un modelo de lenguaje extenso (LLM) autohospedado, como Llama 3.1, servido por vLLM, puedes poner en marcha agentes de IA de forma eficiente y a gran escala, al tiempo que mantienes el control total de la pila del modelo. En este tutorial se explica el proceso completo para llevar un agente basado en Python desde el desarrollo hasta el despliegue en producción en un clúster de Autopilot de GKE con aceleración de GPU.

Este tutorial está dirigido a ingenieros de aprendizaje automático, desarrolladores y arquitectos de Cloud que estén interesados en usar las funciones de orquestación de contenedores de Kubernetes para servir aplicaciones de IA y aprendizaje automático de agentes. Para obtener más información sobre los roles habituales y las tareas de ejemplo a las que hacemos referencia en el contenido, consulta Roles y tareas habituales de los usuarios de GKE Enterprise. Google Cloud

Antes de empezar, asegúrate de que conoces lo siguiente:

Fondo

En esta sección se describen las tecnologías clave que se usan en este tutorial.

Agent Development Kit (ADK)

Agent Development Kit (ADK) es un framework flexible y modular para desarrollar e implementar agentes de IA. Aunque está optimizado para Gemini y el ecosistema de Google, el ADK no requiere que uses un modelo o una implementación específicos, y se ha diseñado para que sea compatible con otros frameworks. ADK se ha diseñado para que el desarrollo de agentes se parezca más al desarrollo de software, de modo que los desarrolladores puedan crear, implementar y orquestar más fácilmente arquitecturas de agentes que van desde tareas básicas hasta flujos de trabajo complejos.

Para obtener más información, consulta la documentación del ADK.

Servicio de Kubernetes gestionado de GKE

Google Cloud ofrece una amplia gama de servicios, incluido GKE, que es ideal para desplegar y gestionar cargas de trabajo de IA y aprendizaje automático. GKE es un servicio de Kubernetes gestionado que simplifica el despliegue, el escalado y la gestión de aplicaciones en contenedores. GKE proporciona la infraestructura necesaria, incluidos recursos escalables, computación distribuida y redes eficientes, para gestionar las demandas de computación de los LLMs.

Para obtener más información sobre los conceptos clave de Kubernetes, consulta Empezar a aprender sobre Kubernetes. Para obtener más información sobre GKE y cómo te ayuda a escalar, automatizar y gestionar Kubernetes, consulta la descripción general de GKE.

vLLM

vLLM es un framework de servicio de LLMs de código abierto muy optimizado que puede aumentar el rendimiento del servicio en GPUs. Incluye funciones como las siguientes:

Implementación optimizada de Transformer con PagedAttention.
Agrupación continua para mejorar el rendimiento general del servicio.
Paralelismo de tensores y servicio distribuido en varias GPUs.

Para obtener más información, consulta la documentación de vLLM.

Preparar el entorno

En este tutorial se usa Cloud Shell para gestionar los recursos alojados en Google Cloud. Cloud Shell viene preinstalado con el software que necesitas para este tutorial, como kubectl, terraform y Google Cloud CLI.

Para configurar tu entorno con Cloud Shell, sigue estos pasos:

En la Google Cloud consola, inicia una sesión de Cloud Shell y haz clic en Activar Cloud Shell. Esta acción inicia una sesión en un panel de consola. Google Cloud
Define las variables de entorno predeterminadas:
```
gcloud config set project PROJECT_ID
export GOOGLE_CLOUD_REGION=REGION
export PROJECT_ID=PROJECT_ID
```
Sustituye los siguientes valores:
- PROJECT_ID: tu Google Cloud ID de proyecto.
- REGION: la Google Cloud región (por ejemplo, us-east4) para aprovisionar tu clúster de GKE, Artifact Registry y otros recursos regionales. Asegúrate de especificar una región que admita GPUs L4 e instancias de tipo de máquina G2. Para comprobar la disponibilidad de las regiones, consulta las regiones y zonas de las GPUs en la documentación de Compute Engine.

Clonar el proyecto de ejemplo

En el terminal de Cloud Shell, clona el repositorio de código de ejemplo del tutorial:
```
git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples.git
```

Ve al directorio del tutorial:

cd kubernetes-engine-samples/ai-ml/adk-vllm

Crear y configurar Google Cloud recursos

Para desplegar tu agente, primero debes aprovisionar los recursos Google Cloud necesarios. Puedes crear el clúster de GKE y el repositorio de Artifact Registry con gcloud CLI o Terraform.

gcloud

En esta sección se proporcionan comandos de la CLI de gcloud para configurar tu clúster de GKE y Artifact Registry.

Crea un clúster de GKE: puedes desplegar tu aplicación basada en agentes en contenedores en un clúster Autopilot o Estándar de GKE. Usa un clúster Autopilot para disfrutar de una experiencia de Kubernetes totalmente gestionada. Para elegir el modo de funcionamiento de GKE que mejor se adapte a tus cargas de trabajo, consulta Acerca de los modos de funcionamiento de GKE.
Autopilot
En Cloud Shell, ejecuta el siguiente comando:
```
gcloud container clusters create-auto CLUSTER_NAME \
    --location=$GOOGLE_CLOUD_REGION
```
Sustituye CLUSTER_NAME por el nombre de tu clúster de GKE.

Con Autopilot, GKE aprovisiona automáticamente los nodos en función de las solicitudes de recursos de tu carga de trabajo. La GPU necesaria para el LLM se solicita en el deploy-llm.yaml manifiesto mediante un nodeSelector.

Para añadir una nodeSelector solicitud de la nvidia-l4 GPU, sigue estos pasos:
1. Abre kubernetes-engine-samples/ai-ml/adk-vllm/deploy-llm/deploy-llm.yaml en un editor.
2. Añade lo siguiente a nodeSelector en spec.template.spec:
  nodeSelector: cloud.google.com/gke-accelerator: nvidia-l4
Estándar
1. En Cloud Shell, crea un clúster Standard ejecutando el siguiente comando:
  gcloud container clusters create CLUSTER_NAME \ --location=$GOOGLE_CLOUD_REGION
  Sustituye CLUSTER_NAME por el nombre de tu clúster de GKE.
2. Crea un grupo de nodos con GPU para tu clúster ejecutando el siguiente comando:
  gcloud container node-pools create gpu-node-pool \ --cluster=CLUSTER_NAME \ --location=$GOOGLE_CLOUD_REGION \ --machine-type=g2-standard-8 \ --accelerator=type=nvidia-l4,count=1 \ --enable-gvnic
  El archivo deploy-llm.yaml especifica una GPU nvidia-l4, que está disponible en la serie de máquinas G2. Para obtener más información sobre este tipo de máquina, consulta Tipos de máquinas con GPU en la documentación de Compute Engine.
Crea un repositorio de Artifact Registry: crea un repositorio de Artifact Registry para almacenar y gestionar de forma segura la imagen de contenedor Docker de tu agente.
```
gcloud artifacts repositories create REPO_NAME \
    --repository-format=docker \
    --location=$GOOGLE_CLOUD_REGION
```
Sustituye REPO_NAME por el nombre del repositorio de Artifact Registry que quieras usar (por ejemplo, adk-repo).
Obtener la URL del repositorio: para verificar la ruta completa a tu repositorio, ejecuta este comando. Usarás este formato para etiquetar tu imagen Docker cuando compiles la imagen del agente.
```
gcloud artifacts repositories describe REPO_NAME \
    --location $GOOGLE_CLOUD_REGION
```

Terraform

En esta sección se describe cómo usar la configuración de Terraform incluida en el repositorio de ejemplo para aprovisionar tus recursos de Google Cloud automáticamente.

Ve al directorio de Terraform: el directorio \terraform contiene todos los archivos de configuración necesarios para crear el clúster de GKE y otros recursos obligatorios.
```
cd terraform
```
Crea un archivo de variables de Terraform: copia el archivo de variables de ejemplo (example_vars.tfvars) para crear tu propio archivo vars.tfvars.
```
cp example_vars.tfvars vars.tfvars
```
Abre el archivo vars.tfvars en un editor y sustituye los valores de marcador de posición por tu configuración específica. Como mínimo, debes sustituir PROJECT_ID por el Google Cloud ID de tu proyectoCLUSTER_NAME y por el nombre de tu clúster de GKE.
Inicializa Terraform: para descargar los complementos de proveedor necesarios para Google Cloud, ejecuta este comando.
```
terraform init
```
Revisa el plan de ejecución: este comando muestra los cambios que Terraform hará en la infraestructura.
```
terraform plan -var-file=vars.tfvars
```
Aplica la configuración: para crear los recursos en tu Google Cloud proyecto, ejecuta el plan de Terraform. Confirma la acción con yes cuando se te solicite.
```
terraform apply -var-file=vars.tfvars
```

Después de ejecutar estos comandos, Terraform aprovisiona tu clúster de GKE y tu repositorio de Artifact Registry, y configura los roles de gestión de identidades y accesos y las cuentas de servicio necesarios, incluida la federación de identidades de carga de trabajo para GKE.

Para obtener más información sobre cómo usar Terraform, consulta Aprovisionar recursos de GKE con Terraform.

Configurar `kubectl` para que se comunique con tu clúster

Para configurar kubectl de forma que se comunique con tu clúster, ejecuta el siguiente comando:

gcloud container clusters get-credentials CLUSTER_NAME \
    --location=${GOOGLE_CLOUD_REGION}

Sustituye CLUSTER_NAME por el nombre de tu clúster de GKE.

Crear la imagen del agente

Una vez que hayas creado la infraestructura con la CLI de gcloud o Terraform, sigue estos pasos para crear tu aplicación de agente.

Concede el rol de gestión de identidades y accesos necesario para Cloud Build: el servicio de Cloud Build requiere permisos para enviar la imagen de contenedor del agente a Artifact Registry. Asigna el rol roles/artifactregistry.writer a la cuenta de servicio predeterminada de Compute Engine, que usa Cloud Build.
1. Crea el correo de la cuenta de servicio predeterminada de Compute Engine:
```
export PROJECT_NUMBER=$(gcloud projects describe $PROJECT_ID --format="value(projectNumber)")
export COMPUTE_SA_EMAIL=${PROJECT_NUMBER}-compute@developer.gserviceaccount.com
```
2. Asigna el rol roles/artifactregistry.writer a la cuenta de servicio:
```
gcloud projects add-iam-policy-binding $PROJECT_ID \
    --member=serviceAccount:${COMPUTE_SA_EMAIL} \
    --role=roles/artifactregistry.writer
```
Compila y envía la imagen del contenedor del agente: desde el directorio raíz del proyecto (adk/llama/vllm), compila tu imagen de Docker y envíala a tu Artifact Registry ejecutando estos comandos.
```
export IMAGE_URL="${GOOGLE_CLOUD_REGION}-docker.pkg.dev/${PROJECT_ID}/REPO_NAME/adk-agent:latest"
gcloud builds submit --tag $IMAGE_URL
```
Verifica que la imagen se haya enviado: una vez que se haya completado correctamente el proceso de compilación, comprueba que la imagen de contenedor de tu agente se haya enviado a Artifact Registry. Para ello, enumera las imágenes de tu repositorio.
```
gcloud artifacts docker images list ${GOOGLE_CLOUD_REGION}-docker.pkg.dev/${PROJECT_ID}/REPO_NAME
```
Debería ver un resultado que muestre la imagen que acaba de enviar y etiquetar como latest.

Desplegar el modelo

Después de configurar tu clúster de GKE y crear la imagen del agente, el siguiente paso es desplegar el modelo Llama 3.1 autohosted en tu clúster. Para ello, despliega un servidor de inferencia de vLLM preconfigurado que extrae el modelo de Hugging Face y lo sirve internamente en el clúster.

Crea un secreto de Kubernetes para las credenciales de Hugging Face: para permitir que el clúster de GKE descargue el modelo Llama 3.1 protegido, debes proporcionar tu token de Hugging Face como secreto de Kubernetes. El manifiesto deploy-llm.yaml está configurado para usar este secreto con fines de autenticación.
```
kubectl create secret generic hf-secret \
    --from-literal=hf-token-secret=HUGGING_FACE_TOKEN
```
Sustituye HUGGING_FACE_TOKEN por tu token.
Ver el archivo de manifiesto: en el directorio raíz del proyecto (adk/llama/vllm), vaya al directorio /deploy-llm que contiene el archivo de manifiesto de la implementación del modelo.
```
cd deploy-llm
```
Aplica el manifiesto: ejecuta el siguiente comando para aplicar el manifiesto deploy-llm.yaml a tu clúster.
```
kubectl apply -f deploy-llm.yaml
```
El comando crea tres recursos de Kubernetes:
- Una implementación que ejecuta el servidor vLLM, configurado para usar el modelo meta-llama/Llama-3.1-8B-Instruct.
- Un servicio llamado vllm-llama3-service que expone el servidor vLLM en una dirección IP de clúster interna, lo que permite que el agente del ADK se comunique con él.
- Un ConfigMap que contiene una plantilla de chat de Jinja que requiere el modelo Llama 3.1.
Verifica el despliegue del modelo: el servidor vLLM extrae los archivos del modelo de Hugging Face. Este proceso puede tardar varios minutos. Puedes monitorizar el estado del pod para asegurarte de que está listo.
1. Espera a que la implementación esté disponible.
```
kubectl wait --for=condition=available --timeout=600s deployment/vllm-llama3-deployment
```
2. Consulta los registros del pod en ejecución para confirmar que el servidor se ha iniciado correctamente.
```
export LLM_POD=$(kubectl get pods -l app=vllm-llama3 -o jsonpath='{.items[0].metadata.name}')
kubectl logs -f $LLM_POD
```
  La implementación estará lista cuando veas un resultado de registro similar al siguiente, que indica que el servidor LLM se ha iniciado y que las rutas de la API están disponibles:
```
INFO 07-16 14:15:16 api_server.py:129] Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)
```
3. Envía una solicitud directamente al servidor del modelo para confirmar que el LLM está listo. Para ello, abre un nuevo terminal de Cloud Shell y ejecuta el siguiente comando para reenviar el vllm-llama3-service a tu máquina local:
```
kubectl port-forward service/vllm-llama3-service 8000:8000
```
4. En otra terminal, envía una solicitud de ejemplo al endpoint de la API del modelo mediante curl. Por ejemplo:
```
curl -X POST http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-3.1-8B-Instruct",
    "prompt": "Hello!",
    "max_tokens": 10
  }'
```
  Si el comando devuelve una respuesta JSON correcta, tu LLM estará listo. Ahora puedes finalizar el proceso de reenvío de puertos volviendo a la ventana de su terminal y pulsando Ctrl+C. Después, puedes implementar el agente.

Desplegar la aplicación del agente

El siguiente paso es implementar la aplicación de agente basada en ADK.

Ve al directorio /deploy-agent: desde el directorio raíz de tu proyecto (adk/llama/vllm), ve al directorio /deploy-agent que contiene el código fuente y el manifiesto de implementación del agente.
```
cd ../deploy-agent
```
Actualiza el archivo de manifiesto de la implementación del agente:
1. El archivo de manifiesto de deploy-agent.yamlejemplo contiene un marcador de posición para el ID de tu proyecto en la URL de la imagen de contenedor. Debes sustituir el marcador de posición por el ID de tu proyecto Google Cloud .
```
image: us-central1-docker.pkg.dev/PROJECT_ID/adk-repo/adk-agent:latest
```
  Para realizar esta sustitución, puedes ejecutar el siguiente comando:
```
sed -i "s/<PROJECT_ID>/$PROJECT_ID/g" deploy-agent.yaml
```
2. Asegúrate de que la ruta readinessProbe esté configurada como / en lugar de /dev-ui. Para realizar esta sustitución, puedes ejecutar el siguiente comando:
```
sed -i "s|path: /dev-ui/|path: /|g" deploy-agent.yaml
```
Aplica el manifiesto: ejecuta el siguiente comando para aplicar el manifiesto deploy-agent.yaml a tu clúster.
```
kubectl apply -f deploy-agent.yaml
```
Este comando crea dos recursos de Kubernetes:
- Un Deployment llamado adk-agent que ejecuta la imagen de contenedor de tu agente personalizado.
- Un servicio llamado adk-agent de tipo NodePort que expone la aplicación del agente para que se pueda acceder a ella con fines de prueba.
Verifica la implementación del agente: comprueba el estado del pod para asegurarte de que se está ejecutando correctamente.
1. Espera a que la implementación esté disponible:
```
kubectl wait --for=condition=available --timeout=300s deployment/adk-agent
```
2. Consulta los registros del pod del agente en ejecución:
```
export AGENT_POD=$(kubectl get pods -l app=adk-agent -o jsonpath='{.items[0].metadata.name}')
kubectl logs -f $AGENT_POD
```

El despliegue se habrá realizado correctamente cuando veas un resultado de registro similar al siguiente, que indica que el servidor Uvicorn está en funcionamiento y listo para aceptar solicitudes:

INFO:     Uvicorn running on http://0.0.0.0:8001 (Press CTRL+C to quit)

Probar el agente desplegado

Una vez que hayas implementado correctamente el servidor vLLM y la aplicación del agente, puedes probar la funcionalidad integral interactuando con la interfaz de usuario web del agente.

Reenvía el servicio del agente a tu máquina local: el servicio adk-agent es de tipo NodePort, pero la forma más directa de acceder a él desde tu entorno de Cloud Shell es usar el comando kubectl port-forward. Crea un túnel seguro al pod del agente ejecutando este comando.
```
kubectl port-forward $AGENT_POD 8001:8001
```
Accede a la interfaz de usuario web del agente: en Cloud Shell, haz clic en el botón Vista previa web y selecciona Obtener vista previa en el puerto 8001. Se abrirá una nueva pestaña del navegador con la interfaz de chat del agente.
Interactúa con el agente: hazle una pregunta que invoque su herramienta get_weather. Por ejemplo:
```
What's the weather like in Tokyo?
```
El agente primero llamará al LLM para entender la intención e identificar la necesidad de usar la herramienta get_weather. A continuación, ejecutará la herramienta con "Tokio" como parámetro. Por último, usará el resultado de la herramienta para generar una respuesta. Deberías ver una respuesta similar a la siguiente:
```
  The weather in Tokyo is 25°C and sunny.
```
(Opcional) Verifica la llamada a la herramienta en los registros: puedes observar la interacción del agente con el LLM y la ejecución de la herramienta consultando los registros de los pods correspondientes.
1. Registros de Agent Pod: en un nuevo terminal, consulta los registros del pod adk-agent. Verás la llamada a la herramienta y su resultado.
```
kubectl logs -f $AGENT_POD
```
  El resultado muestra que se ha llamado a la herramienta y que se está procesando el resultado.
2. Registros de LLM Pod: consulta los registros del vllm-llama3-deployment Pod para ver la solicitud entrante del agente.
```
kubectl logs -f $LLM_POD
```
  En los registros se muestra la petición completa que ha enviado el agente al LLM, incluido el mensaje del sistema, tu consulta y la definición de la herramienta get_weather.

Cuando termines las pruebas, puedes finalizar el proceso port-forward volviendo a la ventana de su terminal y pulsando Ctrl+C.