Se usó la API de Cloud Translation para traducir esta página.

Implementa una aplicación de IA con agentes en GKE con el Kit de desarrollo de agentes (ADK) y Vertex AI

En esta guía, se muestra cómo implementar y administrar aplicaciones de IA/ML basadas en agentes y alojadas en contenedores con Google Kubernetes Engine (GKE). Si combinas el Kit de desarrollo de agentes (ADK) de Google con Vertex AI como proveedor de modelos de lenguaje grandes (LLM), puedes poner en funcionamiento agentes de IA de manera eficiente y a gran escala. En esta guía, se explica el proceso integral para llevar un agente basado en FastAPI y potenciado por Gemini 2.0 Flash desde el desarrollo hasta la implementación en producción en GKE.

Esta guía está dirigida a ingenieros de aprendizaje automático (AA), desarrolladores y arquitectos de nube interesados en usar las capacidades de organización de contenedores de Kubernetes para entregar aplicaciones de IA/ML basadas en agentes. Para obtener más información sobre los roles comunes y las tareas de ejemplo en el contenido de Google Cloud , consulta Roles y tareas comunes de los usuarios de GKE.

Antes de comenzar, asegúrate de conocer la siguiente información:

Fondo

En esta guía, se combinan varias tecnologías de Google para crear una plataforma escalable para la IA basada en agentes. GKE proporciona la orquestación de contenedores para el agente, que se compila con el ADK. Cuando se usa la API de Vertex AI para la inferencia de LLM, el clúster de GKE no requiere hardware de GPU especializado, ya que la infraestructura administrada de Google controla la inferencia.

Kit de desarrollo de agentes (ADK) de Google

El Kit de desarrollo de agentes (ADK) es un framework flexible y modular para desarrollar y, luego, implementar agentes de IA. Aunque está optimizado para Gemini y el ecosistema de Google, el ADK es independiente del modelo y de la implementación, y se creó para ser compatible con otros frameworks.

Para obtener más información, consulta la documentación del ADK.

Servicio de Kubernetes administrado por GKE

GKE es un servicio administrado de Kubernetes para implementar, escalar y administrar aplicaciones en contenedores. GKE proporciona la infraestructura necesaria, incluidos los recursos escalables, la computación distribuida y las redes eficientes, para controlar las demandas computacionales de los LLM.

Para obtener más información sobre los conceptos clave de Kubernetes, consulta Comienza a aprender sobre Kubernetes. Para obtener más información sobre GKE y cómo te ayuda a escalar, automatizar y administrar Kubernetes, consulta la Descripción general de GKE.

Vertex AI

Vertex AI es la plataforma unificada de AA de Google Cloud, que permite a los desarrolladores compilar, implementar y escalar modelos de IA/AA. Para las aplicaciones de IA basadas en agentes en GKE, Vertex AI proporciona herramientas y servicios esenciales, incluido el acceso a LLMs como Gemini 2.0 Flash, infraestructura administrada para el entrenamiento y la inferencia, y capacidades de MLOps para una administración eficiente del ciclo de vida.

Cuando se consumen LLMs a través de la API de Vertex AI, la inferencia del modelo se produce en la infraestructura administrada de Google, lo que reduce la necesidad de cuotas específicas de GPU o TPU en tu clúster de GKE.

Para obtener más información sobre Vertex AI para aplicaciones de IA basadas en agentes, consulta la documentación de Vertex AI.

Gemini 2.0 Flash

Gemini 2.0 Flash ofrece funciones de nueva generación y capacidades mejoradas diseñadas para cargas de trabajo basadas en agentes, como mayor velocidad, uso de herramientas integrado, generación multimodal y una ventana de contexto de 1 millón de tokens. Gemini 2.0 Flash mejora el modelo Flash anterior y ofrece una calidad mejorada a velocidades similares.

Para obtener información técnica sobre Gemini 2.0 Flash (como criterios de referencia de rendimiento, información sobre nuestros conjuntos de datos de entrenamiento, iniciativas de sostenibilidad, uso previsto y limitaciones, y nuestro enfoque sobre ética y seguridad), consulta la tarjeta del modelo de Gemini 2.0 Flash.

Prepare el entorno

En este instructivo, se usa Cloud Shell para administrar recursos alojados en Google Cloud. Cloud Shell viene preinstalado con el software que necesitas para este instructivo, incluidos kubectl, terraform y Google Cloud CLI.

Para configurar tu entorno con Cloud Shell, sigue estos pasos:

En la Google Cloud consola, inicia una sesión de Cloud Shell y haz clic en Activar Cloud Shell. Esta acción inicia una sesión en el panel inferior de la consola de Google Cloud .

Configura las variables de entorno predeterminadas:

gcloud config set project PROJECT_ID
export GOOGLE_CLOUD_LOCATION=REGION
export PROJECT_ID=PROJECT_ID
export GOOGLE_CLOUD_PROJECT=$PROJECT_ID
export WORKLOAD_POOL=$PROJECT_ID.svc.id.goog
export PROJECT_NUMBER=$(gcloud projects describe --format json $PROJECT_ID | jq -r ".projectNumber")

Reemplaza los siguientes valores:

PROJECT_ID: El Google Cloud ID del proyecto.
REGION: La Google Cloud región (por ejemplo, us-central1) para aprovisionar tu clúster de GKE, Artifact Registry y otros recursos regionales.

Clona el proyecto de ejemplo

Desde la terminal de Cloud Shell, clona el repositorio de código de muestra del instructivo:
```
git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples.git
```

Navega hacia el directorio del instructivo:

cd kubernetes-engine-samples/ai-ml/adk-vertex

Crea y configura recursos de Google Cloud

Para implementar tu agente en GKE, aprovisiona los recursosGoogle Cloud necesarios. Puedes implementar el agente con gcloud CLI para la ejecución directa desde la línea de comandos o con Terraform para la infraestructura como código.

gcloud

En esta sección, se proporcionan comandos de gcloud CLI para configurar tu clúster de GKE, Artifact Registry y Workload Identity Federation for GKE para una integración perfecta con Vertex AI. Asegúrate de haber configurado las variables de entorno como se describe en Prepara el entorno.

Crea un clúster de GKE: Puedes implementar tu aplicación basada en agentes alojada en contenedores en un clúster de GKE Autopilot o Standard. Usa un clúster de Autopilot para una experiencia de Kubernetes completamente administrada. Para elegir el modo de operación de GKE que mejor se adapte a tus cargas de trabajo, consulta Elige un modo de operación de GKE.
Autopilot
En Cloud Shell, ejecute el siguiente comando:
```
gcloud container clusters create-auto CLUSTER_NAME \
        --location=$GOOGLE_CLOUD_LOCATION \
        --project=$PROJECT_ID
```
Reemplaza CLUSTER_NAME por el nombre de tu clúster de GKE Autopilot.
Estándar
En Cloud Shell, ejecute el siguiente comando:
```
gcloud container clusters create CLUSTER_NAME \
    --location=$GOOGLE_CLOUD_LOCATION \
    --project=$PROJECT_ID \
    --release-channel=stable \
    --num-nodes=1 \
    --machine-type=e2-medium \
    --workload-pool=$PROJECT_ID.svc.id.goog
```
Reemplaza CLUSTER_NAME por el nombre de tu clúster Standard.
Crea un repositorio de Artifact Registry para tu contenedor de Docker: Crea un repositorio de Artifact Registry para almacenar y administrar de forma segura la imagen del contenedor de Docker de tu agente. Este registro privado ayuda a garantizar que tu aplicación esté disponible para implementarse en GKE y se integra con Cloud Build.
```
gcloud artifacts repositories create adk-repo \
    --repository-format=docker \
    --location=$GOOGLE_CLOUD_LOCATION \
    --project=$PROJECT_ID
```
Obtén la URL del repositorio: Ejecuta este comando para verificar la ruta completa a tu repositorio. Usarás este formato de ruta de acceso para etiquetar tu imagen de Docker en el siguiente paso.
```
gcloud artifacts repositories describe adk-repo \
    --location $GOOGLE_CLOUD_LOCATION \
    --project=$PROJECT_ID
```

Otorga a la cuenta de servicio predeterminada de Compute Engine los roles de IAM necesarios: De forma predeterminada, la cuenta de servicio predeterminada de Compute Engine no tiene permisos para enviar imágenes a Artifact Registry ni para ver objetos en Cloud Storage o registros. Otorga los roles necesarios para estas operaciones.

ROLES_TO_ASSIGN=(
    "roles/artifactregistry.writer"
    "roles/storage.objectViewer"
    "roles/logging.viewer"
)

for ROLE in "${ROLES_TO_ASSIGN[@]}"; do
    gcloud projects add-iam-policy-binding "${PROJECT_ID}" \
        --member="serviceAccount:${PROJECT_NUMBER}-compute@developer.gserviceaccount.com" \
        --role="${ROLE}"
done

Compila y envía la imagen del contenedor del agente: Ejecuta este comando para compilar tu imagen de Docker y enviarla a tu registro de Artifact Registry. Asegúrate de que el Dockerfile y el código de la aplicación estén dentro del directorio /app.
```
export IMAGE_URL="${GOOGLE_CLOUD_LOCATION}-docker.pkg.dev/${PROJECT_ID}/adk-repo/adk-agent:latest"

gcloud builds submit \
    --tag "$IMAGE_URL" \
    --project="$PROJECT_ID" \
    app
```

Verifica que se haya enviado la imagen:

gcloud artifacts docker images list \
    $GOOGLE_CLOUD_LOCATION-docker.pkg.dev/$PROJECT_ID/adk-repo/adk-agent \
    --project=$PROJECT_ID

Terraform

En esta sección, se describe cómo usar Terraform para aprovisionar tus recursos de Google Cloud. El repositorio de muestra que clonaste incluye los archivos de configuración de Terraform necesarios.

Inicializa Terraform: Navega al directorio terraform y, luego, inicializa Terraform.
```
terraform init
```
Revisa el plan de ejecución: Este comando muestra los cambios en la infraestructura que realizará Terraform.
```
terraform plan -var-file=default_env.tfvars
```
Aplica la configuración: Ejecuta el plan de Terraform para crear los recursos en tu proyecto de Google Cloud . Confirma con yes cuando se te solicite.
```
terraform apply -var-file=default_env.tfvars
```
Después de ejecutar estos comandos, Terraform aprovisiona tu clúster de GKE y tu repositorio de Artifact Registry, y configura los roles de IAM y las cuentas de servicio necesarios, incluida la federación de identidades para cargas de trabajo para GKE.

Si deseas obtener más información sobre el uso de Terraform, consulta Compatibilidad con Terraform para GKE.

Configura `kubectl` para comunicarse con tu clúster

Si no configuraste kubectl para comunicarse con tu clúster, ejecuta el siguiente comando:

gcloud container clusters get-credentials CLUSTER_NAME \
    --location=${GOOGLE_CLOUD_LOCATION}

Reemplaza CLUSTER_NAME por el nombre de tu clúster de GKE.

Configura la federación de identidades para cargas de trabajo para el acceso a GKE

Puedes omitir este paso si usas Terraform. Este proceso vincula una cuenta de servicio de Kubernetes (KSA) a una cuenta de servicio de IAM para otorgar de forma segura acceso a tu agente a los servicios de Google Cloud .

Crea una cuenta de servicio para acceder a Vertex AI:

gcloud iam service-accounts create vertex-sa \
    --project=$PROJECT_ID

Otorga a la cuenta de servicio el rol aiplatform.user. Esto permite que la cuenta de servicio interactúe con Vertex AI.

gcloud projects add-iam-policy-binding $PROJECT_ID \
    --member "serviceAccount:vertex-sa@$PROJECT_ID.iam.gserviceaccount.com" \
    --role "roles/aiplatform.user"

Crea una KSA en tu clúster. Asegúrate de seguir las instrucciones en Configura kubectl para comunicarse con tu clúster antes de ejecutar este comando.
```
kubectl create serviceaccount vertex-sa
```

Anota la KSA para vincularla a tu cuenta de servicio:

kubectl annotate serviceaccount vertex-sa \
    iam.gke.io/gcp-service-account=vertex-sa@$PROJECT_ID.iam.gserviceaccount.com

Otorga a tu cuenta de servicio permisos para actuar como usuario de la federación de identidades para cargas de trabajo de GKE para la KSA:

gcloud iam service-accounts add-iam-policy-binding vertex-sa@$PROJECT_ID.iam.gserviceaccount.com \
    --role roles/iam.workloadIdentityUser \
    --member "serviceAccount:$PROJECT_ID.svc.id.goog[default/vertex-sa]"

Implementa y configura la aplicación del agente

Después de configurar tus recursos de Google Cloud , prepara tu aplicación de agente para la implementación y configura su entorno de ejecución en GKE. Esto implica definir el código de tu agente, crear un Dockerfile para alojarlo en un contenedor y escribir un manifiesto de Kubernetes para implementarlo en tu clúster.

Comprende la estructura de la aplicación del agente: El directorio /app contiene los archivos principales de la aplicación del agente:
- main.py: Es el punto de entrada de la aplicación FastAPI, responsable de exponer la API del agente.
- agent.py: Contiene la lógica del agente del ADK, que define cómo usa Vertex AI y controla las solicitudes.
- __init__.py: Inicializa el paquete de Python.
- requirements.txt: Muestra todas las dependencias de Python para tu agente.
- Dockerfile: Define cómo se empaqueta tu aplicación en una imagen de Docker.

Crea el manifiesto de implementación del agente: En el directorio tutorials-and-examples/adk/vertex, crea el siguiente manifiesto como un archivo llamado agent-deployment.yaml:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: adk-agent-deployment
  labels:
    app: adk-agent
spec:
  replicas: 1
  selector:
    matchLabels:
      app: adk-agent
  template:
    metadata:
      labels:
        app: adk-agent
    spec:
      serviceAccountName: vertex-sa
      containers:
      - name: adk-agent
        image: IMAGE_URL
        ports:
        - containerPort: 8000
        env:
        - name: GOOGLE_CLOUD_PROJECT_ID
          value: PROJECT_ID
        - name: GOOGLE_CLOUD_LOCATION
          value: REGION
        - name: GOOGLE_GENAI_USE_VERTEXAI
          value: "1"
        - name: PORT
          value: "8000"
        resources:
          requests:
            memory: "512Mi"
            cpu: "500m"
          limits:
            memory: "1Gi"
            cpu: "1"