Infraestructura de RAG para IA generativa con Google Agentspace y Vertex AI

Last reviewed 2025-09-11 UTC

En este documento, se proporciona una arquitectura de referencia que puedes usar para diseñar la infraestructura de una aplicación de IA generativa con generación aumentada (RAG) usando Google Agentspace y Vertex AI. En esta arquitectura de referencia, se muestra cómo usar servicios administrados y, luego, implementar un solo agente de IA para facilitar un flujo de datos de RAG de extremo a extremo. Google Agentspace sirve como la plataforma unificada para la orquestación de agentes en toda la empresa. Vertex AI acelera el desarrollo y la implementación de agentes personalizados, y proporciona almacenes de datos administrados para facilitar la recuperación eficiente de la RAG.

El público previsto para este documento incluye arquitectos, desarrolladores y administradores de aplicaciones de IA generativa. En el documento, se supone que tienes conocimientos básicos sobre IA, aprendizaje automático (AA) y conceptos del modelo grande de lenguaje (LLM). En este documento, no se proporciona guía sobre cómo diseñar y desarrollar una aplicación de IA generativa. Para obtener información sobre cómo diseñar una aplicación, consulta Desarrolla una aplicación de IA generativa.

Arquitectura

En el siguiente diagrama, se muestra una vista de alto nivel de la arquitectura que se presenta en este documento:

Una vista de alto nivel de los flujos de entrega y de transferencia de datos en la arquitectura

La arquitectura del diagrama anterior tiene dos subsistemas: transferencia de datos y entrega.

  • El subsistema de transferencia de datos transfiere y prepara datos de fuentes externas para su uso en RAG. El subsistema genera embeddings para los datos ingeridos y los usa para compilar y mantener un índice de vectores con capacidad de búsqueda en un almacén de datos administrado.
  • El subsistema de entrega contiene los servicios de frontend y backend de la aplicación de IA generativa.
    • El servicio de frontend controla el flujo de consultas y respuestas con los usuarios de la aplicación y reenvía las consultas al servicio de backend.
    • El servicio de backend usa Google Agentspace y Vertex AI para compilar y, luego, implementar tu agente de IA para coordinar el proceso de RAG. Este proceso usa los datos de vectores indexados para generar respuestas que se basan en el contexto y cumplen con los filtros de seguridad de la IA responsable.

En el siguiente diagrama, se muestra una vista detallada de la arquitectura:

Una vista detallada de los flujos de transferencia y entrega de datos en la arquitectura

En las siguientes secciones, se describe el flujo de datos dentro de cada subsistema del diagrama de arquitectura anterior.

Subsistema de transferencia de datos

El subsistema de transferencia de datos transfiere datos de fuentes externas y los prepara para el RAG. Los siguientes son los pasos en el flujo de transferencia y preparación de datos:

  1. Los ingenieros de datos suben datos de fuentes externas a un bucket de Cloud Storage. Las fuentes externas pueden ser aplicaciones, bases de datos o servicios de transmisión.
  2. Cuando se completa la operación, Cloud Storage publica un mensaje en un tema de Pub/Sub.
  3. El tema de Pub/Sub activa un trabajo de procesamiento para que se ejecute en Cloud Run Functions.
  4. Las funciones de Cloud Run procesan los datos sin procesar generando y almacenando los metadatos como archivos JSON Lines (JSONL). Los archivos JSONL se almacenan en un bucket de Cloud Storage independiente.
  5. Cuando se completa, Cloud Run Functions publica un mensaje en un tema de Pub/Sub.
  6. El tema de Pub/Sub activa un trabajo de procesamiento para que se ejecute en el almacén de datos administrado dentro de Google Agentspace. El trabajo de procesamiento extrae los datos y los metadatos sin procesar transferidos de los buckets de Cloud Storage y, luego, analiza y divide los datos en fragmentos para recuperarlos de manera eficiente durante la publicación. Google Agentspace genera automáticamente incorporaciones vectoriales sin necesidad de configuración.

Subsistema de entrega

El subsistema de entrega controla el flujo de consulta y respuesta entre la aplicación de IA generativa y sus usuarios. Estos son los pasos del flujo de entrega:

  1. Un usuario de la aplicación envía una búsqueda a través de uno de los servicios de frontend de Cloud Run. Puedes personalizar estos servicios para diferentes experiencias, como una IU de chatbot, una página de búsqueda o una aplicación para dispositivos móviles.
  2. El servicio de frontend recibe la búsqueda y, luego, la reenvía a un servicio de backend centralizado de Cloud Run. Este backend proporciona un único extremo unificado para admitir todos los diferentes clientes de frontend. El servicio de backend también realiza el preprocesamiento necesario, que puede incluir la construcción de filtros para la búsqueda. Este enfoque mantiene la lógica transparente para los frontends.
  3. El servicio de backend envía la solicitud preparada a Google Agentspace a través del extremo de API de Google Agentspace para iniciar el flujo de trabajo de RAG.
  4. Para procesar la búsqueda, Google Agentspace usa la búsqueda empresarial y el agente personalizado para realizar las siguientes tareas:
    1. Crea una incorporación de la búsqueda del usuario.
    2. Realiza una búsqueda semántica en los datos indexados del almacén de datos administrado para encontrar la información más pertinente.
    3. Aumenta la consulta original con los datos recuperados del almacén de datos administrado para crear una instrucción detallada y contextual.
    4. Genera una respuesta final basada en la instrucción aumentada.
  5. Google Agentspace envía la respuesta generada al servicio de backend de Cloud Run.
  6. El servicio de backend devuelve la respuesta final al servicio de frontend que envió la solicitud original. El servicio de frontend presenta la respuesta al usuario de la aplicación.

Productos usados

En esta arquitectura de referencia, se usan los siguientes productos Google Cloud :

  • Google Agentspace: Es una plataforma administrada que funciona como un registro central y un centro de interacción para todos tus agentes de IA dentro de una empresa, y permite que las aplicaciones los descubran, administren y usen sin problemas.
  • Vertex AI: Es una plataforma de AA que te permite entrenar y, también, implementar modelos de AA y aplicaciones de IA, y personalizar LLM para usarlos en aplicaciones impulsadas por IA.
    • Vertex AI Agent Engine: Es una plataforma que te permite ejecutar, administrar y escalar agentes de IA en producción.
  • Cloud Run es una plataforma de procesamiento administrada que te permite ejecutar contenedores directamente sobre la infraestructura escalable de Google.
  • Pub/Sub: Un servicio de mensajería asíncrona y escalable que separa los servicios que producen mensajes de servicios que procesan esos mensajes.
  • Cloud Storage: Un depósito de objetos de bajo costo y sin límites para varios tipos de datos. Se puede acceder a los datos desde y hacia Google Cloud, y estos se replican en las ubicaciones para aumentar la redundancia.

Casos de uso

Esta arquitectura está diseñada para situaciones empresariales en las que tu aplicación de IA generativa necesita acceder a la información más reciente y requiere una comprensión profunda y contextual para proporcionar respuestas precisas.

La arquitectura incluye un subsistema de transferencia de datos personalizado para abordar dos requisitos clave de la empresa:

  • Disponibilidad de datos en tiempo real: La canalización basada en eventos procesa los datos nuevos apenas están disponibles en tu organización, por ejemplo, una nueva guía de productos o un informe actualizado. La canalización también pone la información a disposición en tu almacén de datos administrado. Este diseño ayuda a mitigar la obsolescencia de la información, ya que garantiza que haya una demora mínima entre la disponibilidad y el uso de los datos.
  • Búsqueda contextual enriquecida: El trabajo de procesamiento personalizado permite que tu organización aplique su propia lógica empresarial para enriquecer los datos con metadatos valiosos. La función de Cloud Run puede etiquetar cada documento con atributos específicos, como línea de productos, autor, ubicación o tipo de documento. Estos metadatos enriquecidos ayudan al agente a acotar su búsqueda y brindar respuestas más precisas y contextuales.

RAG es una técnica eficaz para mejorar la calidad del resultado que se genera a partir de un LLM. En esta sección, se proporcionan ejemplos de casos de uso para los que puedes usar aplicaciones de IA generativa compatibles con RAG.

Recomendaciones personalizadas de productos

Un sitio de compras en línea puede usar un chatbot con tecnología de LLM para ayudar a los clientes a encontrar productos o a obtener ayuda relacionada con las compras. Las preguntas de un usuario se pueden aumentar mediante el uso de datos históricos sobre el comportamiento de compra del usuario y los patrones de interacción con el sitio web. Los datos pueden incluir opiniones y comentarios de los usuarios que se almacenan en un almacén de datos no estructurado o métricas relacionadas con la búsqueda que se almacenan en un almacén de datos de estadísticas web. Luego, el LLM puede procesar la pregunta aumentada para generar respuestas personalizadas que el usuario podría considerar más interesantes y atractivas.

Sistemas de asistencia clínica

Los médicos en hospitales deben analizar y diagnosticar con rapidez el estado de la salud de un paciente para tomar decisiones sobre la atención y los medicamentos adecuados. Se puede usar una aplicación de IA generativa que use un LLM médico como Med-PaLM para ayudar a los médicos en su proceso de diagnóstico clínico. Las respuestas que genera la aplicación se pueden basar en registros históricos de pacientes mediante la contextualización de las instrucciones de los médicos con datos de la base de datos del historial clínico electrónico (HCE) del hospital o de una base de conocimiento externa, como PubMed.

La investigación legal impulsada por IA generativa permite a los abogados consultar con rapidez grandes volúmenes de leyes y jurisprudencia para identificar precedentes legales relevantes o resumir conceptos legales complejos. El resultado de esa investigación se puede mejorar mediante la mejora de las indicaciones de un abogado con datos que se recuperan del corpus propio de contratos, comunicaciones jurídicas previas y registros de casos internos. Este enfoque de diseño garantiza que las respuestas generadas sean relevantes para el dominio legal en el que se especializa el abogado.

Alternativas de diseño

En esta sección, se presentan enfoques de diseño alternativos que puedes considerar para tu aplicación de IA generativa compatible con RAG en Google Cloud.

Alternativas de infraestructura de IA

Si necesitas una arquitectura que use un producto de búsqueda vectorial completamente administrado, puedes usar Vertex AI y Vector Search, que proporcionan una infraestructura de entrega optimizada para búsquedas vectoriales a gran escala. Para obtener más información, consulta Infraestructura de RAG para la IA generativa con Vertex AI y Vector Search.

Si quieres aprovechar las capacidades del almacén de vectores de una base de datos Google Cloud completamente administrada, como AlloyDB para PostgreSQL o Cloud SQL, consulta Infraestructura de RAG para IA generativa con Vertex AI y AlloyDB para PostgreSQL.

Si quieres compilar e implementar con rapidez aplicaciones de IA generativa compatibles con RAG usando herramientas y modelos de código abierto, como Ray, Hugging Face y LangChain, consulta Infraestructura de RAG para IA generativa con GKE y Cloud SQL.

Opciones de hosting de aplicaciones

En la arquitectura que se muestra en este documento, Cloud Run es el host de la aplicación de IA generativa y el procesamiento de datos. Cloud Run es una aplicación completamente administrada y enfocada en los desarrolladores. También puedes implementar tu aplicación en Vertex AI Agent Engine, clústeres de GKE o VMs de Compute Engine.

Para elegir un host de la aplicación, considera las siguientes ventajas y desventajas entre la flexibilidad de la configuración y el esfuerzo de administración:

  • Con la opción de Cloud Run sin servidores, implementas tus servicios personalizados en un entorno administrado y preconfigurado. Para alojar los servicios de frontend y la lógica de backend personalizada para el preprocesamiento de solicitudes, esta arquitectura requiere la capacidad de implementar aplicaciones personalizadas.
  • Con la opción de Vertex AI Agent Engine, usas una plataforma completamente administrada diseñada para la entrega de agentes. Vertex AI Agent Engine reduce la sobrecarga de administración y garantiza una integración estrecha con Google Agentspace.
  • Con las VMs de Compute Engine y los contenedores de GKE, eres responsable de administrar los recursos de procesamiento subyacentes, pero tienes mayor flexibilidad y control de configuración.

Para obtener más información sobre cómo elegir un servicio de hosting de aplicaciones adecuado, consulta los siguientes documentos:

Otras opciones de infraestructura

Para obtener información sobre otras opciones de infraestructura, modelos compatibles y técnicas de fundamentación que puedes usar para aplicaciones de IA generativa enGoogle Cloud, consulta Elige modelos y la infraestructura para tu aplicación de IA generativa.

Consideraciones del diseño

En esta sección, se proporciona orientación para ayudarte a desarrollar una arquitectura de IA generativa compatible con RAG en Google Cloud que cumpla con tus requisitos específicos de seguridad y cumplimiento, confiabilidad, costo y rendimiento. La guía de esta sección no está completa. Según los requisitos específicos de tu aplicación de IA generativa y los productos y funciones de Google Cloud que uses, es posible que debas considerar factores de diseño y compensaciones adicionales.

Para obtener una descripción general de los principios y las recomendaciones de arquitectura específicos para las cargas de trabajo de IA y AA en Google Cloud, consulta la perspectiva de IA y AA en Well-Architected Framework.

Security, privacy, and compliance

En esta sección, se describen las consideraciones y recomendaciones de diseño para crear una topología en Google Cloud que cumpla con los requisitos de seguridad y cumplimiento de tu carga de trabajo.


Producto

Consideraciones y recomendaciones de diseño

Vertex AI

Vertex AI admite Google Cloud controles de seguridad que puedes usar para cumplir con tus requisitos de residencia de datos, encriptación de datos, seguridad de red y transparencia de acceso. Para obtener más información, consulta la siguiente documentación: Google Agentspace Enterprise borra los datos solicitados por el usuario en un plazo de 60 días. Para obtener más información, consulta Eliminación de datos enGoogle Cloud.

Los modelos de IA generativa pueden producir respuestas dañinas, en especial cuando se les solicita explícitamente que lo hagan. Para mejorar la seguridad y mitigar el posible uso inadecuado, puedes configurar filtros de contenido que actúen como barreras para las respuestas dañinas. Para obtener más información, consulta Filtros de seguridad y contenido.

Cloud Run

De forma predeterminada, Cloud Run encripta los datos conGoogle-owned and Google-managed encryption keys. Para proteger tus contenedores con claves que controlas, puedes usar claves de encriptación administradas por el cliente (CMEK). Para obtener más información, consulta Usa claves de encriptación administradas por el cliente.

Para garantizar que solo se implementen imágenes de contenedor autorizadas en Cloud Run, puedes usar la Autorización Binaria.

Cloud Run te ayuda a cumplir con los requisitos de residencia de datos. Tus Cloud Run Functions se ejecutan en la región seleccionada.

Cloud Storage

De forma predeterminada, Cloud Storage encripta los datos que almacena con Google-owned and Google-managed encryption keys. Si es necesario, puedes usar CMEK o tus propias claves que administres con un método de administración externo, como las claves de encriptación proporcionadas por el cliente (CSEK). Para obtener más información, consulta Opciones de encriptación de datos.

Cloud Storage admite dos sistemas para otorgar permiso a los usuarios para acceder a tus buckets y objetos: Identity and Access Management (IAM) y las listas de control de acceso (LCA). En la mayoría de los casos, te recomendamos que uses IAM, que te permite otorgar permisos a nivel del bucket y del proyecto. Para obtener más información, consulta Descripción general del control de acceso.

Los datos que cargas en el subsistema de transferencia de datos a través de Cloud Storage pueden incluir datos sensibles. Puedes usar la Protección de datos sensibles para descubrir, clasificar y desidentificar datos sensibles. Para obtener más información, consulta Usa la Protección de datos sensibles con Cloud Storage.

Cloud Storage te ayuda a cumplir con los requisitos de residencia de datos. Cloud Storage almacena o replica datos dentro de la región que especifiques.

Pub/Sub

De forma predeterminada, Pub/Sub encripta todos los mensajes, incluidos los mensajes en reposo y en tránsito, con Google-owned and Google-managed encryption keys. Pub/Sub admite el uso de CMEK para la encriptación de mensajes en la capa de aplicación. Para obtener más información, consulta Configura la encriptación de mensajes.

Si tienes requisitos de residencia de datos, para asegurarte de que los datos de los mensajes se almacenen en ubicaciones específicas, puedes configurar políticas de almacenamiento de mensajes.

Para conocer los principios y las recomendaciones de seguridad específicos de las cargas de trabajo de IA y AA, consulta la perspectiva de IA y AA: seguridad en Well-Architected Framework.

Confiabilidad

En esta sección, se describen las consideraciones y recomendaciones de diseño para compilar y operar una infraestructura confiable para tu implementación en Google Cloud.


Producto

Consideraciones y recomendaciones de diseño

Vertex AI

Vertex AI garantiza la residencia de datos en reposo. Vertex AI almacena tus datos fuente, que incluyen datos para la RAG en el almacén de datos administrado, dentro de la Google Cloud ubicación que seleccionaste. Esta separación del procesamiento y el almacenamiento es un aspecto fundamental de cómo la plataforma proporciona alta confiabilidad y cumplimiento.

Cloud Run

Cloud Run es un servicio regional que almacena datos de forma síncrona en varias zonas dentro de una región. El servicio balancea automáticamente las cargas del tráfico entre las zonas. Si se produce una interrupción zonal, los trabajos de Cloud Run continuarán ejecutándose y los datos no se pierden. Si se produce una interrupción regional, los trabajos de Cloud Run dejan de ejecutarse hasta que Google resuelva la interrupción.

Los trabajos o las tareas individuales de Cloud Run pueden fallar. Para manejar estas fallas, puedes usar reintentos de tareas y puntos de control. Para obtener más información, consulta Prácticas recomendadas para los reintentos de trabajos y puntos de control.

Cloud Storage

Puedes crear buckets de Cloud Storage en uno de los tres tipos de ubicación: regional, birregional o multirregión. En el caso de los datos en buckets regionales, Cloud Storage los replica de forma síncrona en varias zonas dentro de una región. Para obtener una mayor disponibilidad, puedes usar buckets birregionales o multirregionales, en los que Cloud Storage replica los datos de forma asíncrona en todas las regiones. Asegúrate de que tu elección se alinee con tus requisitos de cumplimiento.

Para conocer los principios y las recomendaciones de confiabilidad específicos de las cargas de trabajo de IA y AA, consulta la perspectiva de IA y AA: Confiabilidad en Well-Architected Framework.

Optimización de costos

En esta sección, se proporciona orientación para optimizar el costo de configurar y operar una topología de Google Cloud que compilas a través de esta arquitectura de referencia.


Producto

Consideraciones y recomendaciones de diseño

Vertex AI

El modelo de IA subyacente que invoca el agente puede influir directamente en el costo de usar ese agente. Los precios se calculan en función de la cantidad de tokens de entrada y salida de cada solicitud. Para obtener más información, consulta las cuotas y los límites del sistema de la IA generativa en Vertex AI y la calculadora de precios deGoogle Cloud.

Si deseas obtener información para minimizar el recuento de tokens y reducir los costos, consulta Cómo optimizar la longitud de las instrucciones y los resultados.

Cloud Run Functions

Cuando creas trabajos de Cloud Run, especificas la cantidad de memoria y CPU que se asignarán a la instancia de contenedor. Para controlar los costos, comienza con las asignaciones de CPU y memoria predeterminadas. Para mejorar el rendimiento, puedes aumentar la asignación configurando el límite de CPU y el límite de memoria.

Si puedes predecir los requisitos de CPU y memoria de tus trabajos de Cloud Run, puedes ahorrar dinero con descuentos por compromiso de uso. Para obtener más información, consulta Descuentos por compromiso de uso de Cloud Run.

Cloud Storage

Para el bucket de Cloud Storage que usas para cargar datos en el subsistema de transferencia de datos, elige una clase de almacenamiento adecuada según los requisitos de retención de datos y frecuencia de acceso de tus cargas de trabajo. Por ejemplo, puedes elegir la clase de almacenamiento Standard y usar la Administración del ciclo de vida de los objetos para controlar los costos de almacenamiento. La Administración del ciclo de vida de los objetos cambia automáticamente los objetos a una clase de almacenamiento de menor costo o los borra según las condiciones que establezcas.

Para conocer los principios y las recomendaciones de optimización de costos específicos para las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: Optimización de costos en el Framework de Well-Architected.

Optimización del rendimiento

En esta sección, se describen las consideraciones y recomendaciones de diseño para crear una topología en Google Cloud que cumpla con los requisitos de rendimiento de tus cargas de trabajo.


Producto

Consideraciones y recomendaciones de diseño

Google Agentspace

Para reducir la latencia durante la publicación, transmite las respuestas enviando respuestas del modelo antes de que el agente genere el resultado completo. Esto permite el procesamiento del resultado en tiempo real, y puedes actualizar de inmediato la interfaz de usuario y realizar otras tareas simultáneas. La transmisión mejora la capacidad de respuesta percibida y crea una experiencia del usuario más interactiva. Para obtener más información, consulta Transmite respuestas.

Cloud Run

Ajusta la asignación de memoria y CPU para las instancias de Cloud Run según tus requisitos de rendimiento. Para obtener más información, consulta Cómo configurar límites de CPU para trabajos y Cómo configurar límites de memoria para servicios.

Cloud Storage

Para subir archivos grandes, puedes usar un método llamado cargas compuestas en paralelo. Con esta estrategia, el archivo grande se divide en fragmentos. Subes los fragmentos a Cloud Storage en paralelo y, luego, Cloud Storage vuelve a ensamblar los datos en Google Cloud. Las cargas compuestas paralelas pueden ser más rápidas que las operaciones de carga normales si tienes suficiente ancho de banda de red y velocidad de disco. Sin embargo, esta estrategia tiene algunas implicaciones de costos y limitaciones. Para obtener más información, consulta Cargas compuestas paralelas.

Si deseas conocer los principios y las recomendaciones de optimización del rendimiento específicos para las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: Optimización del rendimiento en Well-Architected Framework.

Implementación

Para implementar esta arquitectura de referencia, usa el ejemplo de Terraform disponible en GitHub. Para obtener más información, consulta Infraestructura de RAG para aplicaciones de IA generativa con Google Agentspace y Vertex AI.

¿Qué sigue?

Colaboradores

Autora: Samantha He | Escritora técnica

Otros colaboradores:

  • Deepak Michael | Ingeniero de Atención al cliente especializado en herramientas de redes
  • Autor: Kumar Dhanagopal | Desarrollador de soluciones entre productos
  • Mark Schlagenhauf | Escritor técnico, Herramientas de redes
  • Victor Moreno | Gerente de producto, Herramientas de redes de Cloud
  • Yehia Elshater | Arquitecto de soluciones de campo, IA generativa, Google Cloud
  • Paarth Mahajan | Especialista en redes, Google Cloud