Se usó la API de Cloud Translation para traducir esta página.

Implementa la recuperación de dos torres para la generación de candidatos a gran escala

Last reviewed 2025-01-16 UTC

En este documento, se proporciona una arquitectura de referencia que muestra cómo implementar un flujo de trabajo de generación de candidatos de dos torres de extremo a extremo con Vertex AI. El marco de modelado de dos torres es una técnica de recuperación eficaz para los casos de uso de personalización, ya que aprende la similitud semántica entre dos entidades diferentes, como las búsquedas web y los elementos candidatos.

Este documento está dirigido a profesionales técnicos, como ingenieros de aprendizaje automático y científicos de datos, que desarrollan aplicaciones de recomendación a gran escala con requisitos de entrega de baja latencia. Para obtener más información sobre las técnicas de modelado, el planteamiento del problema y la preparación de datos para compilar un modelo de dos torres, consulta Escala la recuperación profunda con los recomendadores de TensorFlow y Vector Search.

Arquitectura

En el siguiente diagrama, se muestra una arquitectura para entrenar un modelo de dos torres y, luego, implementar cada torre por separado para diferentes tareas de implementación y entrega:

Es una arquitectura para entrenar un modelo de dos torres y, luego, implementar cada torre por separado.

La arquitectura del diagrama incluye los siguientes componentes:

Datos de entrenamiento: Los archivos de entrenamiento se almacenan en Cloud Storage.
Entrenamiento de dos torres: El modelo combinado de dos torres se entrena sin conexión con el servicio de Vertex AI Training. Cada torre se guarda por separado y se usa para diferentes tareas.
Torres de candidatos y de búsqueda registradas: Después de entrenar las torres, cada una se sube por separado a Vertex AI Model Registry.
Torre de consultas implementada: La torre de consultas registrada se implementa en un extremo en línea de Vertex AI.
Predicción por lotes de las incorporaciones: La torre candidata registrada se usa en un trabajo de predicción por lotes para calcular previamente las representaciones de incorporación de todos los elementos candidatos disponibles.
JSON de embeddings: Los embeddings predichos se guardan en un archivo JSON en Cloud Storage.
Índice de ANN: La Búsqueda de vectores de Vertex AI se usa para crear un índice de entrega configurado para la búsqueda de vecinos más cercanos aproximados (ANN).
Índice implementado: El índice de ANN se implementa en un extremo de índice de Vertex AI Vector Search.

Productos usados

En esta arquitectura de referencia, se usan los siguientes productos Google Cloud :

Vertex AI Training: Es un servicio de entrenamiento completamente administrado que te permite poner en funcionamiento el entrenamiento de modelos a gran escala.
Vector Search: Es un servicio de coincidencia de similitud de vectores que te permite almacenar, indexar y buscar datos semánticamente similares o relacionados.
Vertex AI Model Registry: Es un repositorio central en el que puedes administrar el ciclo de vida de tus modelos de AA.
Cloud Storage: Un depósito de objetos de bajo costo y sin límites para varios tipos de datos. Se puede acceder a los datos desde y hacia Google Cloud, y estos se replican en las ubicaciones para aumentar la redundancia.

Caso de uso

Para cumplir con los requisitos de entrega de latencia baja, los recomendadores a gran escala suelen implementarse en producción como sistemas de dos etapas o, a veces, como sistemas de varias etapas. El objetivo de la primera etapa, la generación de candidatos, es filtrar una gran colección de elementos candidatos y recuperar un subconjunto pertinente de cientos de elementos para las tareas de filtrado y clasificación posteriores. Para optimizar esta tarea de recuperación, considera estos dos objetivos principales:

Durante el entrenamiento de modelos, se aprende la mejor representación del problema o la tarea que se debe resolver, y se compila esta representación en <query, candidate> embeddings.
Durante la entrega del modelo, recupera los elementos pertinentes con la suficiente rapidez para cumplir con los requisitos de latencia.

En el siguiente diagrama, se muestran los componentes conceptuales de un sistema de recomendación de dos etapas:

Componentes conceptuales de un recomendador de dos etapas.

En el diagrama, la generación de candidatos filtra millones de elementos candidatos. Luego, la clasificación filtra los cientos de elementos candidatos resultantes para devolver docenas de elementos recomendados.

La arquitectura de referencia de este documento entrena un modelo de recuperación basado en dos torres. En la arquitectura, cada torre es una red neuronal que procesa las características de la búsqueda o del elemento candidato y, luego, genera una representación de incorporación de esas características. Cada torre se implementa por separado, ya que se usará para diferentes tareas en producción:

Torre de candidatos: La torre de candidatos se usa para calcular previamente las incorporaciones de todos los elementos candidatos. Los embeddings precalculados se implementan en un extremo de índice de Vertex AI Vector Search optimizado para la recuperación de baja latencia.
Torre implementada: Durante la entrega en línea, la torre de búsqueda implementada convierte las búsquedas sin procesar del usuario en representaciones de la incorporación. Luego, las representaciones de incorporación se usan para buscar incorporaciones de elementos similares en el índice implementado.

Las arquitecturas de dos torres son ideales para muchas tareas de recuperación porque capturan la relación semántica de las entidades de búsqueda y candidatas, y las asignan a un espacio de incorporación compartido. Cuando las entidades se asignan a un espacio de incorporación compartido, las entidades semánticamente similares se agrupan más cerca. Por lo tanto, si calculas las incorporaciones de vectores de una búsqueda determinada, puedes buscar en el espacio de incorporación los elementos candidatos más cercanos (más similares). El principal beneficio de esta arquitectura es la capacidad de desacoplar la inferencia de las representaciones de la búsqueda y de los candidatos. Las ventajas de este desacoplamiento son principalmente dos:

Puedes publicar elementos nuevos sin volver a entrenar un vocabulario de elementos nuevos. Si proporcionas cualquier conjunto de atributos del elemento a la torre del elemento candidato, puedes calcular las incorporaciones de elementos para cualquier conjunto de candidatos, incluso aquellos que no se vieron durante el entrenamiento. Realizar este cálculo ayuda a abordar el problema de inicio en frío.
- La torre candidata puede admitir un conjunto arbitrario de elementos candidatos, incluidos los que aún no interactuaron con el sistema de recomendación. Este soporte es posible porque las arquitecturas de dos torres procesan funciones de metadatos y contenido enriquecido sobre cada par de <query, candidate>. Este tipo de procesamiento permite que el sistema describa un elemento desconocido en términos de elementos que sí conoce.
Puedes optimizar la inferencia de recuperación precalculando todas las incorporaciones de elementos candidatos. Estos embeddings precalculados se pueden indexar y, luego, implementar en una infraestructura de entrega optimizada para la recuperación de baja latencia.
- El aprendizaje conjunto de las torres te permite describir elementos en términos de búsquedas y viceversa. Si tienes la mitad de un par, como una búsqueda, y necesitas buscar el otro elemento correspondiente, puedes precalcular la mitad de la ecuación con anticipación. La precomputación te permite tomar el resto de la decisión lo más rápido posible.

Consideraciones del diseño

En esta sección, se proporciona orientación para ayudarte a desarrollar una arquitectura de generación de candidatos en Google Cloud que satisfaga tus necesidades de seguridad y rendimiento. La guía de esta sección no está completa. Según tus requisitos específicos, es posible que debas considerar factores de diseño y compensaciones adicionales.

Seguridad

Vertex AI Vector Search admite implementaciones de extremos públicos y de nube privada virtual (VPC). Si deseas usar una red de VPC, comienza por seguir los pasos en Configura una conexión de intercambio de tráfico entre redes de VPC. Si el índice de Vector Search se implementa dentro de un perímetro de VPC, los usuarios deben acceder a los recursos asociados desde la misma red de VPC. Por ejemplo, si desarrollas desde Vertex AI Workbench, debes crear la instancia de Workbench dentro de la misma red de VPC que el extremo del índice implementado. Del mismo modo, cualquier canalización que se espere que cree un extremo o implemente un índice en un extremo debe ejecutarse dentro de la misma red de VPC.

Optimización del rendimiento

En esta sección, se describen los factores que debes tener en cuenta cuando usas esta arquitectura de referencia para diseñar una topología en Google Cloud que cumpla con los requisitos de rendimiento de tus cargas de trabajo.

Perfil de trabajos de entrenamiento

Para optimizar las canalizaciones de entrada de datos y el gráfico de entrenamiento general, te recomendamos que crees perfiles del rendimiento del entrenamiento con Cloud Profiler. Profiler es una implementación administrada del TensorBoard Profiler de código abierto.

Si pasas el argumento –profiler en el trabajo de entrenamiento, habilitas la devolución de llamada de TensorFlow para generar un perfil de una cantidad establecida de lotes para cada época. El perfil captura registros de la CPU del host y del hardware de la GPU o TPU del dispositivo. Los registros proporcionan información sobre el consumo de recursos del trabajo de entrenamiento. Para evitar errores de memoria insuficiente, te recomendamos que comiences con una duración del perfil de entre 2 y 10 pasos de entrenamiento, y que la aumentes según sea necesario.

Para obtener información sobre cómo usar Profiler con Vertex AI Training y Vertex AI TensorBoard, consulta Genera perfiles del rendimiento del entrenamiento de modelos. Para conocer las prácticas recomendadas de depuración, consulta Optimiza el rendimiento de las GPU. Para obtener información sobre cómo optimizar el rendimiento, consulta Optimiza el rendimiento de TensorFlow con el generador de perfiles.

Aprovecha al máximo los aceleradores

Cuando adjuntas aceleradores de entrenamiento, como las GPUs de NVIDIA o las Cloud TPUs, es importante mantenerlos completamente utilizados. La utilización completa de los aceleradores de entrenamiento es una práctica recomendada para la administración de costos, ya que los aceleradores son el componente más costoso de la arquitectura. El uso completo de los aceleradores de entrenamiento también es una práctica recomendada para la eficiencia del trabajo, ya que no tener tiempo de inactividad genera un menor consumo general de recursos.

Para mantener un acelerador completamente utilizado, por lo general, se realizan algunas iteraciones para encontrar el cuello de botella, optimizarlo y, luego, repetir estos pasos hasta que la utilización del dispositivo acelerador sea aceptable. Dado que muchos de los conjuntos de datos para este caso de uso son demasiado grandes para caber en la memoria, los cuellos de botella suelen encontrarse entre el almacenamiento, las VMs host y el acelerador.

En el siguiente diagrama, se muestran las etapas conceptuales de una canalización de entrada de entrenamiento de AA:

Etapas conceptuales de una canalización de entrada de entrenamiento de AA

En el diagrama, los datos se leen del almacenamiento y se procesan previamente. Después de que se preprocesan los datos, se envían al dispositivo. Para optimizar el rendimiento, primero determina si el rendimiento general está limitado por la CPU del host o por el dispositivo acelerador (GPU o TPU). El dispositivo es responsable de acelerar el bucle de entrenamiento, mientras que el host es responsable de proporcionar datos de entrenamiento al dispositivo y recibir resultados de él. En las siguientes secciones, se describe cómo resolver los cuellos de botella mejorando el rendimiento de la canalización de entrada y el rendimiento del dispositivo.

Mejora el rendimiento de la canalización de entrada

Lectura de datos del almacenamiento: Para mejorar las lecturas de datos, prueba el almacenamiento en caché, la prefetching, los patrones de acceso secuencial y las E/S paralelas.
Procesamiento previo de datos: Para mejorar el procesamiento previo de datos, configura el procesamiento paralelo para la extracción y transformación de datos, y ajusta la transformación interleave en la canalización de entrada de datos.
Envío de datos al dispositivo: Para reducir el tiempo total del trabajo, transfiere datos del host a varios dispositivos en paralelo.

Mejora el rendimiento del dispositivo

Aumenta el tamaño del minilote. Los minilotes son la cantidad de muestras de entrenamiento que utiliza cada dispositivo en una iteración de un ciclo de entrenamiento. Si aumentas el tamaño del minibatch, aumentas el paralelismo entre las operaciones y mejoras la reutilización de los datos. Sin embargo, el minilote debe poder caber en la memoria con el resto del programa de entrenamiento. Si aumentas demasiado el tamaño del minilote, puedes experimentar errores de memoria insuficiente y divergencia del modelo.
Vectoriza funciones definidas por el usuario. Por lo general, las transformaciones de datos se pueden expresar como una función definida por el usuario que describe cómo transformar cada elemento de un conjunto de datos de entrada. Para vectorizar esta función, se aplica la operación de transformación a un lote de entradas a la vez en lugar de transformar un elemento a la vez. Cualquier función definida por el usuario tiene una sobrecarga relacionada con la programación y la ejecución. Cuando transformas un lote de entradas, incurres en la sobrecarga una vez por lote, en lugar de una vez por elemento del conjunto de datos.

Escala verticalmente antes de escalar horizontalmente

Cuando configures los recursos de procesamiento para tus trabajos de entrenamiento, te recomendamos que primero aumentes la capacidad de procesamiento antes de aumentar la cantidad de recursos. Esto significa que debes elegir un dispositivo más grande y potente antes de usar varios dispositivos menos potentes. Te recomendamos que realices el ajuste de la siguiente manera:

Un trabajador y un dispositivo
Un solo trabajador y un dispositivo más potente
Un solo trabajador y varios dispositivos
Entrenamiento distribuido

Evalúa la recuperación en función de la latencia para la búsqueda de vectores con ANN

Para evaluar los beneficios de la búsqueda de ANN, puedes medir la latencia y la recuperación de una consulta determinada. Para ayudarte a ajustar el índice, Vector Search de Vertex AI te permite crear un índice de fuerza bruta. Los índices de fuerza bruta realizarán una búsqueda exhaustiva, a costa de una mayor latencia, para encontrar los verdaderos vecinos más cercanos para un vector de búsqueda determinado. El uso de índices de fuerza bruta no está previsto para la producción, pero proporciona un buen valor de referencia cuando calculas la recuperación durante el ajuste del índice.

Para evaluar la recuperación en función de la latencia, implementa las incorporaciones de candidatos precalculadas en un índice configurado para la búsqueda de ANN y en otro índice configurado para la búsqueda de fuerza bruta. El índice de fuerza bruta devolverá los vecinos más cercanos absolutos, pero, por lo general, tardará más que una búsqueda de ANN. Es posible que desees sacrificar parte de la recuperación para obtener ganancias en la latencia de recuperación, pero esta compensación debe evaluarse. Entre las características adicionales que afectan la recuperación y la latencia, se incluyen las siguientes:

Parámetros de modelado: Muchas decisiones de modelado afectan el espacio de incorporación, que, en última instancia, se convierte en el índice de publicación. Compara los candidatos que se recuperan para los índices que se compilan a partir de modelos de recuperación superficial y profunda.
Dimensiones: Las dimensiones son otro aspecto que, en última instancia, determina el modelo. Las dimensiones del índice de ANN deben coincidir con las dimensiones de los vectores de la torre de la búsqueda y de los candidatos.
Etiquetas de filtrado y aglomeración: Las etiquetas pueden proporcionar capacidades eficaces para adaptar los resultados a diferentes casos de uso de producción. Se recomienda comprender cómo las etiquetas influyen en los candidatos recuperados y afectan el rendimiento.
Recuento de ANN: Aumentar este valor incrementa la recuperación y puede aumentar la latencia de forma proporcional.
Porcentaje de nodos hoja para buscar: El porcentaje de nodos hoja para buscar es la opción más importante para evaluar la compensación entre la recuperación y la latencia. Aumentar este valor incrementa la recuperación y puede aumentar la latencia de forma proporcional.

¿Qué sigue?

Para obtener más información sobre las arquitecturas de referencia, los diagramas y las prácticas recomendadas, explora Cloud Architecture Center.

Colaboradores

Autores:

Jordan Totten | Ingeniero de Atención al cliente
Jeremy Wortz | Ingeniero de Atención al cliente
Lakshmanan Sethu | Administrador técnico de cuentas

Otro colaborador: Kaz Sato | Developer Advocate del personal