Las incrustaciones son representaciones numéricas de texto, imágenes o vídeos que captan las relaciones entre las entradas. Los modelos de aprendizaje automático, especialmente los modelos de IA generativa, son adecuados para crear inserciones identificando patrones en conjuntos de datos grandes. Las aplicaciones pueden usar las inserciones para procesar y generar lenguaje, así como para reconocer significados complejos y relaciones semánticas específicas de tu contenido. Interactúas con las inserciones cada vez que completas una búsqueda en Google o ves recomendaciones de música en streaming.
Los embeddings funcionan convirtiendo texto, imágenes y vídeos en matrices de números de coma flotante, denominadas vectores. Estos vectores se han diseñado para captar el significado del texto, las imágenes y los vídeos. La longitud de la matriz de inserción se denomina "dimensionalidad del vector". Por ejemplo, un fragmento de texto se puede representar mediante un vector que contenga cientos de dimensiones. Después, al calcular la distancia numérica entre las representaciones vectoriales de dos fragmentos de texto, una aplicación puede determinar la similitud entre los objetos.
Vertex AI admite dos tipos de modelos de inserciones: de texto y multimodales.
Casos prácticos de embeddings de texto
Estos son algunos casos prácticos habituales de las inserciones de texto:
- Búsqueda semántica: busca texto clasificado por similitud semántica.
- Clasificación: devuelve la clase de los elementos cuyos atributos de texto son similares al texto proporcionado.
- Agrupación en clústeres: agrupa los elementos cuyos atributos de texto sean similares al texto proporcionado.
- Detección de valores atípicos: devuelve los elementos en los que los atributos de texto están menos relacionados con el texto proporcionado.
- Interfaz conversacional: agrupa conjuntos de frases que pueden dar lugar a respuestas similares, como en un espacio de inserción a nivel de conversación.
Caso práctico: desarrollar un chatbot de recomendaciones de libros
Si quieres desarrollar un chatbot de recomendación de libros, lo primero que debes hacer es usar una red neuronal profunda (DNN) para convertir cada libro en un vector de inserción, donde un vector de inserción representa un libro. Puedes introducir en la DNN solo el título del libro o solo el contenido de texto. También puedes usar ambos elementos junto con otros metadatos que describan el libro, como el género.
Las inserciones de este ejemplo podrían estar formadas por miles de títulos de libros con resúmenes y su género, y podría tener representaciones de libros como Cumbres borrascosas de Emily Brontë y Persuasión de Jane Austen que sean similares entre sí (pequeña distancia entre la representación numérica). Mientras que la representación numérica del libro El gran Gatsby, de F. Scott Fitzgerald, ya que el periodo, el género y el resumen son menos similares.
Las entradas son el factor que más influye en la orientación del espacio de inserción. Por ejemplo, si solo tuviéramos entradas de títulos de libros, dos libros con títulos similares, pero resúmenes muy diferentes, podrían estar muy cerca. Sin embargo, si incluimos el título y el resumen, estos mismos libros serán menos similares (estarán más lejos) en el espacio de los embeddings.
Gracias a la IA generativa, este chatbot de sugerencias de libros puede resumir, sugerir y mostrarte libros que te gusten (o no) en función de tu consulta.
Casos prácticos de los embeddings multimodales
Algunos casos prácticos habituales de las inserciones multimodales son los siguientes:
Casos prácticos de imágenes y texto:
- Clasificación de imágenes: toma una imagen como entrada y predice una o varias clases (etiquetas).
- Búsqueda de imágenes: busca imágenes relevantes o similares.
- Recomendaciones: genera recomendaciones de productos o anuncios basadas en imágenes.
Casos prácticos de imágenes, texto y vídeo:
- Recomendaciones: genera recomendaciones de productos o anuncios basadas en vídeos (búsqueda por similitud).
- Búsqueda de contenido de vídeo
- Usar la búsqueda semántica: toma un texto como entrada y devuelve un conjunto de fotogramas clasificados que coinciden con la consulta.
- Usar la búsqueda por similitud:
- Toma un vídeo como entrada y devuelve un conjunto de vídeos que coincidan con la consulta.
- Toma una imagen como entrada y devuelve un conjunto de vídeos que coincidan con la consulta.
- Clasificación de vídeos: toma un vídeo como entrada y predice una o varias clases.
Caso práctico: experiencia de venta online
Los comercios online aprovechan cada vez más las inserciones multimodales para mejorar la experiencia de los clientes. Cada vez que ves recomendaciones de productos personalizadas mientras compras y obtienes resultados visuales a partir de una búsqueda de texto, estás interactuando con un embedding.
Si quieres crear una inserción multimodal para un caso práctico de comercio online, empieza procesando cada imagen de producto para generar una inserción de imagen única, que es una representación matemática de su estilo visual, su paleta de colores, sus detalles clave y más. Al mismo tiempo, convierte las descripciones de los productos, las reseñas de los clientes y otros datos textuales relevantes en incrustaciones de texto que capturen su significado semántico y su contexto. Al combinar estas inserciones de imágenes y texto en un motor de búsqueda y recomendaciones unificado, la tienda puede ofrecer recomendaciones personalizadas de artículos visualmente similares en función del historial de navegación y las preferencias de un cliente. Además, permite a los clientes buscar productos mediante descripciones en lenguaje natural, y el motor recupera y muestra los artículos más similares visualmente que coinciden con su consulta de búsqueda. Por ejemplo, si un cliente busca "vestido de verano negro", el buscador puede mostrar vestidos negros, de corte de verano, hechos con un material más ligero y que no tengan mangas. Esta potente combinación de comprensión visual y textual crea una experiencia de compra optimizada que mejora la interacción y la satisfacción de los clientes, y que, en última instancia, puede impulsar las ventas.
Siguientes pasos
- Para obtener más información sobre las inserciones, consulta el artículo La herramienta multifunción de Meet AI: inserciones vectoriales.
- Para hacer un curso intensivo básico de aprendizaje automático sobre las incrustaciones, consulta Incrustaciones.
- Para obtener más información sobre cómo almacenar inserciones de vectores en una base de datos, consulta la página Descubrir y la Descripción general de la búsqueda vectorial.
- Para obtener información sobre las prácticas recomendadas de IA responsable y los filtros de seguridad de Vertex AI, consulta IA responsable.
- Para saber cómo obtener las inserciones, consulta los siguientes documentos: