Descripción general de las API de incorporaciones

Las incorporaciones son representaciones numéricas de texto, imágenes o videos que capturan relaciones entre entradas. Los modelos de aprendizaje automático, especialmente los modelos generativos de IA, son adecuados para crear embeddings mediante la identificación de patrones en grandes conjuntos. Las aplicaciones pueden usar incorporaciones para procesar y producir lenguaje, y reconocer significados complejos y relaciones semánticas específicas en tu contenido. Interactúas con embeddings cada vez que realizas una Búsqueda de Google o ves recomendaciones de música en streaming.

Las incorporaciones funcionan mediante la conversión de texto, imagen y video en arreglos de números de punto flotante, llamados vectores. Estos vectores están diseñados para capturar el significado del texto, las imágenes y los videos. La longitud del arreglo de incorporaciones se denomina dimensionalidad del vector. Por ejemplo, un pase de texto podría representarse con un vector que contiene cientos de dimensiones. Luego, mediante el cálculo de la distancia numérica entre las representaciones vectoriales de dos textos, una aplicación puede determinar la similitud entre los objetos.

Vertex AI admite dos tipos de modelos de incorporaciones: texto y multimodal.

Casos de uso de incorporaciones de texto

Estos son algunos casos de uso comunes de las incorporaciones de texto:

  • Búsqueda semántica: Busca texto clasificado por similitud semántica.
  • Clasificación: Muestra la clase de elementos cuyos atributos de texto son similares al texto dado.
  • Agrupamiento en clústeres: Elementos de un clúster con atributos de texto similares a los textos proporcionados.
  • Detección de valores atípicos: Muestra los elementos en los que los atributos de texto están menos relacionados con el texto dado.
  • Interfaz de conversación: Agrupa grupos de oraciones que pueden generar respuestas similares, como en un espacio de incorporaciones a nivel de conversación.

Ejemplo de caso de uso: Desarrolla un chatbot de recomendación de libros

Si deseas desarrollar un chatbot de recomendación de libros, lo primero que debes hacer es usar una red neuronal profunda (DNN) para convertir cada libro en un vector de incorporación, donde un vector de incorporación representa un libro. Puedes alimentar, como entrada a la DNN, solo el título del libro o solo el contenido del texto. O bien, puedes usar ambos en conjunto, demás de cualquier otro metadato que describa el libro, como el género.

Las incorporaciones de este ejemplo podrían estar compuestas por miles de títulos de libros con resúmenes y su género. También puede tener representaciones de libros, como Cumbres Borrascosas de Emily Brontë y Persuasión de Jane Austen que son similares entre sí (distancia pequeña entre la representación numérica). Mientras que la distancia de la representación numérica del libro El gran Gatsby de F. Scott Fitzgerald estaría más alejada, ya que el período, el género y el resumen son menos similares.

Las entradas son la influencia principal de la orientación del espacio de incorporaciones. Por ejemplo, si solo tenemos entradas de título de libro, dos libros con títulos similares, pero resúmenes muy diferentes, podrían estar cerca. Sin embargo, si incluimos el título y el resumen, estos mismos libros son menos similares (más lejanos) en el espacio de embedding.

Trabajando con IA generativa, este chatbot de sugerencias de libros podría resumir, sugerir y mostrar libros que te podrían gustar (o no) según tu consulta.

Casos de uso de incorporaciones multimodales

Estos son algunos casos de uso comunes de las incorporaciones multimodales:

  • Casos de uso de imágenes y texto:

    • Clasificación de imágenes: toma una imagen como entrada y predice una o más clases (etiquetas).
    • Búsqueda de imágenes: busca imágenes relevantes o similares.
    • Recomendaciones: genera recomendaciones de productos o anuncios según las imágenes.
  • Casos de uso de imagen, texto y video:

    • Recomendaciones: Genera recomendaciones de productos o anuncios según los videos (búsqueda de similitud).
    • Búsqueda de contenido de video
    • Usa una búsqueda semántica: Toma un texto como entrada y muestra un conjunto de marcos con clasificación que coinciden con la consulta.
    • Usa la búsqueda de similitud:
      • Toma un video como entrada y muestra un conjunto de videos que coincidan con la consulta.
      • Toma una imagen como entrada y muestra un conjunto de videos que coincidan con la consulta.
    • Clasificación de videos: Toma un video como entrada y predice una o más clases.

Ejemplo de caso de uso: Experiencia de venta minorista en línea

Los minoristas en línea aprovechan cada vez más las incorporaciones multimodales para mejorar la experiencia del cliente. Cada vez que veas recomendaciones de productos personalizadas mientras compras y obtienes resultados visuales de una búsqueda de texto, interactúas con una incorporación.

Si deseas crear una incorporación multimodal para un caso de uso de venta minorista en línea, comienza por procesar cada imagen de producto a fin de generar una incorporación de imágenes única, que es una representación matemática de su estilo visual, paleta de colores y clave, detalles y más. De manera simultánea, convierte descripciones de productos, opiniones de los clientes y otros datos textuales relevantes en incorporaciones de texto que capturen su significado y contexto semántico. Mediante la combinación de estas incorporaciones de imagen y texto en un motor de búsqueda y recomendaciones unificado, la tienda puede ofrecer recomendaciones personalizadas de artículos visualmente similares según el historial de navegación y las preferencias de un cliente. Además, permite a los clientes buscar productos mediante descripciones de lenguaje natural, ya que el motor recupera y muestra los elementos más visualmente similares que coinciden con su búsqueda. Por ejemplo, si un cliente busca “vestido de verano negro”, el motor de búsqueda puede mostrar vestidos de negro, además de cortes de vestido de verano, hechos de material más claro y sin mangas. Esta poderosa combinación de comprensión visual y textual crea una experiencia de compra optimizada que mejora la participación y la satisfacción de los clientes, y, en última instancia, puede generar ventas.

¿Qué sigue?