¿Qué son los modelos de base?

Los modelos de base, a veces conocidos como modelos fundamentales, son modelos de inteligencia artificial (IA) potentes que se entrenan con una gran cantidad de datos y se pueden adaptar a una amplia variedad de tareas. El término “modelo de base” fue acuñado por el Stanford Institute for Human-Centered Artificial Intelligence (HAI) en 2021.

Esta tecnología ofrece nuevas posibilidades en todas las industrias, desde la optimización del desarrollo de software hasta la mejora de las interacciones de atención al cliente.

Introducción a los modelos de base en Google Cloud

Definición de modelos de base

Los modelos de base son un tipo de modelo de IA que se somete a un entrenamiento previo con una gran cantidad de datos para realizar una variedad de tareas. Este proceso de entrenamiento, que a menudo utiliza el aprendizaje auto supervisado, les permite aprender patrones y relaciones complejos dentro de los datos, lo que les ayuda a realizar diversas tareas con mayor exactitud. Lo que es más importante, esta escala masiva puede generar capacidades emergentes, en las que el modelo puede completar tareas para las que no se entrenó de forma explícita. Este cambio de herramientas especializadas a modelos adaptables de uso general es el sello distintivo del paradigma de los modelos de base. 

¿Cuál es la diferencia entre un modelo de base y un LLM?

Los términos “modelo de base” y “modelo de lenguaje grande” (LLM) suelen usarse indistintamente, pero hay una diferencia clave. Los LLM son un tipo importante de modelo de base, pero no son el único. Piensa en ello como una relación entre padres e hijos: todos los LLM son modelos de base, pero no todos los modelos de base son LLM.

La diferencia clave es el tipo de datos en los que se basan. Los LLM, como su nombre lo indica, se entrenan específicamente con grandes cantidades de texto y código. La categoría más amplia de “modelos de base” también incluye modelos entrenados con otros tipos de datos, como imágenes, audio y video, o una combinación de ellos (multimodales).

¿Cuál es la diferencia entre la IA generativa y los modelos de base?

La IA generativa y los modelos de base son distintos, pero están estrechamente relacionados. La forma más útil de entender la diferencia es pensar en ellos como el “motor” frente a la “función”:

  • Un modelo de base es el motor potente previamente entrenado; es la tecnología subyacente creada con grandes cantidades de datos y diseñada para la adaptación
  • La IA generativa es una función principal que este motor puede realizar: la capacidad de crear contenido nuevo como texto, imágenes o código

Si bien la mayoría de los modelos de base populares se usan para tareas generativas, un modelo de base podría adaptarse para propósitos no generativos, como la clasificación o el análisis complejos. Por lo tanto, no todos los modelos de base son inherentemente generativos, pero son la tecnología clave que impulsa la ola actual de aplicaciones de IA generativa.

¿Cuáles son los tipos de modelos de base?

Los modelos de base abarcan varias arquitecturas, cada una diseñada con fortalezas y aplicaciones únicas. Estos son algunos tipos notables:

  • Modelos de lenguaje grandes (LLM): Estos modelos se especializan en comprender y generar lenguaje humano, y se destacan en tareas como la traducción, el resumen de textos y las interacciones con chatbots.
  • Modelos multimodales: Estos modelos, entrenados con diversos tipos de datos, incluidos texto, imágenes y audio, pueden analizar y generar contenido en múltiples modalidades.
  • Redes generativas adversarias (GAN): Las GAN son un tipo de modelo de base que involucra dos redes neuronales que compiten entre sí en un juego de suma cero. Una red, el generador, crea nuevas instancias de datos, mientras que la otra, el discriminador, evalúa su autenticidad. Este proceso adversarial lleva a la generación de contenido cada vez más realista y complejo.
  • Modelos de visión artificial: Estos modelos se entrenan con conjuntos de datos de imágenes para realizar tareas como clasificación de imágenes, detección de objetos y generación de imágenes. Se pueden ajustar para aplicaciones específicas, como el análisis de imágenes médicas o el reconocimiento de objetos en vehículos autónomos.

¿Cómo funcionan los modelos de base?

Los modelos de base se entrenan con grandes conjuntos de datos usando aprendizaje autosupervisado, que es un enfoque en el aprendizaje automático que aprovecha las técnicas de aprendizaje no supervisado para tareas que tradicionalmente requieren aprendizaje supervisado (por ejemplo, etiquetar datos con entrada humana). Esto ayuda a entrenar el modelo para predecir partes enmascaradas o faltantes de los datos de entrada. A medida que el modelo hace predicciones, aprende a identificar patrones, relaciones y estructuras subyacentes en los datos.

El proceso de entrenamiento de un modelo de base es similar al de un modelo de aprendizaje automático y, por lo general, implica varios pasos clave:

Recopilación y preparación de datos

  • Se recopila un conjunto de datos grande y diverso que es representativo de la distribución de datos del mundo real que el modelo encontrará durante la implementación.
  • Los datos se procesan previamente para quitar el ruido, los valores atípicos y las incoherencias. Esto puede incluir técnicas como la limpieza de datos, la normalización y la ingeniería de atributos.

Selección de la arquitectura del modelo

  • Se elige una arquitectura de modelo adecuada en función de varios factores, como la complejidad de la tarea, el tipo y el volumen de datos, y los recursos computacionales disponibles.
  • Las arquitecturas de modelos comunes que se usan para el aprendizaje auto supervisado incluyen redes neuronales convolucionales (CNN), redes neuronales recurrentes (RNN) y transformadores.

Entrenamiento autosupervisado

  • El modelo se entrena con técnicas de aprendizaje autosupervisado, que implican crear pseudoetiquetas para los datos y entrenar el modelo para predecir estas etiquetas.
  • Esto se puede hacer con varios métodos, como el aprendizaje contrastivo, el modelado de lenguaje enmascarado y los rompecabezas.
  • El entrenamiento auto supervisado permite que el modelo aprenda representaciones útiles de los datos sin depender de etiquetas anotadas manualmente, que pueden ser costosas y llevar mucho tiempo obtenerlas.

Ajuste

  • Después de que el modelo se haya entrenado previamente con aprendizaje autosupervisado, se puede ajustar en una colección de datos más específica y de nicho.
  • Esto implica adaptar los parámetros del modelo para optimizar el rendimiento en la tarea objetivo.
  • El ajuste fino ayuda al modelo a adaptarse a los requisitos específicos de la tarea y a mejorar su rendimiento general.

Capacitación sobre alineación y seguridad

  • Después del entrenamiento previo y el ajuste, la mayoría de los modelos de vanguardia pasan por una fase de alineación para garantizar que sus resultados sean útiles, inofensivos y estén alineados con la intención humana.
  • En este paso fundamental, a menudo se usan técnicas como el aprendizaje por refuerzo con retroalimentación humana (RLHF) y la optimización directa de preferencias (DPO), en las que revisores humanos califican las respuestas del modelo para guiarlo hacia comportamientos más deseables.

Evaluación e implementación

  • Una vez que el modelo se entrenó y se ajustó, se evalúa en un conjunto de pruebas retenido para evaluar su rendimiento.
  • Si el modelo cumple con los criterios de rendimiento deseados, se puede implementar en producción, donde se puede usar para resolver problemas del mundo real.

Beneficios de usar modelos de base

Los modelos de base ofrecen varias ventajas potenciales para las empresas y los desarrolladores:

Versatilidad

Los modelos de base se pueden adaptar a una amplia variedad de tareas, lo que elimina la necesidad de entrenar modelos separados para cada aplicación específica. Esta adaptabilidad los hace valiosos en diversas industrias y casos de uso.

Eficiencia

El uso de modelos de base previamente entrenados puede reducir significativamente el tiempo y los recursos necesarios para desarrollar nuevas aplicaciones de IA. Ajustar un modelo previamente entrenado suele ser más rápido y eficiente que entrenar un modelo desde cero.

Exactitud

Debido a su amplio entrenamiento en grandes conjuntos de datos, los modelos de base pueden lograr una alta exactitud en diversas tareas, superando a los modelos entrenados en conjuntos de datos más pequeños.

Rentabilidad

Al reducir la necesidad de grandes cantidades de datos de entrenamiento y recursos computacionales, los modelos de base pueden ofrecer una solución rentable para desarrollar aplicaciones de IA.

Innovación

Los modelos de base están ayudando a impulsar la innovación en el campo de la IA, lo que permite el desarrollo de aplicaciones de IA nuevas y más sofisticadas.

Escalabilidad

Los modelos de base se pueden escalar para manejar grandes conjuntos de datos y tareas complejas, lo que los hace adecuados para aplicaciones exigentes.

¿Cuáles son los desafíos y riesgos de los modelos de base?

A pesar de sus beneficios notables, los modelos de base presentan desafíos significativos que los usuarios y desarrolladores deben superar:

  • Sesgo y equidad: Los modelos de base pueden heredar y amplificar los sesgos sociales presentes en sus vastos datos de entrenamiento, lo que genera resultados injustos o prejuiciosos.
  • Alucinaciones: Los modelos pueden generar información que suena confiable, pero que es incorrecta o sin sentido, un fenómeno conocido como "alucinación".
  • Alto costo computacional: Entrenar estos modelos requiere una enorme potencia computacional y energía, lo que genera preocupaciones ambientales y financieras.

Ejemplos de modelos de base

El ecosistema de modelos de base es dinámico y competitivo. Estos son algunos de los ejemplos más influyentes de los principales agentes de la industria:

  • Google: Conocida por la familia Gemini, una serie de modelos multimodales potentes (Gemini 2.5 Pro es un ejemplo destacado), y Gemma, una familia de modelos ligeros y de peso abierto para desarrolladores; Google también desarrolló modelos especializados como Imagen para la generación de texto a imagen y Veo para la generación de video
  • OpenAI: Es el desarrollador de la influyente serie GPT (Generative Pre-trained Transformer), que incluye el ampliamente utilizado GPT-4.
  • Anthropic: Se enfoca en la seguridad de la IA y desarrolló la familia de modelos Claude; la serie Claude 3 (que incluye Opus, Sonnet y Haiku) es conocida por sus grandes ventanas de contexto y sólidas capacidades de razonamiento.
  • Meta: Como uno de los principales defensores de la IA de código abierto, Meta desarrolló la serie Llama. Llama 3 es un modelo abierto que aceleró la innovación en toda la comunidad.
  • Mistral AI: Es una empresa europea que ha ganado una tracción significativa con modelos comerciales y de código abierto de alto rendimiento, como Mistral Large y los modelos de código abierto Mixtral, que usan una arquitectura de mezcla de expertos (MoE) para una mayor eficiencia.

¿Cómo usa Google Cloud los modelos de base?

Google Cloud proporciona una plataforma empresarial de extremo a extremo, Vertex AI, diseñada para ayudar a las organizaciones a acceder, personalizar e implementar modelos de base para aplicaciones del mundo real. La estrategia se basa en ofrecer opciones, herramientas potentes y una infraestructura integrada.

Así es como Google Cloud usa los modelos de base:

  • Un ecosistema de modelos diverso y abierto: A través de Vertex AI Model Garden, Google Cloud ofrece acceso a una biblioteca integral de más de 130 modelos de base. Esto incluye los modelos de última generación de Google, como la familia Gemini (para tareas multimodales) y Gemma (para desarrollo abierto y ligero), junto con modelos populares de terceros y de código abierto de socios como Anthropic (Claude), Meta (Llama) y Mistral. Esto permite a los desarrolladores elegir el mejor modelo para sus necesidades específicas de costo y rendimiento.
  • Herramientas para la personalización y la fundamentación: Vertex AI proporciona un conjunto completo de herramientas para ir más allá de las instrucciones simples. Con Generative AI Studio, los equipos pueden probar y ajustar modelos. Una característica clave es la capacidad de fundamentar modelos en los propios datos empresariales de una organización. Esto conecta las capacidades de razonamiento del modelo con las fuentes de datos específicas de una empresa, lo que reduce significativamente las alucinaciones y hace que las respuestas sean coherentes y relevantes en cuanto a los hechos.
  • Creación de agentes y aplicaciones de IA: Google Cloud se enfoca en ayudar a los desarrolladores a crear aplicaciones de IA sofisticadas, no solo chatbots. Con Vertex AI Agent Builder, las organizaciones pueden crear e implementar agentes de IA conversacional para atención al cliente, mesas de ayuda internas y otros procesos empresariales.
  • Incorporación de la IA generativa en los flujos de trabajo: Los modelos de base se están integrando directamente en los servicios de Google Cloud que las empresas ya usan. Por ejemplo, Gemini Code Assist actúa como un asistente potenciado por IA para que los desarrolladores escriban, expliquen y prueben código más rápido, mientras que las funciones de BigQuery permiten el análisis de datos basado en IA directamente en el almacén de datos.

Da el siguiente paso

Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.

Google Cloud