¿Qué son los modelos fundacionales?

Los modelos fundacionales, también conocidos como modelos base, son potentes modelos de inteligencia artificial (IA) que se entrenan con una gran cantidad de datos y se pueden adaptar a una amplia variedad de tareas. El término "modelo fundacional" fue acuñado por el Instituto de Inteligencia Artificial Centrada en el Ser Humano de Stanford (HAI) en el 2021.

Esta tecnología ofrece nuevas posibilidades en todos los sectores, desde la optimización del desarrollo de software hasta la mejora de las interacciones con el servicio de atención al cliente.

Introducción a los modelos fundacionales en Google Cloud

Definición de modelos fundacionales

Los modelos fundacionales son un tipo de modelo de IA que se preentrena con una gran cantidad de datos para realizar una serie de tareas. Este proceso de entrenamiento, que suele usar el aprendizaje autosupervisado, les permite aprender patrones y relaciones complejos en los datos, lo que les ayuda a realizar diversas tareas con mayor precisión. Y lo que es más importante, esta enorme escala puede dar lugar a capacidades emergentes, en las que el modelo puede completar tareas para las que no se ha entrenado explícitamente. Este cambio de herramientas especializadas a modelos adaptables de uso general es el sello distintivo del paradigma de los modelos fundacionales. 

¿Qué diferencia hay entre un modelo fundacional y un LLM?

Los términos "modelo fundacional" y "modelo de lenguaje extenso" (LLM) se suelen usar indistintamente, pero hay una diferencia clave. Los LLMs son un tipo importante de modelo fundacional, pero no son los únicos. Piensa en ello como una relación padre-hijo: todos los LLMs son modelos fundacionales, pero no todos los modelos fundacionales son LLMs.

La diferencia clave es el tipo de datos en los que se basan. Los LLMs, como su nombre indica, se entrenan específicamente con grandes cantidades de texto y código. La categoría más amplia de "modelos fundacionales" también incluye modelos entrenados con otros tipos de datos, como imágenes, audio y vídeo, o una combinación de ellos (multimodales).

¿Qué diferencia hay entre la IA generativa y los modelos fundacionales?

La IA generativa y los modelos fundacionales son distintos, pero están estrechamente relacionados. La forma más útil de entender la diferencia es pensar en ellos como el "motor" y la "función":

  • Un modelo fundacional es un motor potente y preentrenado; es la tecnología subyacente creada a partir de grandes cantidades de datos y diseñada para adaptarse.
  • La IA generativa es una de las funciones principales que puede realizar este motor: la capacidad de crear contenido nuevo, como texto, imágenes o código.

Aunque los modelos fundacionales más populares se usan para tareas generativas, se pueden adaptar para fines no generativos, como la clasificación o el análisis complejos. Por tanto, no todos los modelos fundacionales son generativos por naturaleza, pero son la tecnología clave que impulsa la oleada actual de aplicaciones de IA generativa.

¿Qué tipos de modelos fundacionales hay?

Los modelos fundacionales abarcan varias arquitecturas, cada una diseñada con puntos fuertes y aplicaciones únicos. Estos son algunos de los tipos más importantes:

  • Modelos de lenguaje extenso (LLMs): estos modelos están especializados en comprender y generar lenguaje humano, y destacan en tareas como la traducción, el resumen de textos y las interacciones con bots de chat.
  • Modelos multimodales: se han entrenado con diversos tipos de datos, como texto, imágenes y audio, y pueden analizar y generar contenido en varias modalidades.
  • Redes generativas antagónicas (GAN): las GANs son un tipo de modelo fundacional que implica dos redes neuronales que compiten entre sí en un juego de suma cero. Una red, el generador, crea nuevas instancias de datos, mientras que la otra, el discriminador, evalúa su autenticidad. Este proceso antagónico lleva a la generación de contenido cada vez más realista y complejo.
  • Modelos de visión artificial: estos modelos se entrenan con conjuntos de datos de imágenes para realizar tareas como la clasificación de imágenes, la detección de objetos y la generación de imágenes. Se pueden ajustar para aplicaciones específicas, como el análisis de imágenes médicas o el reconocimiento de objetos en vehículos autónomos.

¿Cómo funcionan los modelos fundacionales?

Los modelos fundacionales se entrenan con conjuntos de datos enormes mediante el aprendizaje autosupervisado, que es un enfoque del aprendizaje automático que aprovecha las técnicas de aprendizaje no supervisado para tareas que tradicionalmente requieren aprendizaje supervisado (por ejemplo, etiquetar datos con la intervención de personas). Esto ayuda a entrenar el modelo para que prediga las partes enmascaradas o que faltan de los datos de entrada. A medida que el modelo hace predicciones, aprende a identificar patrones, relaciones y estructuras subyacentes en los datos.

El proceso de entrenamiento de un modelo fundacional es similar al de un modelo de aprendizaje automático y suele incluir varios pasos clave:

Recogida y preparación de datos

  • Se recopila un conjunto de datos amplio y diverso que sea representativo de la distribución de datos del mundo real con la que se encontrará el modelo durante la implementación.
  • Los datos se preprocesan para eliminar el ruido, los valores atípicos y las incoherencias. Esto puede incluir técnicas como la limpieza de datos, la normalización y la ingeniería de características.

Selección de la arquitectura del modelo

  • Se elige una arquitectura de modelo adecuada en función de varios factores, como la complejidad de la tarea, el tipo y el volumen de datos, y los recursos computacionales disponibles.
  • Las arquitecturas de modelos que se suelen usar en el aprendizaje autosupervisado incluyen redes neuronales convolucionales (CNNs), redes neuronales recurrentes (RNNs) y transformadores.

Entrenamiento autovisualizado

  • El modelo se entrena mediante técnicas de aprendizaje autosupervisado, que consisten en crear pseudoetiquetas para los datos y entrenar el modelo para que las prediga.
  • Esto se puede hacer mediante varios métodos, como el aprendizaje contrastivo, el modelado de lenguaje enmascarado y los rompecabezas.
  • El entrenamiento autovigilado permite al modelo aprender representaciones útiles de los datos sin depender de etiquetas anotadas manualmente, que pueden ser caras y llevar mucho tiempo de obtener.

Afinamiento

  • Una vez que el modelo se ha preentrenado mediante el aprendizaje autosupervisado, se puede ajustar con una colección de datos más específica y de nicho.
  • Esto implica adaptar los parámetros del modelo para optimizar el rendimiento en la tarea objetivo.
  • El afinamiento ayuda al modelo a adaptarse a los requisitos específicos de la tarea y a mejorar su rendimiento general.

Formación sobre alineación y seguridad

  • Tras el preentrenamiento y el ajuste fino, la mayoría de los modelos de última generación pasan por una fase de alineación para asegurar que sus resultados sean útiles, inofensivos y estén en consonancia con la intención humana.
  • En este paso crucial, se suelen usar técnicas como el aprendizaje por refuerzo a partir de comentarios humanos (RLHF) y la optimización directa de preferencias (DPO), en las que revisores humanos valoran las respuestas del modelo para guiarlo hacia comportamientos más deseables.

Evaluación e implementación

  • Una vez que el modelo se ha entrenado y ajustado, se evalúa en un conjunto de pruebas reservado para este fin para determinar su rendimiento.
  • Si el modelo cumple los criterios de rendimiento deseados, se puede desplegar en producción, donde se puede usar para resolver problemas del mundo real.

Ventajas de usar modelos fundacionales

Los modelos fundacionales ofrecen varias ventajas potenciales para las empresas y los desarrolladores:

Versatilidad

Los modelos fundacionales se pueden adaptar a una amplia variedad de tareas, lo que elimina la necesidad de entrenar modelos independientes para cada aplicación específica. Esta adaptabilidad los hace valiosos en diversos sectores y casos prácticos.

Eficiencia

Usar modelos fundacionales preentrenados puede reducir significativamente el tiempo y los recursos necesarios para desarrollar nuevas aplicaciones de IA. Afinar un modelo preentrenado suele ser más rápido y eficiente que entrenar un modelo desde cero.

Precisión

Gracias a su exhaustivo entrenamiento con grandes conjuntos de datos, los modelos fundacionales pueden alcanzar una alta precisión en diversas tareas, superando a los modelos entrenados con conjuntos de datos más pequeños.

Rentabilidad

Al reducir la necesidad de grandes cantidades de datos de entrenamiento y recursos computacionales, los modelos fundacionales pueden ofrecer una solución rentable para desarrollar aplicaciones de IA.

Innovación

Los modelos fundacionales están impulsando la innovación en el campo de la IA, ya que permiten desarrollar aplicaciones de IA nuevas y más sofisticadas.

Escalabilidad

Los modelos fundacionales se pueden escalar para gestionar grandes conjuntos de datos y tareas complejas, lo que los hace adecuados para aplicaciones exigentes.

¿Cuáles son los retos y los riesgos de los modelos fundacionales?

A pesar de sus notables ventajas, los modelos fundacionales presentan retos importantes que los usuarios y los desarrolladores deben superar:

  • Sesgo y equidad: los modelos fundacionales pueden heredar y amplificar los sesgos sociales presentes en sus grandes conjuntos de datos de entrenamiento, lo que puede dar lugar a resultados injustos o prejuiciosos.
  • Alucinaciones: los modelos pueden generar información que suena convincente pero que es incorrecta o no tiene sentido, un fenómeno conocido como "alucinación".
  • Alto coste computacional: entrenar estos modelos requiere una enorme potencia computacional y energía, lo que plantea problemas medioambientales y financieros.

Ejemplos de modelos fundacionales

El ecosistema de modelos fundacionales es dinámico y competitivo. Estos son algunos de los ejemplos más influyentes de los principales agentes del sector:

  • Google: es conocida por la familia de modelos Gemini, una serie de potentes modelos multimodales (Gemini 2.5 Pro es un ejemplo destacado), y Gemma, una familia de modelos ligeros de código abierto para desarrolladores. Google también ha desarrollado modelos especializados como Imagen para la generación de imágenes a partir de texto y Veo para la generación de vídeo.
  • OpenAI desarrollador de la influyente serie de modelos GPT (transformador generativo preentrenado), incluido el ampliamente utilizado GPT-4.
  • Anthropic se centra en la seguridad de la IA y ha desarrollado la familia de modelos Claude. La serie Claude 3 (que incluye Opus, Sonnet y Haiku) es conocida por sus amplias ventanas de contexto y sus sólidas capacidades de razonamiento.
  • Meta es uno de los principales defensores de la IA de código abierto. Ha desarrollado la serie Llama, cuyo modelo Llama 3 es abierto y ha acelerado la innovación en toda la comunidad.
  • Mistral AI: empresa europea que ha ganado mucha popularidad con sus modelos abiertos y comerciales de alto rendimiento, como Mistral Large y los modelos de código abierto Mixtral, que utilizan una arquitectura de Mixture-of-Experts (MoE) para mejorar la eficiencia.

¿Cómo usa Google Cloud los modelos fundacionales?

Google Cloud proporciona una plataforma empresarial integral, Vertex AI, diseñada para ayudar a las empresas a acceder, personalizar y desplegar modelos fundacionales para aplicaciones del mundo real. La estrategia se basa en ofrecer opciones, herramientas potentes e infraestructura integrada.

Así es como Google Cloud usa los modelos fundacionales:

  • Un ecosistema de modelos diverso y abierto: a través de Vertex AI Model Garden, Google Cloud ofrece acceso a una completa biblioteca de más de 130 modelos fundacionales. Esto incluye los modelos de vanguardia de Google, como la familia Gemini (para tareas multimodales) y Gemma (para desarrollo abierto y ligero), junto con modelos populares de terceros y de código abierto de partners como Anthropic (Claude), Meta (Llama) y Mistral. De esta forma, los desarrolladores pueden elegir el modelo que mejor se adapte a sus necesidades específicas de coste y rendimiento.
  • Herramientas de personalización y grounding: Vertex AI ofrece un paquete completo de herramientas para ir más allá de las peticiones sencillas. Con Generative AI Studio, los equipos pueden probar y ajustar modelos. Una de sus funciones clave es la capacidad de basar los modelos en los datos empresariales propios de una organización. De esta forma, se conectan las capacidades de razonamiento del modelo con las fuentes de datos específicas de una empresa, lo que reduce significativamente las alucinaciones y hace que las respuestas sean coherentes y relevantes.
  • Creación de agentes y aplicaciones de IA: Google Cloud se centra en ayudar a los desarrolladores a crear aplicaciones de IA sofisticadas, no solo bots de chat. Con Vertex AI Agent Builder, las empresas pueden crear y desplegar agentes de IA conversacional para el servicio de atención al cliente, los centros de asistencia internos y otros procesos empresariales.
  • Integración de la IA generativa en los flujos de trabajo: los modelos fundacionales se están integrando directamente en los servicios de Google Cloud que ya usan las empresas. Por ejemplo, Gemini Code Assist actúa como un asistente basado en IA que ayuda a los desarrolladores a escribir, explicar y probar código más rápido, mientras que las funciones de BigQuery permiten realizar análisis de datos basados en IA directamente en el almacén de datos.

Ve un paso más allá

Empieza a crear en Google Cloud con 300 USD en crédito gratis y más de 20 productos Always Free.

Google Cloud