¿Qué es la inferencia de IA?

La inferencia de IA es la parte "práctica" de la inteligencia artificial. Es el momento en que un modelo entrenado deja de aprender y empieza a trabajar, convirtiendo sus conocimientos en resultados del mundo real.

Para entenderlo mejor, piensa que el entrenamiento es como enseñar una nueva habilidad a una IA, mientras que la inferencia es la IA usando esa habilidad para hacer un trabajo. Recibe nuevos datos (como una foto o un fragmento de texto) y produce una salida instantánea, como una predicción, genera una foto o toma una decisión. Aquí es donde la IA aporta valor empresarial. Para cualquier persona que desarrolle con IA, entender cómo hacer inferencias de forma rápida, escalable y rentable es la clave para crear soluciones de éxito.

BLOG

Pregunta a un experto de la tecnología: ¿qué es la inferencia?

Entrenamiento de la IA, afinamiento, inferencia y servicio

Aunque el ciclo de vida completo de la IA abarca desde la recogida de datos hasta la monitorización a largo plazo, el recorrido central de un modelo, desde su creación hasta su ejecución, consta de tres fases clave. Los dos primeros se centran en el aprendizaje, mientras que el último consiste en poner en práctica lo aprendido.

El entrenamiento de la IA es la fase de aprendizaje fundamental. Es un proceso que consume muchos recursos computacionales, en el que un modelo analiza un conjunto de datos masivo para aprender patrones y relaciones. El objetivo es crear un modelo preciso y con conocimientos. Esto requiere potentes aceleradores de hardware (como GPUs y TPUs) y puede llevar desde horas hasta semanas.
El ajuste de la IA es un atajo para el entrenamiento. Se toma un modelo potente y preentrenado y se adapta a una tarea más específica usando un conjunto de datos más pequeño y especializado. Esto ahorra mucho tiempo y recursos en comparación con el entrenamiento de un modelo desde cero.
La inferencia de IA es la fase de ejecución. Utiliza el modelo entrenado y ajustado para hacer predicciones rápidas sobre datos nuevos y "desconocidos". Cada predicción individual requiere mucha menos potencia computacional que el entrenamiento, pero ofrecer millones de predicciones en tiempo real exige una infraestructura altamente optimizada y escalable.
El servicio de IA es el proceso de desplegar y gestionar el modelo para la inferencia. Esto suele implicar empaquetar el modelo, configurar un endpoint de API y gestionar la infraestructura para que pueda procesar las solicitudes.

En esta tabla se resumen las principales diferencias:

	Entrenamiento de IA	Ajuste fino de la IA	Inferencia de IA	Servicio de IA
Objetivo	Crea un nuevo modelo desde cero.	Adapta un modelo preentrenado para una tarea específica.	Usa un modelo entrenado para hacer predicciones.	Despliega y gestiona el modelo para que se encargue de las solicitudes de inferencia.
Proceso	Aprende de forma iterativa a partir de un gran conjunto de datos.	Perfecciona un modelo ya creado con un conjunto de datos más pequeño.	Una sola "pasada hacia adelante" rápida de los nuevos datos.	Empaqueta el modelo y exponlo como una API
Datos	Conjuntos de datos grandes, históricos y etiquetados.	Conjuntos de datos más pequeños y específicos de la tarea.	Datos reales, sin etiquetar y en tiempo real.	N/A
Enfoque empresarial	Precisión y capacidad del modelo.	Eficiencia y personalización.	Velocidad (latencia), escala y rentabilidad.	Fiabilidad, escalabilidad y gestión del endpoint de inferencia.

Entrenamiento de IA

Ajuste fino de la IA

Inferencia de IA

Servicio de IA

Objetivo

Crea un nuevo modelo desde cero.

Adapta un modelo preentrenado para una tarea específica.

Usa un modelo entrenado para hacer predicciones.

Despliega y gestiona el modelo para que se encargue de las solicitudes de inferencia.

Proceso

Aprende de forma iterativa a partir de un gran conjunto de datos.

Perfecciona un modelo ya creado con un conjunto de datos más pequeño.

Una sola "pasada hacia adelante" rápida de los nuevos datos.

Empaqueta el modelo y exponlo como una API

Datos

Conjuntos de datos grandes, históricos y etiquetados.

Conjuntos de datos más pequeños y específicos de la tarea.

Datos reales, sin etiquetar y en tiempo real.

N/A

Enfoque empresarial

Precisión y capacidad del modelo.

Eficiencia y personalización.

Velocidad (latencia), escala y rentabilidad.

Fiabilidad, escalabilidad y gestión del endpoint de inferencia.

¿Cómo funciona la inferencia de IA?

En esencia, la inferencia de IA consta de tres pasos que transforman los datos nuevos en un resultado útil.

Veamos un ejemplo sencillo: un modelo de IA creado para identificar objetos en fotos.

Preparación de los datos de entrada: en primer lugar, se proporcionan datos nuevos, como una foto que acabas de enviar. Esta foto se prepara al instante para el modelo, lo que puede significar simplemente cambiar su tamaño a las dimensiones exactas con las que se entrenó.
Ejecución del modelo: a continuación, el modelo de IA analiza la foto preparada. Busca patrones (como colores, formas y texturas) que coincidan con lo que aprendió durante su entrenamiento. Este análisis rápido se denomina "pase hacia adelante", un paso de solo lectura en el que el modelo aplica sus conocimientos sin aprender nada nuevo.
Generación de resultados: el modelo produce un resultado útil. En el caso del análisis de fotos, podría ser una puntuación de probabilidad (por ejemplo, un 95 % de posibilidades de que la imagen contenga un "perro"). Esta salida se envía a la aplicación y se muestra al usuario.

Aunque una sola inferencia es rápida, servir a millones de usuarios en tiempo real aumenta la latencia y el coste, y requiere hardware optimizado. Las unidades de procesamiento gráfico (GPUs) especializadas en IA y las unidades de procesamiento de tensor de Google se han diseñado para gestionar estas tareas de forma eficiente, junto con la orquestación con Google Kubernetes Engine, lo que ayuda a aumentar el rendimiento y reducir la latencia.

Tipos de inferencia de IA

Inferencia en la nube: potencia y escalabilidad

Este es el enfoque más común, en el que la inferencia se ejecuta en potentes servidores remotos en un centro de datos. La nube ofrece una escalabilidad y unos recursos computacionales inmensos, lo que la convierte en la opción ideal para gestionar conjuntos de datos masivos y modelos complejos. En la nube, suele haber dos modos principales de inferencia:

Inferencia en tiempo real (online): procesa solicitudes individuales de forma instantánea a medida que llegan, a menudo en cuestión de milisegundos. Esto es fundamental para las aplicaciones interactivas que requieren una respuesta inmediata.
Inferencia por lotes (offline): procesa grandes volúmenes de datos de una sola vez, normalmente cuando no se necesitan respuestas inmediatas. Es un método muy rentable para realizar análisis periódicos o tareas programadas.

Inferencia en el dispositivo: para mayor velocidad y privacidad

Este enfoque realiza la inferencia directamente en el dispositivo donde se generan los datos, que puede ser un smartphone o un sensor industrial. Al evitar el viaje de ida y vuelta a la nube, la inferencia en el perímetro ofrece ventajas únicas:

Latencia reducida: las respuestas son casi instantáneas, lo cual es fundamental para aplicaciones como los vehículos autónomos o las comprobaciones de fabricación en tiempo real.
Privacidad mejorada: los datos sensibles (como escáneres médicos, fotos personales o feeds de vídeo) se pueden procesar en el dispositivo sin enviarse nunca a la nube.
Menores costes de ancho de banda: al procesar los datos de forma local, se reduce significativamente la cantidad de datos que se deben subir y descargar.
Funcionalidad sin conexión: la aplicación puede seguir funcionando incluso sin conexión a Internet, lo que garantiza un funcionamiento continuo en entornos remotos o desconectados.

Soluciona los retos empresariales que se te presenten con Google Cloud

Los nuevos clientes reciben 300 USD en crédito gratis para invertirlos en Google Cloud.

Comparación de la inferencia de IA

Para ayudarte a elegir el mejor enfoque para tus necesidades específicas, aquí tienes una breve comparación de las características clave y los casos prácticos de cada tipo de inferencia de IA:

Función	Inferencia por lotes	Inferencia en tiempo real	Inferencia en el perímetro
Ubicación principal	Cloud (centros de datos)	Cloud (centros de datos)	Dispositivo local (como un teléfono, un sensor de IoT o un robot)
Latencia o tiempo de respuesta	Alto (las predicciones se devuelven tras procesar el lote)	Muy baja (de milisegundos a segundos por solicitud)	Extremadamente baja (casi instantánea, sin cambio de red)
Volumen de datos	Conjuntos de datos grandes (como terabytes)	Eventos o solicitudes individuales	Eventos o solicitudes individuales (en el dispositivo)
Flujo de datos	Los datos se envían a la nube, se procesan y se devuelven los resultados	Cada solicitud se envía a la nube, se procesa y se devuelve	Los datos se procesan en el dispositivo y los resultados se usan en él
Casos prácticos habituales	Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico	Recomendaciones de productos, bots de chat, traducción en tiempo real, alertas de fraude en tiempo real	Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial
Principales ventajas	Rentable para tareas grandes y no urgentes	Respuesta inmediata para aplicaciones para los usuarios	Latencia mínima, privacidad mejorada, capacidad offline y costes de ancho de banda reducidos

Función

Inferencia por lotes

Inferencia en tiempo real

Inferencia en el perímetro

Ubicación principal

Cloud (centros de datos)

Dispositivo local (como un teléfono, un sensor de IoT o un robot)

Latencia o tiempo de respuesta

Alto (las predicciones se devuelven tras procesar el lote)

Muy baja (de milisegundos a segundos por solicitud)

Extremadamente baja (casi instantánea, sin cambio de red)

Volumen de datos

Conjuntos de datos grandes (como terabytes)

Eventos o solicitudes individuales

Eventos o solicitudes individuales (en el dispositivo)

Flujo de datos

Los datos se envían a la nube, se procesan y se devuelven los resultados

Cada solicitud se envía a la nube, se procesa y se devuelve

Los datos se procesan en el dispositivo y los resultados se usan en él

Casos prácticos habituales

Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico

Recomendaciones de productos, bots de chat, traducción en tiempo real, alertas de fraude en tiempo real

Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial

Principales ventajas

Rentable para tareas grandes y no urgentes

Respuesta inmediata para aplicaciones para los usuarios

Latencia mínima, privacidad mejorada, capacidad offline y costes de ancho de banda reducidos

Casos prácticos para desarrolladores

La inferencia de IA está transformando los sectores al permitir nuevos niveles de automatización, una toma de decisiones más inteligente y aplicaciones innovadoras. Para los desarrolladores empresariales, estas son algunas áreas críticas en las que la inferencia aporta un valor de negocio tangible:

Detección de riesgos y fraudes en tiempo real

Analiza al instante las transacciones financieras, el comportamiento de los usuarios o los registros del sistema para identificar y marcar actividades sospechosas. Esto permite una intervención proactiva para evitar el fraude, el blanqueo de dinero o las brechas de seguridad.
Ejemplo: una empresa de tarjetas de crédito usa la inferencia para autorizar transacciones en milisegundos y bloquear de inmediato las compras potencialmente fraudulentas.

Hiperpersonalización y motores de recomendaciones

Ofrece experiencias muy personalizadas a los usuarios prediciendo sus preferencias en función de sus interacciones anteriores y del contexto en tiempo real.
Ejemplo: las plataformas de comercio electrónico usan la inferencia para sugerir productos a los compradores, y los servicios de streaming recomiendan películas basándose en los hábitos de visualización, lo que aumenta la interacción y las ventas.

Automatización y agentes basados en IA

Despliega modelos de IA para automatizar tareas rutinarias, ofrecer asistencia inteligente o interactuar con los usuarios a escala.
Ejemplo: las organizaciones de atención al cliente usan agentes de IA para gestionar consultas comunes, lo que permite que los agentes humanos se centren en problemas complejos. Las fábricas usan la IA para realizar inspecciones de calidad automatizadas en las cadenas de montaje.

Mantenimiento y operaciones predictivos

Analiza los datos de los sensores de maquinaria, infraestructuras o sistemas de TI para predecir fallos, anticipar la demanda u optimizar la asignación de recursos antes de que surjan problemas.
Ejemplo: las empresas de fabricación usan la inferencia para predecir cuándo necesitan mantenimiento sus equipos, lo que minimiza el tiempo de inactividad y prolonga la vida útil de los activos. Por su parte, las empresas de logística optimizan las rutas basándose en predicciones de tráfico en tiempo real.

Generación y comprensión de contenido avanzadas

Aprovecha la IA para crear contenido nuevo (texto, código, imágenes, audio) o para comprender en profundidad los datos no estructurados que ya tienes.
Ejemplo: los desarrolladores usan modelos de generación de código para acelerar el desarrollo de software, o los equipos de marketing usan la IA para resumir documentos extensos y personalizar el texto de los anuncios.

Cómo puede ayudar Google Cloud con la inferencia de IA

La inferencia de IA presenta una serie de retos técnicos específicos, como la gestión de la latencia, el control de los costes y la garantía de la escalabilidad. Google Cloud ofrece una ruta flexible para la inferencia, lo que te permite elegir las herramientas adecuadas en función de la complejidad de tu modelo, las necesidades de rendimiento y la capacidad operativa. Puedes empezar con soluciones totalmente gestionadas y, a medida que evolucionen tus necesidades, ir adoptando una infraestructura más personalizada.

Usa APIs de IA preentrenadas y modelos predefinidos para un despliegue rápido

Este enfoque es ideal para desarrolladores de cualquier nivel, incluidos aquellos que no tienen experiencia con la IA y quieren integrar rápidamente funciones potentes de IA. Solo hay que hacer llamadas a la API sencillas, sin necesidad de gestionar modelos ni infraestructura.

Model Garden de Vertex AI

Usa los modelos Gemini de Google y una selección de modelos de código abierto con un sencillo endpoint de API. Se encarga de las complejidades del alojamiento y el escalado para que puedas centrarte en tu aplicación y obtener resultados eficaces en las tareas de IA generativa.

Model Garden de Vertex AI

Despliega modelos personalizados en una infraestructura gestionada

Esta opción está pensada para desarrolladores que ya han creado un modelo personalizado. Puedes desplegarlo en el servicio gestionado de Google Cloud, lo que significa que no tienes que encargarte de la compleja configuración del servidor ni de la orquestación. Así puedes centrarte en tu modelo, no en la infraestructura.

Vertex AI Prediction	Vertex AI Prediction es un servicio gestionado que despliega modelos de aprendizaje automático como endpoints escalables, utilizando aceleradores de hardware como las GPUs para procesar rápidamente tanto datos en tiempo real como grandes lotes de datos.
Cloud Run	Despliega modelos en contenedores con autoescalado a cero y precios por petición, lo que resulta ideal para cargas de trabajo muy variables e intermitentes, o para servicios web sencillos.

Vertex AI Prediction

Vertex AI Prediction es un servicio gestionado que despliega modelos de aprendizaje automático como endpoints escalables, utilizando aceleradores de hardware como las GPUs para procesar rápidamente tanto datos en tiempo real como grandes lotes de datos.

Cloud Run

Despliega modelos en contenedores con autoescalado a cero y precios por petición, lo que resulta ideal para cargas de trabajo muy variables e intermitentes, o para servicios web sencillos.

Crea una plataforma de publicación personalizada para tener el máximo control

Ofrece a los desarrolladores y a los equipos de MLOps un control pormenorizado y flexibilidad para desplegar, gestionar y escalar servicios de inferencia en contenedores personalizados, a menudo con hardware especializado, en entornos de nube o híbridos.

Google Kubernetes Engine (GKE)

GKE ofrece un control granular sobre el hardware, incluidas las CPUs, las GPUs y las TPUs, lo que resulta ideal para personalizar y optimizar el rendimiento y el coste de servir modelos de aprendizaje automático muy grandes o complejos.

Google Kubernetes Engine (GKE)

Realiza inferencias directamente en tu almacén de datos mediante SQL

Si trabajas con SQL, ahora puedes obtener predicciones de modelos de IA directamente donde ya tienes tus datos. De esta forma, no es necesario mover los datos a una plataforma independiente, lo que simplifica tu flujo de trabajo.

BigQuery ML

Al usar BigQuery para la inferencia, puedes ejecutar modelos de aprendizaje automático directamente en tus datos con comandos SQL sencillos, lo que elimina la necesidad de mover datos y reduce la complejidad y la latencia. Es un método muy eficiente para procesar por lotes tareas como la segmentación de clientes o la previsión de la demanda, sobre todo si tus datos ya están almacenados en BigQuery.