La inferencia de IA es la parte "práctica" de la inteligencia artificial. Es el momento en que un modelo entrenado deja de aprender y empieza a trabajar, convirtiendo sus conocimientos en resultados del mundo real.
Para entenderlo mejor, piensa que el entrenamiento es como enseñar una nueva habilidad a una IA, mientras que la inferencia es la IA usando esa habilidad para hacer un trabajo. Recibe nuevos datos (como una foto o un fragmento de texto) y produce una salida instantánea, como una predicción, genera una foto o toma una decisión. Aquí es donde la IA aporta valor empresarial. Para cualquier persona que desarrolle con IA, entender cómo hacer inferencias de forma rápida, escalable y rentable es la clave para crear soluciones de éxito.
Aunque el ciclo de vida completo de la IA abarca desde la recogida de datos hasta la monitorización a largo plazo, el recorrido central de un modelo, desde su creación hasta su ejecución, consta de tres fases clave. Los dos primeros se centran en el aprendizaje, mientras que el último consiste en poner en práctica lo aprendido.
En esta tabla se resumen las principales diferencias:
Entrenamiento de IA | Ajuste fino de la IA | Inferencia de IA | Servicio de IA | |
Objetivo | Crea un nuevo modelo desde cero. | Adapta un modelo preentrenado para una tarea específica. | Usa un modelo entrenado para hacer predicciones. | Despliega y gestiona el modelo para que se encargue de las solicitudes de inferencia. |
Proceso | Aprende de forma iterativa a partir de un gran conjunto de datos. | Perfecciona un modelo ya creado con un conjunto de datos más pequeño. | Una sola "pasada hacia adelante" rápida de los nuevos datos. | Empaqueta el modelo y exponlo como una API |
Datos | Conjuntos de datos grandes, históricos y etiquetados. | Conjuntos de datos más pequeños y específicos de la tarea. | Datos reales, sin etiquetar y en tiempo real. | N/A |
Enfoque empresarial | Precisión y capacidad del modelo. | Eficiencia y personalización. | Velocidad (latencia), escala y rentabilidad. | Fiabilidad, escalabilidad y gestión del endpoint de inferencia. |
Entrenamiento de IA
Ajuste fino de la IA
Inferencia de IA
Servicio de IA
Objetivo
Crea un nuevo modelo desde cero.
Adapta un modelo preentrenado para una tarea específica.
Usa un modelo entrenado para hacer predicciones.
Despliega y gestiona el modelo para que se encargue de las solicitudes de inferencia.
Proceso
Aprende de forma iterativa a partir de un gran conjunto de datos.
Perfecciona un modelo ya creado con un conjunto de datos más pequeño.
Una sola "pasada hacia adelante" rápida de los nuevos datos.
Empaqueta el modelo y exponlo como una API
Datos
Conjuntos de datos grandes, históricos y etiquetados.
Conjuntos de datos más pequeños y específicos de la tarea.
Datos reales, sin etiquetar y en tiempo real.
N/A
Enfoque empresarial
Precisión y capacidad del modelo.
Eficiencia y personalización.
Velocidad (latencia), escala y rentabilidad.
Fiabilidad, escalabilidad y gestión del endpoint de inferencia.
En esencia, la inferencia de IA consta de tres pasos que transforman los datos nuevos en un resultado útil.
Veamos un ejemplo sencillo: un modelo de IA creado para identificar objetos en fotos.
Aunque una sola inferencia es rápida, servir a millones de usuarios en tiempo real aumenta la latencia y el coste, y requiere hardware optimizado. Las unidades de procesamiento gráfico (GPUs) especializadas en IA y las unidades de procesamiento de tensor de Google se han diseñado para gestionar estas tareas de forma eficiente, junto con la orquestación con Google Kubernetes Engine, lo que ayuda a aumentar el rendimiento y reducir la latencia.
Este es el enfoque más común, en el que la inferencia se ejecuta en potentes servidores remotos en un centro de datos. La nube ofrece una escalabilidad y unos recursos computacionales inmensos, lo que la convierte en la opción ideal para gestionar conjuntos de datos masivos y modelos complejos. En la nube, suele haber dos modos principales de inferencia:
Este enfoque realiza la inferencia directamente en el dispositivo donde se generan los datos, que puede ser un smartphone o un sensor industrial. Al evitar el viaje de ida y vuelta a la nube, la inferencia en el perímetro ofrece ventajas únicas:
Para ayudarte a elegir el mejor enfoque para tus necesidades específicas, aquí tienes una breve comparación de las características clave y los casos prácticos de cada tipo de inferencia de IA:
Función | Inferencia por lotes | Inferencia en tiempo real | Inferencia en el perímetro |
Ubicación principal | Cloud (centros de datos) | Cloud (centros de datos) | Dispositivo local (como un teléfono, un sensor de IoT o un robot) |
Latencia o tiempo de respuesta | Alto (las predicciones se devuelven tras procesar el lote) | Muy baja (de milisegundos a segundos por solicitud) | Extremadamente baja (casi instantánea, sin cambio de red) |
Volumen de datos | Conjuntos de datos grandes (como terabytes) | Eventos o solicitudes individuales | Eventos o solicitudes individuales (en el dispositivo) |
Flujo de datos | Los datos se envían a la nube, se procesan y se devuelven los resultados | Cada solicitud se envía a la nube, se procesa y se devuelve | Los datos se procesan en el dispositivo y los resultados se usan en él |
Casos prácticos habituales | Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico | Recomendaciones de productos, bots de chat, traducción en tiempo real, alertas de fraude en tiempo real | Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial |
Principales ventajas | Rentable para tareas grandes y no urgentes | Respuesta inmediata para aplicaciones para los usuarios | Latencia mínima, privacidad mejorada, capacidad offline y costes de ancho de banda reducidos |
Función
Inferencia por lotes
Inferencia en tiempo real
Inferencia en el perímetro
Ubicación principal
Cloud (centros de datos)
Cloud (centros de datos)
Dispositivo local (como un teléfono, un sensor de IoT o un robot)
Latencia o tiempo de respuesta
Alto (las predicciones se devuelven tras procesar el lote)
Muy baja (de milisegundos a segundos por solicitud)
Extremadamente baja (casi instantánea, sin cambio de red)
Volumen de datos
Conjuntos de datos grandes (como terabytes)
Eventos o solicitudes individuales
Eventos o solicitudes individuales (en el dispositivo)
Flujo de datos
Los datos se envían a la nube, se procesan y se devuelven los resultados
Cada solicitud se envía a la nube, se procesa y se devuelve
Los datos se procesan en el dispositivo y los resultados se usan en él
Casos prácticos habituales
Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico
Recomendaciones de productos, bots de chat, traducción en tiempo real, alertas de fraude en tiempo real
Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial
Principales ventajas
Rentable para tareas grandes y no urgentes
Respuesta inmediata para aplicaciones para los usuarios
Latencia mínima, privacidad mejorada, capacidad offline y costes de ancho de banda reducidos
La inferencia de IA está transformando los sectores al permitir nuevos niveles de automatización, una toma de decisiones más inteligente y aplicaciones innovadoras. Para los desarrolladores empresariales, estas son algunas áreas críticas en las que la inferencia aporta un valor de negocio tangible:
La inferencia de IA presenta una serie de retos técnicos específicos, como la gestión de la latencia, el control de los costes y la garantía de la escalabilidad. Google Cloud ofrece una ruta flexible para la inferencia, lo que te permite elegir las herramientas adecuadas en función de la complejidad de tu modelo, las necesidades de rendimiento y la capacidad operativa. Puedes empezar con soluciones totalmente gestionadas y, a medida que evolucionen tus necesidades, ir adoptando una infraestructura más personalizada.
Este enfoque es ideal para desarrolladores de cualquier nivel, incluidos aquellos que no tienen experiencia con la IA y quieren integrar rápidamente funciones potentes de IA. Solo hay que hacer llamadas a la API sencillas, sin necesidad de gestionar modelos ni infraestructura.
Usa los modelos Gemini de Google y una selección de modelos de código abierto con un sencillo endpoint de API. Se encarga de las complejidades del alojamiento y el escalado para que puedas centrarte en tu aplicación y obtener resultados eficaces en las tareas de IA generativa. |
Usa los modelos Gemini de Google y una selección de modelos de código abierto con un sencillo endpoint de API. Se encarga de las complejidades del alojamiento y el escalado para que puedas centrarte en tu aplicación y obtener resultados eficaces en las tareas de IA generativa.
Esta opción está pensada para desarrolladores que ya han creado un modelo personalizado. Puedes desplegarlo en el servicio gestionado de Google Cloud, lo que significa que no tienes que encargarte de la compleja configuración del servidor ni de la orquestación. Así puedes centrarte en tu modelo, no en la infraestructura.
Vertex AI Prediction es un servicio gestionado que despliega modelos de aprendizaje automático como endpoints escalables, utilizando aceleradores de hardware como las GPUs para procesar rápidamente tanto datos en tiempo real como grandes lotes de datos. | |
Despliega modelos en contenedores con autoescalado a cero y precios por petición, lo que resulta ideal para cargas de trabajo muy variables e intermitentes, o para servicios web sencillos. |
Vertex AI Prediction es un servicio gestionado que despliega modelos de aprendizaje automático como endpoints escalables, utilizando aceleradores de hardware como las GPUs para procesar rápidamente tanto datos en tiempo real como grandes lotes de datos.
Despliega modelos en contenedores con autoescalado a cero y precios por petición, lo que resulta ideal para cargas de trabajo muy variables e intermitentes, o para servicios web sencillos.
Ofrece a los desarrolladores y a los equipos de MLOps un control pormenorizado y flexibilidad para desplegar, gestionar y escalar servicios de inferencia en contenedores personalizados, a menudo con hardware especializado, en entornos de nube o híbridos.
GKE ofrece un control granular sobre el hardware, incluidas las CPUs, las GPUs y las TPUs, lo que resulta ideal para personalizar y optimizar el rendimiento y el coste de servir modelos de aprendizaje automático muy grandes o complejos. |
GKE ofrece un control granular sobre el hardware, incluidas las CPUs, las GPUs y las TPUs, lo que resulta ideal para personalizar y optimizar el rendimiento y el coste de servir modelos de aprendizaje automático muy grandes o complejos.
Si trabajas con SQL, ahora puedes obtener predicciones de modelos de IA directamente donde ya tienes tus datos. De esta forma, no es necesario mover los datos a una plataforma independiente, lo que simplifica tu flujo de trabajo.
Al usar BigQuery para la inferencia, puedes ejecutar modelos de aprendizaje automático directamente en tus datos con comandos SQL sencillos, lo que elimina la necesidad de mover datos y reduce la complejidad y la latencia. Es un método muy eficiente para procesar por lotes tareas como la segmentación de clientes o la previsión de la demanda, sobre todo si tus datos ya están almacenados en BigQuery. |
Al usar BigQuery para la inferencia, puedes ejecutar modelos de aprendizaje automático directamente en tus datos con comandos SQL sencillos, lo que elimina la necesidad de mover datos y reduce la complejidad y la latencia. Es un método muy eficiente para procesar por lotes tareas como la segmentación de clientes o la previsión de la demanda, sobre todo si tus datos ya están almacenados en BigQuery.
¿Quieres llevar tus habilidades de inferencia de IA al siguiente nivel? Aquí tienes algunos recursos valiosos que te ayudarán a entender mejor y a dar tus primeros pasos:
Empieza a crear en Google Cloud con 300 USD en crédito gratis y más de 20 productos Always Free.