La inferencia de IA es la parte "práctica" de la inteligencia artificial. Es el momento en que un modelo entrenado deja de aprender y empieza a trabajar, convirtiendo sus conocimientos en resultados del mundo real.
Para entenderlo mejor, piensa que el entrenamiento es como enseñar una nueva habilidad a una IA, mientras que la inferencia es la IA usando esa habilidad para hacer un trabajo. Recibe nuevos datos (como una foto o un fragmento de texto) y produce una salida instantánea, como una predicción, genera una foto o toma una decisión. Aquí es donde la IA aporta valor empresarial. Para cualquier persona que desarrolle con IA, entender cómo hacer inferencias de forma rápida, escalable y rentable es la clave para crear soluciones de éxito. Por ejemplo, un desarrollador de una empresa podría usar la inferencia de IA en Google Kubernetes Engine (GKE) para crear un sistema que analice las compras de los clientes en tiempo real y ofrezca descuentos personalizados en el momento de pagar, lo que aumentaría las ventas y la satisfacción de los clientes.
Aunque el ciclo de vida completo de la IA abarca desde la recogida de datos hasta la monitorización a largo plazo, el recorrido central de un modelo, desde su creación hasta su ejecución, consta de tres fases clave. Los dos primeros se centran en el aprendizaje, mientras que el último consiste en poner en práctica lo aprendido.
En esta tabla se resumen las principales diferencias:
Entrenamiento de IA | Ajuste fino de la IA | Inferencia de IA | Servicio de IA | |
Objetivo | Crea un nuevo modelo desde cero. | Adapta un modelo preentrenado para una tarea específica. | Usa un modelo entrenado para hacer predicciones. | Despliega y gestiona el modelo para que se encargue de las solicitudes de inferencia. |
Proceso | Aprende de forma iterativa a partir de un gran conjunto de datos. | Perfecciona un modelo ya creado con un conjunto de datos más pequeño. | Una sola "pasada hacia adelante" rápida de los nuevos datos. | Empaqueta el modelo y exponlo como una API |
Datos | Conjuntos de datos grandes, históricos y etiquetados. | Conjuntos de datos más pequeños y específicos de la tarea. | Datos reales, sin etiquetar y en tiempo real. | N/A |
Enfoque empresarial | Precisión y capacidad del modelo. | Eficiencia y personalización. | Velocidad (latencia), escala y rentabilidad. | Fiabilidad, escalabilidad y gestión del endpoint de inferencia. |
Entrenamiento de IA
Ajuste fino de la IA
Inferencia de IA
Servicio de IA
Objetivo
Crea un nuevo modelo desde cero.
Adapta un modelo preentrenado para una tarea específica.
Usa un modelo entrenado para hacer predicciones.
Despliega y gestiona el modelo para que se encargue de las solicitudes de inferencia.
Proceso
Aprende de forma iterativa a partir de un gran conjunto de datos.
Perfecciona un modelo ya creado con un conjunto de datos más pequeño.
Una sola "pasada hacia adelante" rápida de los nuevos datos.
Empaqueta el modelo y exponlo como una API
Datos
Conjuntos de datos grandes, históricos y etiquetados.
Conjuntos de datos más pequeños y específicos de la tarea.
Datos reales, sin etiquetar y en tiempo real.
N/A
Enfoque empresarial
Precisión y capacidad del modelo.
Eficiencia y personalización.
Velocidad (latencia), escala y rentabilidad.
Fiabilidad, escalabilidad y gestión del endpoint de inferencia.
En esencia, la inferencia de IA consta de tres pasos que transforman los datos nuevos en un resultado útil.
Veamos un ejemplo sencillo: un modelo de IA creado para identificar objetos en fotos.
Aunque una sola inferencia es rápida, servir a millones de usuarios en tiempo real aumenta la latencia y el coste, y requiere hardware optimizado. Las unidades de procesamiento gráfico (GPUs) especializadas en IA y las unidades de procesamiento de tensor de Google se han diseñado para gestionar estas tareas de forma eficiente, junto con la orquestación con Google Kubernetes Engine, lo que ayuda a aumentar el rendimiento y reducir la latencia.
Este es el enfoque más común, en el que la inferencia se ejecuta en potentes servidores remotos en un centro de datos. La nube ofrece una escalabilidad y unos recursos computacionales inmensos, lo que la convierte en la opción ideal para gestionar conjuntos de datos masivos y modelos complejos. En la nube, suele haber dos modos principales de inferencia:
Este enfoque realiza la inferencia directamente en el dispositivo donde se generan los datos, que puede ser un smartphone o un sensor industrial. Al evitar el viaje de ida y vuelta a la nube, la inferencia en el perímetro ofrece ventajas únicas:
Para ayudarte a elegir el mejor enfoque para tus necesidades específicas, aquí tienes una breve comparación de las características clave y los casos prácticos de cada tipo de inferencia de IA:
Función | Inferencia por lotes | Inferencia en tiempo real | Inferencia en el perímetro |
Ubicación principal | Cloud (centros de datos) | Cloud (centros de datos) | Dispositivo local (como un teléfono, un sensor de IoT o un robot) |
Latencia o tiempo de respuesta | Alto (las predicciones se devuelven tras procesar el lote) | Muy baja (de milisegundos a segundos por solicitud) | Extremadamente baja (casi instantánea, sin cambio de red) |
Volumen de datos | Conjuntos de datos grandes (como terabytes) | Eventos o solicitudes individuales | Eventos o solicitudes individuales (en el dispositivo) |
Flujo de datos | Los datos se envían a la nube, se procesan y se devuelven los resultados | Cada solicitud se envía a la nube, se procesa y se devuelve | Los datos se procesan en el dispositivo y los resultados se usan en él |
Casos prácticos habituales | Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico | Recomendaciones de productos, bots de chat, traducción en tiempo real, alertas de fraude en tiempo real | Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial |
Principales ventajas | Rentable para tareas grandes y no urgentes | Respuesta inmediata para aplicaciones para los usuarios | Latencia mínima, privacidad mejorada, capacidad offline y costes de ancho de banda reducidos |
Función
Inferencia por lotes
Inferencia en tiempo real
Inferencia en el perímetro
Ubicación principal
Cloud (centros de datos)
Cloud (centros de datos)
Dispositivo local (como un teléfono, un sensor de IoT o un robot)
Latencia o tiempo de respuesta
Alto (las predicciones se devuelven tras procesar el lote)
Muy baja (de milisegundos a segundos por solicitud)
Extremadamente baja (casi instantánea, sin cambio de red)
Volumen de datos
Conjuntos de datos grandes (como terabytes)
Eventos o solicitudes individuales
Eventos o solicitudes individuales (en el dispositivo)
Flujo de datos
Los datos se envían a la nube, se procesan y se devuelven los resultados
Cada solicitud se envía a la nube, se procesa y se devuelve
Los datos se procesan en el dispositivo y los resultados se usan en él
Casos prácticos habituales
Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico
Recomendaciones de productos, bots de chat, traducción en tiempo real, alertas de fraude en tiempo real
Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial
Principales ventajas
Rentable para tareas grandes y no urgentes
Respuesta inmediata para aplicaciones para los usuarios
Latencia mínima, privacidad mejorada, capacidad offline y costes de ancho de banda reducidos
La inferencia de IA está transformando los sectores al permitir nuevos niveles de automatización, una toma de decisiones más inteligente y aplicaciones innovadoras. Para los desarrolladores empresariales, estas son algunas áreas críticas en las que la inferencia aporta un valor de negocio tangible:
Google Cloud ofrece un paquete completo de herramientas y servicios que ayudan a los desarrolladores y a las empresas a crear, desplegar y gestionar cargas de trabajo de inferencia de IA de forma eficiente y a escala. Las funciones de inferencia están profundamente integradas en muchas ofertas:
Producto de Google Cloud | Enfoque de inferencia compatible | Ideal cuando necesitas | Ejemplo de caso práctico de inferencia |
Todos los tipos de inferencia (en la nube e híbrida) | Consigue el máximo control y flexibilidad para desplegar, gestionar y escalar servicios de inferencia en contenedores personalizados, a menudo con hardware especializado, en entornos de nube o híbridos. | Desplegar y escalar un modelo de IA personalizado para la detección de anomalías en tiempo real en un sistema industrial complejo. | |
Inferencia en la nube en tiempo real (sin servidor) | Despliega modelos en contenedores con autoescalado a cero y precios por petición, lo que resulta ideal para cargas de trabajo muy variables e intermitentes, o para servicios web sencillos. | Servir un modelo de tamaño pequeño o mediano para una aplicación web cuyo tráfico fluctúa mucho, garantizando la rentabilidad. | |
Inferencia en la nube en tiempo real y por lotes | Consigue una aceleración flexible y de alto rendimiento para una amplia gama de modelos y frameworks de IA. | Procesa rápidamente imágenes de alta resolución para diagnósticos médicos o acelera el modelado financiero complejo. | |
Inferencia por lotes en la nube (almacén de datos) | Realizar inferencias directamente con los datos que ya tienes en tu almacén de datos mediante SQL, lo que elimina la necesidad de moverlos. | Predecir la pérdida de clientes directamente sobre tus datos de CRM en BigQuery. | |
Inferencia en la nube en tiempo real (tareas específicas) | Integrar fácilmente funciones de IA avanzadas (como visión, lenguaje o voz) en aplicaciones sin tener que crear ni entrenar ningún modelo. | Traducir automáticamente los mensajes de chat de los clientes en tiempo real o analizar el sentimiento de las publicaciones en redes sociales. | |
Inferencia en la nube en tiempo real y por lotes (modelos grandes) | Consigue el máximo rendimiento y rentabilidad al servir modelos de aprendizaje profundo muy grandes y complejos, especialmente modelos de lenguaje extenso (LLMs). | Potencia las respuestas en tiempo real de un chatbot con IA generativa de vanguardia. | |
Soluciones perimetrales (como Coral o GDC Edge) | Inferencia en el perímetro | Habilita la latencia ultrabaja, la privacidad mejorada o la funcionalidad sin conexión ejecutando modelos directamente en los dispositivos. | Realiza un reconocimiento de objetos instantáneo en una cámara inteligente sin enviar el vídeo a la nube. |
Preparación de datos para la inferencia por lotes en la nube | Procesa y prepara de forma eficiente grandes cantidades de datos para tareas de inferencia por lotes a gran escala. | Preprocesa petabytes de datos de sensores antes de introducirlos en un modelo de mantenimiento predictivo. |
Producto de Google Cloud
Enfoque de inferencia compatible
Ideal cuando necesitas
Ejemplo de caso práctico de inferencia
Todos los tipos de inferencia (en la nube e híbrida)
Consigue el máximo control y flexibilidad para desplegar, gestionar y escalar servicios de inferencia en contenedores personalizados, a menudo con hardware especializado, en entornos de nube o híbridos.
Desplegar y escalar un modelo de IA personalizado para la detección de anomalías en tiempo real en un sistema industrial complejo.
Inferencia en la nube en tiempo real (sin servidor)
Despliega modelos en contenedores con autoescalado a cero y precios por petición, lo que resulta ideal para cargas de trabajo muy variables e intermitentes, o para servicios web sencillos.
Servir un modelo de tamaño pequeño o mediano para una aplicación web cuyo tráfico fluctúa mucho, garantizando la rentabilidad.
Inferencia en la nube en tiempo real y por lotes
Consigue una aceleración flexible y de alto rendimiento para una amplia gama de modelos y frameworks de IA.
Procesa rápidamente imágenes de alta resolución para diagnósticos médicos o acelera el modelado financiero complejo.
Inferencia por lotes en la nube (almacén de datos)
Realizar inferencias directamente con los datos que ya tienes en tu almacén de datos mediante SQL, lo que elimina la necesidad de moverlos.
Predecir la pérdida de clientes directamente sobre tus datos de CRM en BigQuery.
Inferencia en la nube en tiempo real (tareas específicas)
Integrar fácilmente funciones de IA avanzadas (como visión, lenguaje o voz) en aplicaciones sin tener que crear ni entrenar ningún modelo.
Traducir automáticamente los mensajes de chat de los clientes en tiempo real o analizar el sentimiento de las publicaciones en redes sociales.
Inferencia en la nube en tiempo real y por lotes (modelos grandes)
Consigue el máximo rendimiento y rentabilidad al servir modelos de aprendizaje profundo muy grandes y complejos, especialmente modelos de lenguaje extenso (LLMs).
Potencia las respuestas en tiempo real de un chatbot con IA generativa de vanguardia.
Soluciones perimetrales (como Coral o GDC Edge)
Inferencia en el perímetro
Habilita la latencia ultrabaja, la privacidad mejorada o la funcionalidad sin conexión ejecutando modelos directamente en los dispositivos.
Realiza un reconocimiento de objetos instantáneo en una cámara inteligente sin enviar el vídeo a la nube.
Preparación de datos para la inferencia por lotes en la nube
Procesa y prepara de forma eficiente grandes cantidades de datos para tareas de inferencia por lotes a gran escala.
Preprocesa petabytes de datos de sensores antes de introducirlos en un modelo de mantenimiento predictivo.
Vertex AI es la plataforma de IA unificada de Google Cloud. Proporciona herramientas integrales para crear, desplegar y gestionar modelos de aprendizaje automático, lo que lo convierte en el servicio de referencia para la mayoría de las necesidades de inferencia basadas en la nube.
Función de Vertex AI | Enfoque de inferencia | Ideal cuando necesitas | Ejemplo de caso práctico de inferencia |
Inferencia en la nube en tiempo real | Despliega modelos personalizados y obtén predicciones de baja latencia en tiempo real desde un endpoint gestionado. | Recomienda productos al instante a un usuario que esté navegando por un sitio web. | |
Inferencia por lotes en la nube | Procesa grandes conjuntos de datos de forma rentable sin necesidad de obtener resultados en tiempo real. | Analiza todas las transacciones de los clientes de ayer para detectar patrones de fraude. | |
Inferencia en la nube en tiempo real y por lotes (IA generativa) | Aprovecha rápidamente los potentes modelos preentrenados para tareas de IA comunes o generativas sin tener que entrenarlos desde cero. | Genera textos de marketing, resume documentos largos o crea fragmentos de código. |
Función de Vertex AI
Enfoque de inferencia
Ideal cuando necesitas
Ejemplo de caso práctico de inferencia
Inferencia en la nube en tiempo real
Despliega modelos personalizados y obtén predicciones de baja latencia en tiempo real desde un endpoint gestionado.
Recomienda productos al instante a un usuario que esté navegando por un sitio web.
Inferencia por lotes en la nube
Procesa grandes conjuntos de datos de forma rentable sin necesidad de obtener resultados en tiempo real.
Analiza todas las transacciones de los clientes de ayer para detectar patrones de fraude.
Inferencia en la nube en tiempo real y por lotes (IA generativa)
Aprovecha rápidamente los potentes modelos preentrenados para tareas de IA comunes o generativas sin tener que entrenarlos desde cero.
Genera textos de marketing, resume documentos largos o crea fragmentos de código.
¿Quieres llevar tus habilidades de inferencia de IA al siguiente nivel? Aquí tienes algunos recursos valiosos que te ayudarán a entender mejor y a dar tus primeros pasos:
Empieza a crear en Google Cloud con 300 USD en crédito gratis y más de 20 productos Always Free.