¿Qué es la inferencia de IA?

La inferencia de IA es la parte de "acción" de la inteligencia artificial. Es el momento en que un modelo entrenado deja de aprender y comienza a trabajar, convirtiendo su conocimiento en resultados del mundo real.

Piensa en esto: si el entrenamiento es como enseñarle una nueva habilidad a una IA, la inferencia es que la IA realmente usa esa habilidad para hacer un trabajo. Toma datos nuevos (como una foto o un fragmento de texto) y produce un resultado instantáneo, como una predicción, genera una foto o toma una decisión. Aquí es donde la IA aporta valor empresarial. Para cualquier persona que cree con IA, comprender cómo hacer que la inferencia sea rápida, escalable y rentable es la clave para crear soluciones exitosas.

“Entrenamiento de IA” frente a “ajuste”, “inferencia” y “entrega”

Si bien el ciclo de vida completo de la IA abarca todo, desde la recopilación de datos hasta la supervisión a largo plazo, el recorrido central de un modelo desde la creación hasta la ejecución tiene tres etapas clave. Los dos primeros se refieren al aprendizaje, mientras que el último se refiere a poner en práctica ese aprendizaje.

  • El entrenamiento de la IA es la fase de aprendizaje fundamental. Es un proceso de procesamiento intensivo en el que un modelo analiza un conjunto de datos masivo para aprender patrones y relaciones. El objetivo es crear un modelo preciso y con conocimientos. Esto requiere aceleradores de hardware potentes (como GPU y TPU) y puede tardar desde horas hasta semanas.
  • El ajuste de la IA es un atajo para el entrenamiento. Toma un modelo entrenado previamente potente y lo adapta a una tarea más específica con un conjunto de datos más pequeño y especializado. Esto ahorra una cantidad significativa de tiempo y recursos en comparación con el entrenamiento de un modelo desde cero.
  • La inferencia de IA es la fase de ejecución. Usa el modelo entrenado y ajustado para hacer predicciones rápidas sobre datos nuevos y “no vistos”. Cada predicción individual es mucho menos exigente en términos de procesamiento que el entrenamiento, pero entregar millones de predicciones en tiempo real requiere una infraestructura altamente optimizada y escalable.
  • La entrega de IA es el proceso de implementar y administrar el modelo para la inferencia. Esto suele implicar empaquetar el modelo, configurar un extremo de API y administrar la infraestructura para manejar las solicitudes.

En esta tabla, se resumen las diferencias clave:

Capacitación para IA

Ajuste de la IA

Inferencia de IA

Publicación de IA

Objetivo

Crea un nuevo modelo desde cero.

Adapta un modelo entrenado previamente para una tarea específica

Usa un modelo entrenado para hacer predicciones.

Implementa y administra el modelo para manejar solicitudes de inferencia

Proceso

Aprende de forma iterativa a partir de un gran conjunto de datos.

Refina un modelo existente con un conjunto de datos más pequeño.

Un único y rápido "pase directo" de datos nuevos.


Empaqueta el modelo y exponlo como una API

Datos

Conjuntos de datos grandes, históricos y etiquetados.

Conjuntos de datos más pequeños y específicos de tareas.

Datos en tiempo real, del mundo real y sin etiquetar.

No corresponde


Enfoque comercial

Exactitud y capacidad del modelo.

Eficiencia y personalización.

Velocidad (latencia), escala y rentabilidad.

Confiabilidad, escalabilidad y capacidad de administración del extremo de inferencia.

Capacitación para IA

Ajuste de la IA

Inferencia de IA

Publicación de IA

Objetivo

Crea un nuevo modelo desde cero.

Adapta un modelo entrenado previamente para una tarea específica

Usa un modelo entrenado para hacer predicciones.

Implementa y administra el modelo para manejar solicitudes de inferencia

Proceso

Aprende de forma iterativa a partir de un gran conjunto de datos.

Refina un modelo existente con un conjunto de datos más pequeño.

Un único y rápido "pase directo" de datos nuevos.


Empaqueta el modelo y exponlo como una API

Datos

Conjuntos de datos grandes, históricos y etiquetados.

Conjuntos de datos más pequeños y específicos de tareas.

Datos en tiempo real, del mundo real y sin etiquetar.

No corresponde


Enfoque comercial

Exactitud y capacidad del modelo.

Eficiencia y personalización.

Velocidad (latencia), escala y rentabilidad.

Confiabilidad, escalabilidad y capacidad de administración del extremo de inferencia.

¿Cómo funciona la inferencia de IA?

En esencia, la inferencia de IA implica tres pasos que convierten los datos nuevos en un resultado útil. 

Veamos un ejemplo sencillo: un modelo de IA creado para identificar objetos en fotos.

  1. Preparación de los datos de entrada: Primero, se proporcionan datos nuevos, por ejemplo, una foto que acabas de enviar. Esta foto se prepara de inmediato para el modelo, lo que podría significar simplemente cambiar su tamaño a las dimensiones exactas con las que se entrenó.
  2. Ejecución del modelo: Luego, el modelo de IA analiza la foto preparada. Busca patrones (como colores, formas y texturas) que coincidan con lo que aprendió durante su entrenamiento. Este análisis rápido se denomina "pase hacia adelante", un paso de solo lectura en el que el modelo aplica su conocimiento sin aprender nada nuevo.
  3. Generación de resultados: El modelo produce un resultado práctico. Para el análisis de fotos, esto podría ser una puntuación de probabilidad (como un 95% de probabilidad de que la imagen contenga un "perro"). Luego, este resultado se envía a la aplicación y se muestra al usuario.

Si bien una sola inferencia es rápida, atender a millones de usuarios en tiempo real aumenta la latencia y el costo, y requiere hardware optimizado. Las unidades de procesamiento gráfico (GPU) especializadas en IA y las unidades de procesamiento tensorial de Google están diseñadas para manejar estas tareas de manera eficiente junto con la organización con Google Kubernetes Engine, lo que ayuda a aumentar la capacidad de procesamiento y reducir la latencia.

Tipos de inferencia de IA

Inferencia en la nube: Para potencia y escala

Este es el enfoque más común, en el que la inferencia se ejecuta en potentes servidores remotos en un centro de datos. La nube ofrece una inmensa escalabilidad y recursos computacionales, lo que la hace ideal para manejar conjuntos de datos masivos y modelos complejos. En la nube, generalmente hay dos modos principales de inferencia:

  • Inferencia en tiempo real (en línea): Procesa solicitudes individuales de forma instantánea a medida que llegan, a menudo en milisegundos. Esto es fundamental para las aplicaciones interactivas que exigen comentarios inmediatos.
  • Inferencia por lotes (sin conexión): Maneja grandes volúmenes de datos a la vez, por lo general, cuando no se requieren respuestas inmediatas. Es un método muy rentable para análisis periódicos o tareas programadas.

Inferencia en el perímetro: Para velocidad y privacidad

Este enfoque realiza la inferencia directamente en el dispositivo en el que se generan los datos, que podría ser un smartphone o un sensor industrial. Al evitar un viaje de ida y vuelta a la nube, la inferencia perimetral ofrece ventajas únicas:

  • Latencia reducida: Las respuestas son casi instantáneas, lo que es fundamental para aplicaciones como vehículos autónomos o verificaciones de fabricación en tiempo real.
  • Privacidad mejorada: Los datos sensibles (como escaneos médicos, fotos personales y feeds de video) se pueden procesar en el dispositivo sin enviarlos a la nube.
  • Menores costos de ancho de banda: El procesamiento de datos local reduce significativamente la cantidad de datos que deben subirse y descargarse.
  • Funcionalidad sin conexión: La aplicación puede seguir funcionando incluso sin conexión a Internet, lo que garantiza un funcionamiento continuo en entornos remotos o desconectados.

Resuelve tus desafíos más difíciles con Google Cloud

Los clientes nuevos obtienen $300 en créditos gratuitos que pueden usar en Google Cloud.

Comparación de inferencia de IA

Para ayudarte a elegir el mejor enfoque para tus necesidades específicas, aquí tienes una comparación rápida de las características clave y los casos de uso de cada tipo de inferencia de IA:

Función

Inferencia por lotes

Inferencia en tiempo real

Inferencia perimetral

Ubicación principal

Cloud (centros de datos)

Cloud (centros de datos)

Dispositivo local (como un teléfono, un sensor de IoT o un robot)

Latencia/capacidad de respuesta

Alto (predicciones devueltas después de procesar el lote)


Muy baja (de milisegundos a segundos por solicitud)

Extremadamente baja (casi instantánea, sin salto de red)

Volumen de los datos

Conjuntos de datos grandes (como terabytes)

Eventos o solicitudes individuales

Eventos o solicitudes individuales (en el dispositivo)

Flujo de datos

Los datos se envían a la nube, se procesan y se devuelven los resultados

Cada solicitud enviada a la nube, procesada y devuelta

Los datos se procesan en el dispositivo y los resultados se usan en él

Casos de uso típicos

Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico

Recomendaciones de productos, chatbots, traducción en vivo, alertas de fraude en tiempo real

Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial

Ventajas clave

Rentable para tareas grandes y no urgentes

Capacidad de respuesta inmediata para apps para el usuario

Latencia mínima, privacidad mejorada, capacidad sin conexión, costos de ancho de banda reducidos

Función

Inferencia por lotes

Inferencia en tiempo real

Inferencia perimetral

Ubicación principal

Cloud (centros de datos)

Cloud (centros de datos)

Dispositivo local (como un teléfono, un sensor de IoT o un robot)

Latencia/capacidad de respuesta

Alto (predicciones devueltas después de procesar el lote)


Muy baja (de milisegundos a segundos por solicitud)

Extremadamente baja (casi instantánea, sin salto de red)

Volumen de los datos

Conjuntos de datos grandes (como terabytes)

Eventos o solicitudes individuales

Eventos o solicitudes individuales (en el dispositivo)

Flujo de datos

Los datos se envían a la nube, se procesan y se devuelven los resultados

Cada solicitud enviada a la nube, procesada y devuelta

Los datos se procesan en el dispositivo y los resultados se usan en él

Casos de uso típicos

Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico

Recomendaciones de productos, chatbots, traducción en vivo, alertas de fraude en tiempo real

Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial

Ventajas clave

Rentable para tareas grandes y no urgentes

Capacidad de respuesta inmediata para apps para el usuario

Latencia mínima, privacidad mejorada, capacidad sin conexión, costos de ancho de banda reducidos

Casos de uso para desarrolladores

La inferencia de IA está transformando las industrias, ya que permite nuevos niveles de automatización, una toma de decisiones más inteligente y aplicaciones innovadoras. Para los desarrolladores empresariales, estas son algunas áreas fundamentales en las que la inferencia ofrece un valor empresarial tangible:

  • Analiza al instante las transacciones financieras, el comportamiento de los usuarios o los registros del sistema para identificar y marcar actividades sospechosas. Esto permite una intervención proactiva para prevenir el fraude, el lavado de dinero o las violaciones de la seguridad.
  • Ejemplo: Una empresa de tarjetas de crédito usa la inferencia para autorizar transacciones en milisegundos y bloquear de inmediato las compras potencialmente fraudulentas.


  • Proporciona experiencias altamente personalizadas para los usuarios prediciendo las preferencias en función de sus interacciones pasadas y el contexto en tiempo real.
  • Ejemplo: Las plataformas de comercio electrónico usan la inferencia para sugerir productos a los compradores, o los servicios de transmisión recomiendan películas en función de los hábitos de visualización, lo que impulsa la participación y las ventas.


  • Implementa modelos de IA para automatizar tareas rutinarias, brindar asistencia inteligente o interactuar con los usuarios a gran escala.
  • Ejemplo: Las organizaciones de atención al cliente usan agentes de IA para manejar consultas comunes, lo que libera a los agentes humanos para problemas complejos, o las fábricas usan IA para la inspección de calidad automatizada en las líneas de ensamblaje.


  •  Analizar datos de sensores de maquinaria, infraestructura o sistemas de TI para predecir fallas, pronosticar la demanda o optimizar la asignación de recursos antes de que ocurran problemas.
  • Ejemplo: Los fabricantes usan la inferencia para predecir cuándo un equipo necesita mantenimiento, lo que minimiza el tiempo de inactividad y extiende la vida útil de los activos, o las empresas de logística optimizan las rutas en función de las predicciones de tráfico en tiempo real.


  • Aprovecha la IA para crear contenido nuevo (texto, código, imágenes, audio) o comprender en profundidad los datos no estructurados existentes.
  • Ejemplo: Los desarrolladores usan modelos de generación de código para acelerar el desarrollo de software, o los equipos de marketing usan la IA para resumir documentos grandes y personalizar el texto de un anuncio.

Cómo Google Cloud puede ayudar con la inferencia de IA

La inferencia de IA presenta un conjunto distinto de desafíos técnicos, como administrar la latencia, controlar los costos y garantizar la escalabilidad. Google Cloud proporciona una ruta flexible para la inferencia, lo que te permite elegir las herramientas adecuadas en función de la complejidad de tu modelo, las necesidades de rendimiento y la capacidad operativa. Puedes comenzar con soluciones completamente administradas y adoptar progresivamente una infraestructura más personalizada a medida que evolucionan tus requisitos.

Usa APIs de IA entrenadas previamente y modelos prediseñados para realizar una implementación rápida

Este enfoque es ideal para desarrolladores de cualquier nivel de habilidad, incluidos aquellos que son nuevos en la IA y que desean integrar rápidamente potentes capacidades de IA. Requiere hacer llamadas a la API simples sin necesidad de administrar modelos o infraestructura.

Usa los modelos de Gemini de Google y una selección de modelos de código abierto con un simple extremo de API. Se encarga de las complejidades del hosting y el escalamiento, por lo que puedes enfocarte en tu aplicación y obtener resultados potentes para las tareas de IA generativa.

Usa los modelos de Gemini de Google y una selección de modelos de código abierto con un simple extremo de API. Se encarga de las complejidades del hosting y el escalamiento, por lo que puedes enfocarte en tu aplicación y obtener resultados potentes para las tareas de IA generativa.

Implementa modelos personalizados en una infraestructura administrada

Esta opción es para desarrolladores que ya tienen un modelo personalizado creado. Puedes implementarlo en el servicio administrado de Google Cloud, lo que significa que no tienes que encargarte de la compleja configuración del servidor o la organización. Puedes enfocarte en tu modelo, no en la infraestructura.

Vertex AI Prediction es un servicio administrado que implementa modelos de aprendizaje automático como extremos escalables, con aceleradores de hardware como GPU para el procesamiento rápido de datos en tiempo real y de grandes lotes.

Implementa modelos alojados en contenedores con escalado automático a cero y precios de pago por solicitud, ideal para cargas de trabajo intermitentes y muy variables, o servicios web simples.

Vertex AI Prediction es un servicio administrado que implementa modelos de aprendizaje automático como extremos escalables, con aceleradores de hardware como GPU para el procesamiento rápido de datos en tiempo real y de grandes lotes.

Implementa modelos alojados en contenedores con escalado automático a cero y precios de pago por solicitud, ideal para cargas de trabajo intermitentes y muy variables, o servicios web simples.

Crea una plataforma de entrega personalizada para tener un control máximo

Les brinda a los desarrolladores y a MLOps control y flexibilidad detallados para implementar, administrar y escalar servicios de inferencia personalizados alojados en contenedores, a menudo con hardware especializado, en entornos de nube o híbridos.

GKE proporciona un control detallado sobre el hardware, incluidas las CPU, GPU y TPU, lo que es ideal para personalizar y optimizar el rendimiento y el costo de entregar modelos de aprendizaje automático muy grandes o complejos.

GKE proporciona un control detallado sobre el hardware, incluidas las CPU, GPU y TPU, lo que es ideal para personalizar y optimizar el rendimiento y el costo de entregar modelos de aprendizaje automático muy grandes o complejos.

Realiza inferencias directamente en tu almacén de datos con SQL

Si trabajas con SQL, ahora puedes obtener predicciones de modelos de IA justo donde ya se encuentran tus datos. Esto elimina la necesidad de mover datos a una plataforma separada, lo que simplifica tu flujo de trabajo.

Usar BigQuery para la inferencia te permite ejecutar modelos de aprendizaje automático directamente en tus datos con comandos SQL simples, lo que elimina la necesidad de mover datos y reduce la complejidad y la latencia. Es un método muy eficiente para tareas de procesamiento por lotes como la segmentación de clientes o la previsión de la demanda, especialmente cuando tus datos ya están almacenados en BigQuery.

Usar BigQuery para la inferencia te permite ejecutar modelos de aprendizaje automático directamente en tus datos con comandos SQL simples, lo que elimina la necesidad de mover datos y reduce la complejidad y la latencia. Es un método muy eficiente para tareas de procesamiento por lotes como la segmentación de clientes o la previsión de la demanda, especialmente cuando tus datos ya están almacenados en BigQuery.

Explora recursos de inferencia de IA

¿Todo listo para llevar tus habilidades de inferencia de IA al siguiente nivel? Estos son algunos recursos valiosos que te ayudarán a obtener más información y comenzar:

Da el siguiente paso

Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.

Google Cloud