La inferencia de IA es la parte de "acción" de la inteligencia artificial. Es el momento en que un modelo entrenado deja de aprender y comienza a trabajar, convirtiendo su conocimiento en resultados del mundo real.
Piensa en esto: si el entrenamiento es como enseñarle una nueva habilidad a una IA, la inferencia es que la IA realmente usa esa habilidad para hacer un trabajo. Toma datos nuevos (como una foto o un fragmento de texto) y produce un resultado instantáneo, como una predicción, genera una foto o toma una decisión. Aquí es donde la IA aporta valor empresarial. Para cualquier persona que cree con IA, comprender cómo hacer que la inferencia sea rápida, escalable y rentable es la clave para crear soluciones exitosas.
Si bien el ciclo de vida completo de la IA abarca todo, desde la recopilación de datos hasta la supervisión a largo plazo, el recorrido central de un modelo desde la creación hasta la ejecución tiene tres etapas clave. Los dos primeros se refieren al aprendizaje, mientras que el último se refiere a poner en práctica ese aprendizaje.
En esta tabla, se resumen las diferencias clave:
Capacitación para IA | Ajuste de la IA | Inferencia de IA | Publicación de IA | |
Objetivo | Crea un nuevo modelo desde cero. | Adapta un modelo entrenado previamente para una tarea específica | Usa un modelo entrenado para hacer predicciones. | Implementa y administra el modelo para manejar solicitudes de inferencia |
Proceso | Aprende de forma iterativa a partir de un gran conjunto de datos. | Refina un modelo existente con un conjunto de datos más pequeño. | Un único y rápido "pase directo" de datos nuevos. | Empaqueta el modelo y exponlo como una API |
Datos | Conjuntos de datos grandes, históricos y etiquetados. | Conjuntos de datos más pequeños y específicos de tareas. | Datos en tiempo real, del mundo real y sin etiquetar. | No corresponde |
Enfoque comercial | Exactitud y capacidad del modelo. | Eficiencia y personalización. | Velocidad (latencia), escala y rentabilidad. | Confiabilidad, escalabilidad y capacidad de administración del extremo de inferencia. |
Capacitación para IA
Ajuste de la IA
Inferencia de IA
Publicación de IA
Objetivo
Crea un nuevo modelo desde cero.
Adapta un modelo entrenado previamente para una tarea específica
Usa un modelo entrenado para hacer predicciones.
Implementa y administra el modelo para manejar solicitudes de inferencia
Proceso
Aprende de forma iterativa a partir de un gran conjunto de datos.
Refina un modelo existente con un conjunto de datos más pequeño.
Un único y rápido "pase directo" de datos nuevos.
Empaqueta el modelo y exponlo como una API
Datos
Conjuntos de datos grandes, históricos y etiquetados.
Conjuntos de datos más pequeños y específicos de tareas.
Datos en tiempo real, del mundo real y sin etiquetar.
No corresponde
Enfoque comercial
Exactitud y capacidad del modelo.
Eficiencia y personalización.
Velocidad (latencia), escala y rentabilidad.
Confiabilidad, escalabilidad y capacidad de administración del extremo de inferencia.
En esencia, la inferencia de IA implica tres pasos que convierten los datos nuevos en un resultado útil.
Veamos un ejemplo sencillo: un modelo de IA creado para identificar objetos en fotos.
Si bien una sola inferencia es rápida, atender a millones de usuarios en tiempo real aumenta la latencia y el costo, y requiere hardware optimizado. Las unidades de procesamiento gráfico (GPU) especializadas en IA y las unidades de procesamiento tensorial de Google están diseñadas para manejar estas tareas de manera eficiente junto con la organización con Google Kubernetes Engine, lo que ayuda a aumentar la capacidad de procesamiento y reducir la latencia.
Este es el enfoque más común, en el que la inferencia se ejecuta en potentes servidores remotos en un centro de datos. La nube ofrece una inmensa escalabilidad y recursos computacionales, lo que la hace ideal para manejar conjuntos de datos masivos y modelos complejos. En la nube, generalmente hay dos modos principales de inferencia:
Este enfoque realiza la inferencia directamente en el dispositivo en el que se generan los datos, que podría ser un smartphone o un sensor industrial. Al evitar un viaje de ida y vuelta a la nube, la inferencia perimetral ofrece ventajas únicas:
Para ayudarte a elegir el mejor enfoque para tus necesidades específicas, aquí tienes una comparación rápida de las características clave y los casos de uso de cada tipo de inferencia de IA:
Función | Inferencia por lotes | Inferencia en tiempo real | Inferencia perimetral |
Ubicación principal | Cloud (centros de datos) | Cloud (centros de datos) | Dispositivo local (como un teléfono, un sensor de IoT o un robot) |
Latencia/capacidad de respuesta | Alto (predicciones devueltas después de procesar el lote) | Muy baja (de milisegundos a segundos por solicitud) | Extremadamente baja (casi instantánea, sin salto de red) |
Volumen de los datos | Conjuntos de datos grandes (como terabytes) | Eventos o solicitudes individuales | Eventos o solicitudes individuales (en el dispositivo) |
Flujo de datos | Los datos se envían a la nube, se procesan y se devuelven los resultados | Cada solicitud enviada a la nube, procesada y devuelta | Los datos se procesan en el dispositivo y los resultados se usan en él |
Casos de uso típicos | Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico | Recomendaciones de productos, chatbots, traducción en vivo, alertas de fraude en tiempo real | Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial |
Ventajas clave | Rentable para tareas grandes y no urgentes | Capacidad de respuesta inmediata para apps para el usuario | Latencia mínima, privacidad mejorada, capacidad sin conexión, costos de ancho de banda reducidos |
Función
Inferencia por lotes
Inferencia en tiempo real
Inferencia perimetral
Ubicación principal
Cloud (centros de datos)
Cloud (centros de datos)
Dispositivo local (como un teléfono, un sensor de IoT o un robot)
Latencia/capacidad de respuesta
Alto (predicciones devueltas después de procesar el lote)
Muy baja (de milisegundos a segundos por solicitud)
Extremadamente baja (casi instantánea, sin salto de red)
Volumen de los datos
Conjuntos de datos grandes (como terabytes)
Eventos o solicitudes individuales
Eventos o solicitudes individuales (en el dispositivo)
Flujo de datos
Los datos se envían a la nube, se procesan y se devuelven los resultados
Cada solicitud enviada a la nube, procesada y devuelta
Los datos se procesan en el dispositivo y los resultados se usan en él
Casos de uso típicos
Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico
Recomendaciones de productos, chatbots, traducción en vivo, alertas de fraude en tiempo real
Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial
Ventajas clave
Rentable para tareas grandes y no urgentes
Capacidad de respuesta inmediata para apps para el usuario
Latencia mínima, privacidad mejorada, capacidad sin conexión, costos de ancho de banda reducidos
La inferencia de IA está transformando las industrias, ya que permite nuevos niveles de automatización, una toma de decisiones más inteligente y aplicaciones innovadoras. Para los desarrolladores empresariales, estas son algunas áreas fundamentales en las que la inferencia ofrece un valor empresarial tangible:
La inferencia de IA presenta un conjunto distinto de desafíos técnicos, como administrar la latencia, controlar los costos y garantizar la escalabilidad. Google Cloud proporciona una ruta flexible para la inferencia, lo que te permite elegir las herramientas adecuadas en función de la complejidad de tu modelo, las necesidades de rendimiento y la capacidad operativa. Puedes comenzar con soluciones completamente administradas y adoptar progresivamente una infraestructura más personalizada a medida que evolucionan tus requisitos.
Este enfoque es ideal para desarrolladores de cualquier nivel de habilidad, incluidos aquellos que son nuevos en la IA y que desean integrar rápidamente potentes capacidades de IA. Requiere hacer llamadas a la API simples sin necesidad de administrar modelos o infraestructura.
Usa los modelos de Gemini de Google y una selección de modelos de código abierto con un simple extremo de API. Se encarga de las complejidades del hosting y el escalamiento, por lo que puedes enfocarte en tu aplicación y obtener resultados potentes para las tareas de IA generativa. |
Usa los modelos de Gemini de Google y una selección de modelos de código abierto con un simple extremo de API. Se encarga de las complejidades del hosting y el escalamiento, por lo que puedes enfocarte en tu aplicación y obtener resultados potentes para las tareas de IA generativa.
Esta opción es para desarrolladores que ya tienen un modelo personalizado creado. Puedes implementarlo en el servicio administrado de Google Cloud, lo que significa que no tienes que encargarte de la compleja configuración del servidor o la organización. Puedes enfocarte en tu modelo, no en la infraestructura.
Vertex AI Prediction es un servicio administrado que implementa modelos de aprendizaje automático como extremos escalables, con aceleradores de hardware como GPU para el procesamiento rápido de datos en tiempo real y de grandes lotes. | |
Implementa modelos alojados en contenedores con escalado automático a cero y precios de pago por solicitud, ideal para cargas de trabajo intermitentes y muy variables, o servicios web simples. |
Vertex AI Prediction es un servicio administrado que implementa modelos de aprendizaje automático como extremos escalables, con aceleradores de hardware como GPU para el procesamiento rápido de datos en tiempo real y de grandes lotes.
Implementa modelos alojados en contenedores con escalado automático a cero y precios de pago por solicitud, ideal para cargas de trabajo intermitentes y muy variables, o servicios web simples.
Les brinda a los desarrolladores y a MLOps control y flexibilidad detallados para implementar, administrar y escalar servicios de inferencia personalizados alojados en contenedores, a menudo con hardware especializado, en entornos de nube o híbridos.
GKE proporciona un control detallado sobre el hardware, incluidas las CPU, GPU y TPU, lo que es ideal para personalizar y optimizar el rendimiento y el costo de entregar modelos de aprendizaje automático muy grandes o complejos. |
GKE proporciona un control detallado sobre el hardware, incluidas las CPU, GPU y TPU, lo que es ideal para personalizar y optimizar el rendimiento y el costo de entregar modelos de aprendizaje automático muy grandes o complejos.
Si trabajas con SQL, ahora puedes obtener predicciones de modelos de IA justo donde ya se encuentran tus datos. Esto elimina la necesidad de mover datos a una plataforma separada, lo que simplifica tu flujo de trabajo.
Usar BigQuery para la inferencia te permite ejecutar modelos de aprendizaje automático directamente en tus datos con comandos SQL simples, lo que elimina la necesidad de mover datos y reduce la complejidad y la latencia. Es un método muy eficiente para tareas de procesamiento por lotes como la segmentación de clientes o la previsión de la demanda, especialmente cuando tus datos ya están almacenados en BigQuery. |
Usar BigQuery para la inferencia te permite ejecutar modelos de aprendizaje automático directamente en tus datos con comandos SQL simples, lo que elimina la necesidad de mover datos y reduce la complejidad y la latencia. Es un método muy eficiente para tareas de procesamiento por lotes como la segmentación de clientes o la previsión de la demanda, especialmente cuando tus datos ya están almacenados en BigQuery.
¿Todo listo para llevar tus habilidades de inferencia de IA al siguiente nivel? Estos son algunos recursos valiosos que te ayudarán a obtener más información y comenzar:
Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.