La inferencia de IA es la parte de "acción" de la inteligencia artificial. Es el momento en que un modelo entrenado deja de aprender y comienza a trabajar, convirtiendo su conocimiento en resultados del mundo real.
Piensa en esto: si el entrenamiento es como enseñarle una nueva habilidad a una IA, la inferencia es que la IA realmente usa esa habilidad para hacer un trabajo. Toma datos nuevos (como una foto o un fragmento de texto) y produce un resultado instantáneo, como una predicción, genera una foto o toma una decisión. Aquí es donde la IA aporta valor empresarial. Para cualquier persona que cree con IA, comprender cómo hacer que la inferencia sea rápida, escalable y rentable es la clave para crear soluciones exitosas. Por ejemplo, un desarrollador empresarial podría usar la inferencia de IA en Google Kubernetes Engine (GKE) para crear un sistema que analice las compras de los clientes en tiempo real y ofrezca descuentos personalizados en el proceso de confirmación de la compra, lo que aumentaría las ventas y la satisfacción del cliente.
Si bien el ciclo de vida completo de la IA abarca todo, desde la recopilación de datos hasta la supervisión a largo plazo, el recorrido central de un modelo desde la creación hasta la ejecución tiene tres etapas clave. Los dos primeros se refieren al aprendizaje, mientras que el último se refiere a poner en práctica ese aprendizaje.
En esta tabla, se resumen las diferencias clave:
Capacitación para IA | Ajuste de la IA | Inferencia de IA | Publicación de IA | |
Objetivo | Crea un nuevo modelo desde cero. | Adapta un modelo entrenado previamente para una tarea específica | Usa un modelo entrenado para hacer predicciones. | Implementa y administra el modelo para manejar solicitudes de inferencia |
Proceso | Aprende de forma iterativa a partir de un gran conjunto de datos. | Refina un modelo existente con un conjunto de datos más pequeño. | Un único y rápido "pase directo" de datos nuevos. | Empaqueta el modelo y exponlo como una API |
Datos | Conjuntos de datos grandes, históricos y etiquetados. | Conjuntos de datos más pequeños y específicos de tareas. | Datos en tiempo real, del mundo real y sin etiquetar. | No corresponde |
Enfoque comercial | Exactitud y capacidad del modelo. | Eficiencia y personalización. | Velocidad (latencia), escala y rentabilidad. | Confiabilidad, escalabilidad y capacidad de administración del extremo de inferencia. |
Capacitación para IA
Ajuste de la IA
Inferencia de IA
Publicación de IA
Objetivo
Crea un nuevo modelo desde cero.
Adapta un modelo entrenado previamente para una tarea específica
Usa un modelo entrenado para hacer predicciones.
Implementa y administra el modelo para manejar solicitudes de inferencia
Proceso
Aprende de forma iterativa a partir de un gran conjunto de datos.
Refina un modelo existente con un conjunto de datos más pequeño.
Un único y rápido "pase directo" de datos nuevos.
Empaqueta el modelo y exponlo como una API
Datos
Conjuntos de datos grandes, históricos y etiquetados.
Conjuntos de datos más pequeños y específicos de tareas.
Datos en tiempo real, del mundo real y sin etiquetar.
No corresponde
Enfoque comercial
Exactitud y capacidad del modelo.
Eficiencia y personalización.
Velocidad (latencia), escala y rentabilidad.
Confiabilidad, escalabilidad y capacidad de administración del extremo de inferencia.
En esencia, la inferencia de IA implica tres pasos que convierten los datos nuevos en un resultado útil.
Veamos un ejemplo sencillo: un modelo de IA creado para identificar objetos en fotos.
Si bien una sola inferencia es rápida, atender a millones de usuarios en tiempo real aumenta la latencia y el costo, y requiere hardware optimizado. Las unidades de procesamiento gráfico (GPU) especializadas en IA y las unidades de procesamiento tensorial de Google están diseñadas para manejar estas tareas de manera eficiente junto con la organización con Google Kubernetes Engine, lo que ayuda a aumentar la capacidad de procesamiento y reducir la latencia.
Este es el enfoque más común, en el que la inferencia se ejecuta en potentes servidores remotos en un centro de datos. La nube ofrece una inmensa escalabilidad y recursos computacionales, lo que la hace ideal para manejar conjuntos de datos masivos y modelos complejos. En la nube, generalmente hay dos modos principales de inferencia:
Este enfoque realiza la inferencia directamente en el dispositivo en el que se generan los datos, que podría ser un smartphone o un sensor industrial. Al evitar un viaje de ida y vuelta a la nube, la inferencia perimetral ofrece ventajas únicas:
Para ayudarte a elegir el mejor enfoque para tus necesidades específicas, aquí tienes una comparación rápida de las características clave y los casos de uso de cada tipo de inferencia de IA:
Función | Inferencia por lotes | Inferencia en tiempo real | Inferencia perimetral |
Ubicación principal | Cloud (centros de datos) | Cloud (centros de datos) | Dispositivo local (como un teléfono, un sensor de IoT o un robot) |
Latencia/capacidad de respuesta | Alto (predicciones devueltas después de procesar el lote) | Muy baja (de milisegundos a segundos por solicitud) | Extremadamente baja (casi instantánea, sin salto de red) |
Volumen de los datos | Conjuntos de datos grandes (como terabytes) | Eventos o solicitudes individuales | Eventos o solicitudes individuales (en el dispositivo) |
Flujo de datos | Los datos se envían a la nube, se procesan y se devuelven los resultados | Cada solicitud enviada a la nube, procesada y devuelta | Los datos se procesan en el dispositivo y los resultados se usan en él |
Casos de uso típicos | Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico | Recomendaciones de productos, chatbots, traducción en vivo, alertas de fraude en tiempo real | Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial |
Ventajas clave | Rentable para tareas grandes y no urgentes | Capacidad de respuesta inmediata para apps para el usuario | Latencia mínima, privacidad mejorada, capacidad sin conexión, costos de ancho de banda reducidos |
Función
Inferencia por lotes
Inferencia en tiempo real
Inferencia perimetral
Ubicación principal
Cloud (centros de datos)
Cloud (centros de datos)
Dispositivo local (como un teléfono, un sensor de IoT o un robot)
Latencia/capacidad de respuesta
Alto (predicciones devueltas después de procesar el lote)
Muy baja (de milisegundos a segundos por solicitud)
Extremadamente baja (casi instantánea, sin salto de red)
Volumen de los datos
Conjuntos de datos grandes (como terabytes)
Eventos o solicitudes individuales
Eventos o solicitudes individuales (en el dispositivo)
Flujo de datos
Los datos se envían a la nube, se procesan y se devuelven los resultados
Cada solicitud enviada a la nube, procesada y devuelta
Los datos se procesan en el dispositivo y los resultados se usan en él
Casos de uso típicos
Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico
Recomendaciones de productos, chatbots, traducción en vivo, alertas de fraude en tiempo real
Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial
Ventajas clave
Rentable para tareas grandes y no urgentes
Capacidad de respuesta inmediata para apps para el usuario
Latencia mínima, privacidad mejorada, capacidad sin conexión, costos de ancho de banda reducidos
La inferencia de IA está transformando las industrias, ya que permite nuevos niveles de automatización, una toma de decisiones más inteligente y aplicaciones innovadoras. Para los desarrolladores empresariales, estas son algunas áreas fundamentales en las que la inferencia ofrece un valor empresarial tangible:
Google Cloud ofrece un conjunto integral de herramientas y servicios que ayudan a los desarrolladores y las organizaciones a crear, implementar y administrar cargas de trabajo de inferencia de IA de manera eficiente y a gran escala. Las capacidades de inferencia están profundamente integradas en muchas ofertas:
Producto de Google Cloud | Enfoque de inferencia admitido | Ideal cuando necesitas | Ejemplo de caso de uso de inferencia |
Todos los tipos de inferencia (nube e híbrida) | Obtén control y flexibilidad definitivos para implementar, administrar y escalar servicios de inferencia personalizados en contenedores, a menudo con hardware especializado, en entornos de nube o híbridos. | Implementa y escala un modelo de IA personalizado para la detección de anomalías en tiempo real en un sistema industrial complejo | |
Inferencia en la nube en tiempo real (sin servidores) | Implementa modelos alojados en contenedores con ajuste de escala automático a cero y precios de pago por solicitud, ideal para cargas de trabajo intermitentes y muy variables, o servicios web simples. | Entrega un modelo de tamaño pequeño a mediano para una aplicación web en la que el tráfico fluctúa ampliamente, lo que garantiza la rentabilidad. | |
Inferencia en la nube en tiempo real y por lotes | Obtén una aceleración flexible y de alto rendimiento para una amplia variedad de modelos y frameworks de IA. | Procesa rápidamente imágenes de alta resolución para diagnósticos médicos o acelera el modelado financiero complejo. | |
Inferencia en la nube por lotes (almacén de datos) | Realiza inferencias directamente en los datos que ya están en tu almacén de datos con SQL, lo que elimina el movimiento de datos. | Predice la deserción de clientes directamente en tus datos de CRM en BigQuery. | |
Inferencia en la nube en tiempo real (tareas específicas) | Incorpora fácilmente capacidades avanzadas de IA (como visión, lenguaje y voz) en las aplicaciones sin crear ni entrenar modelos. | Traduce automáticamente los mensajes de chat de los clientes en tiempo real o comprende el sentimiento de las publicaciones en redes sociales. | |
Inferencia en la nube en tiempo real y por lotes (modelos grandes) | Logra el máximo rendimiento y rentabilidad cuando entregues modelos de aprendizaje profundo muy grandes y complejos, especialmente modelos de lenguaje grandes (LLM). | Potencia las respuestas en tiempo real de un chatbot de IA generativa de vanguardia. | |
Soluciones de Edge (como Coral, GDC Edge) | Inferencia perimetral | Habilita la latencia ultrabaja, la privacidad mejorada o la funcionalidad sin conexión ejecutando modelos directamente en los dispositivos. | Realizar el reconocimiento instantáneo de objetos en una cámara inteligente sin enviar el video a la nube |
Preparación de datos para la inferencia en la nube por lotes | Procesa y prepara de manera eficiente grandes cantidades de datos para trabajos de inferencia por lotes a gran escala. | Procesa previamente petabytes de datos de sensores antes de introducirlos en un modelo de mantenimiento predictivo. |
Producto de Google Cloud
Enfoque de inferencia admitido
Ideal cuando necesitas
Ejemplo de caso de uso de inferencia
Todos los tipos de inferencia (nube e híbrida)
Obtén control y flexibilidad definitivos para implementar, administrar y escalar servicios de inferencia personalizados en contenedores, a menudo con hardware especializado, en entornos de nube o híbridos.
Implementa y escala un modelo de IA personalizado para la detección de anomalías en tiempo real en un sistema industrial complejo
Inferencia en la nube en tiempo real (sin servidores)
Implementa modelos alojados en contenedores con ajuste de escala automático a cero y precios de pago por solicitud, ideal para cargas de trabajo intermitentes y muy variables, o servicios web simples.
Entrega un modelo de tamaño pequeño a mediano para una aplicación web en la que el tráfico fluctúa ampliamente, lo que garantiza la rentabilidad.
Inferencia en la nube en tiempo real y por lotes
Obtén una aceleración flexible y de alto rendimiento para una amplia variedad de modelos y frameworks de IA.
Procesa rápidamente imágenes de alta resolución para diagnósticos médicos o acelera el modelado financiero complejo.
Inferencia en la nube por lotes (almacén de datos)
Realiza inferencias directamente en los datos que ya están en tu almacén de datos con SQL, lo que elimina el movimiento de datos.
Predice la deserción de clientes directamente en tus datos de CRM en BigQuery.
Inferencia en la nube en tiempo real (tareas específicas)
Incorpora fácilmente capacidades avanzadas de IA (como visión, lenguaje y voz) en las aplicaciones sin crear ni entrenar modelos.
Traduce automáticamente los mensajes de chat de los clientes en tiempo real o comprende el sentimiento de las publicaciones en redes sociales.
Inferencia en la nube en tiempo real y por lotes (modelos grandes)
Logra el máximo rendimiento y rentabilidad cuando entregues modelos de aprendizaje profundo muy grandes y complejos, especialmente modelos de lenguaje grandes (LLM).
Potencia las respuestas en tiempo real de un chatbot de IA generativa de vanguardia.
Soluciones de Edge (como Coral, GDC Edge)
Inferencia perimetral
Habilita la latencia ultrabaja, la privacidad mejorada o la funcionalidad sin conexión ejecutando modelos directamente en los dispositivos.
Realizar el reconocimiento instantáneo de objetos en una cámara inteligente sin enviar el video a la nube
Preparación de datos para la inferencia en la nube por lotes
Procesa y prepara de manera eficiente grandes cantidades de datos para trabajos de inferencia por lotes a gran escala.
Procesa previamente petabytes de datos de sensores antes de introducirlos en un modelo de mantenimiento predictivo.
Vertex AI es la plataforma unificada de IA de Google Cloud. Proporciona herramientas integrales para crear, implementar y administrar modelos de AA, lo que lo convierte en el servicio de referencia para la mayoría de las necesidades de inferencia basadas en la nube.
Función de Vertex AI | Enfoque de inferencia | Ideal cuando necesitas | Ejemplo de caso de uso de inferencia |
Inferencia en la nube en tiempo real | Implementa modelos personalizados y obtén predicciones en tiempo real y de baja latencia desde un extremo administrado. | Recomienda productos de forma instantánea a un usuario que navega por un sitio web. | |
Inferencia por lotes en la nube | Procesa grandes conjuntos de datos de manera rentable sin necesidad de resultados en tiempo real. | Analiza todas las transacciones de los clientes desde ayer para detectar patrones de fraude. | |
Inferencia en la nube en tiempo real y por lotes (IA generativa) | Aprovecha rápidamente los potentes modelos previamente entrenados para tareas comunes o de IA generativa sin necesidad de entrenarlos desde cero. | Genera textos de marketing, resume documentos extensos o crea fragmentos de código. |
Función de Vertex AI
Enfoque de inferencia
Ideal cuando necesitas
Ejemplo de caso de uso de inferencia
Inferencia en la nube en tiempo real
Implementa modelos personalizados y obtén predicciones en tiempo real y de baja latencia desde un extremo administrado.
Recomienda productos de forma instantánea a un usuario que navega por un sitio web.
Inferencia por lotes en la nube
Procesa grandes conjuntos de datos de manera rentable sin necesidad de resultados en tiempo real.
Analiza todas las transacciones de los clientes desde ayer para detectar patrones de fraude.
Inferencia en la nube en tiempo real y por lotes (IA generativa)
Aprovecha rápidamente los potentes modelos previamente entrenados para tareas comunes o de IA generativa sin necesidad de entrenarlos desde cero.
Genera textos de marketing, resume documentos extensos o crea fragmentos de código.
¿Todo listo para llevar tus habilidades de inferencia de IA al siguiente nivel? Estos son algunos recursos valiosos que te ayudarán a obtener más información y comenzar:
Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.