¿Qué es la inferencia de IA?

La inferencia de IA es la parte de "acción" de la inteligencia artificial. Es el momento en que un modelo entrenado deja de aprender y comienza a trabajar, convirtiendo su conocimiento en resultados del mundo real.

Piensa en esto: si el entrenamiento es como enseñarle una nueva habilidad a una IA, la inferencia es que la IA realmente usa esa habilidad para hacer un trabajo. Toma datos nuevos (como una foto o un fragmento de texto) y produce un resultado instantáneo, como una predicción, genera una foto o toma una decisión. Aquí es donde la IA aporta valor empresarial. Para cualquier persona que cree con IA, comprender cómo hacer que la inferencia sea rápida, escalable y rentable es la clave para crear soluciones exitosas. Por ejemplo, un desarrollador empresarial podría usar la inferencia de IA en Google Kubernetes Engine (GKE) para crear un sistema que analice las compras de los clientes en tiempo real y ofrezca descuentos personalizados en el proceso de confirmación de la compra, lo que aumentaría las ventas y la satisfacción del cliente.

“Entrenamiento de IA” frente a “ajuste”, “inferencia” y “entrega”

Si bien el ciclo de vida completo de la IA abarca todo, desde la recopilación de datos hasta la supervisión a largo plazo, el recorrido central de un modelo desde la creación hasta la ejecución tiene tres etapas clave. Los dos primeros se refieren al aprendizaje, mientras que el último se refiere a poner en práctica ese aprendizaje.

  • El entrenamiento de la IA es la fase de aprendizaje fundamental. Es un proceso de procesamiento intensivo en el que un modelo analiza un conjunto de datos masivo para aprender patrones y relaciones. El objetivo es crear un modelo preciso y con conocimientos. Esto requiere aceleradores de hardware potentes (como GPU y TPU) y puede tardar desde horas hasta semanas.
  • El ajuste de la IA es un atajo para el entrenamiento. Toma un modelo entrenado previamente potente y lo adapta a una tarea más específica con un conjunto de datos más pequeño y especializado. Esto ahorra una cantidad significativa de tiempo y recursos en comparación con el entrenamiento de un modelo desde cero.
  • La inferencia de IA es la fase de ejecución. Usa el modelo entrenado y ajustado para hacer predicciones rápidas sobre datos nuevos y “no vistos”. Cada predicción individual es mucho menos exigente en términos de procesamiento que el entrenamiento, pero entregar millones de predicciones en tiempo real requiere una infraestructura altamente optimizada y escalable.
  • La entrega de IA es el proceso de implementar y administrar el modelo para la inferencia. Esto suele implicar empaquetar el modelo, configurar un extremo de API y administrar la infraestructura para manejar las solicitudes.

En esta tabla, se resumen las diferencias clave:

Capacitación para IA

Ajuste de la IA

Inferencia de IA

Publicación de IA

Objetivo

Crea un nuevo modelo desde cero.

Adapta un modelo entrenado previamente para una tarea específica

Usa un modelo entrenado para hacer predicciones.

Implementa y administra el modelo para manejar solicitudes de inferencia

Proceso

Aprende de forma iterativa a partir de un gran conjunto de datos.

Refina un modelo existente con un conjunto de datos más pequeño.

Un único y rápido "pase directo" de datos nuevos.


Empaqueta el modelo y exponlo como una API

Datos

Conjuntos de datos grandes, históricos y etiquetados.

Conjuntos de datos más pequeños y específicos de tareas.

Datos en tiempo real, del mundo real y sin etiquetar.

No corresponde


Enfoque comercial

Exactitud y capacidad del modelo.

Eficiencia y personalización.

Velocidad (latencia), escala y rentabilidad.

Confiabilidad, escalabilidad y capacidad de administración del extremo de inferencia.

Capacitación para IA

Ajuste de la IA

Inferencia de IA

Publicación de IA

Objetivo

Crea un nuevo modelo desde cero.

Adapta un modelo entrenado previamente para una tarea específica

Usa un modelo entrenado para hacer predicciones.

Implementa y administra el modelo para manejar solicitudes de inferencia

Proceso

Aprende de forma iterativa a partir de un gran conjunto de datos.

Refina un modelo existente con un conjunto de datos más pequeño.

Un único y rápido "pase directo" de datos nuevos.


Empaqueta el modelo y exponlo como una API

Datos

Conjuntos de datos grandes, históricos y etiquetados.

Conjuntos de datos más pequeños y específicos de tareas.

Datos en tiempo real, del mundo real y sin etiquetar.

No corresponde


Enfoque comercial

Exactitud y capacidad del modelo.

Eficiencia y personalización.

Velocidad (latencia), escala y rentabilidad.

Confiabilidad, escalabilidad y capacidad de administración del extremo de inferencia.

¿Cómo funciona la inferencia de IA?

En esencia, la inferencia de IA implica tres pasos que convierten los datos nuevos en un resultado útil. 

Veamos un ejemplo sencillo: un modelo de IA creado para identificar objetos en fotos.

  1. Preparación de los datos de entrada: Primero, se proporcionan datos nuevos, por ejemplo, una foto que acabas de enviar. Esta foto se prepara de inmediato para el modelo, lo que podría significar simplemente cambiar su tamaño a las dimensiones exactas con las que se entrenó.
  2. Ejecución del modelo: Luego, el modelo de IA analiza la foto preparada. Busca patrones (como colores, formas y texturas) que coincidan con lo que aprendió durante su entrenamiento. Este análisis rápido se denomina "pase hacia adelante", un paso de solo lectura en el que el modelo aplica su conocimiento sin aprender nada nuevo.
  3. Generación de resultados: El modelo produce un resultado práctico. Para el análisis de fotos, esto podría ser una puntuación de probabilidad (como un 95% de probabilidad de que la imagen contenga un "perro"). Luego, este resultado se envía a la aplicación y se muestra al usuario.

Si bien una sola inferencia es rápida, atender a millones de usuarios en tiempo real aumenta la latencia y el costo, y requiere hardware optimizado. Las unidades de procesamiento gráfico (GPU) especializadas en IA y las unidades de procesamiento tensorial de Google están diseñadas para manejar estas tareas de manera eficiente junto con la organización con Google Kubernetes Engine, lo que ayuda a aumentar la capacidad de procesamiento y reducir la latencia.

Tipos de inferencia de IA

Inferencia en la nube: Para potencia y escala

Este es el enfoque más común, en el que la inferencia se ejecuta en potentes servidores remotos en un centro de datos. La nube ofrece una inmensa escalabilidad y recursos computacionales, lo que la hace ideal para manejar conjuntos de datos masivos y modelos complejos. En la nube, generalmente hay dos modos principales de inferencia:

  • Inferencia en tiempo real (en línea): Procesa solicitudes individuales de forma instantánea a medida que llegan, a menudo en milisegundos. Esto es fundamental para las aplicaciones interactivas que exigen comentarios inmediatos.
  • Inferencia por lotes (sin conexión): Maneja grandes volúmenes de datos a la vez, por lo general, cuando no se requieren respuestas inmediatas. Es un método muy rentable para análisis periódicos o tareas programadas.

Inferencia en el perímetro: Para velocidad y privacidad

Este enfoque realiza la inferencia directamente en el dispositivo en el que se generan los datos, que podría ser un smartphone o un sensor industrial. Al evitar un viaje de ida y vuelta a la nube, la inferencia perimetral ofrece ventajas únicas:

  • Latencia reducida: Las respuestas son casi instantáneas, lo que es fundamental para aplicaciones como vehículos autónomos o verificaciones de fabricación en tiempo real.
  • Privacidad mejorada: Los datos sensibles (como escaneos médicos, fotos personales y feeds de video) se pueden procesar en el dispositivo sin enviarlos a la nube.
  • Menores costos de ancho de banda: El procesamiento de datos local reduce significativamente la cantidad de datos que deben subirse y descargarse.
  • Funcionalidad sin conexión: La aplicación puede seguir funcionando incluso sin conexión a Internet, lo que garantiza un funcionamiento continuo en entornos remotos o desconectados.

Resuelve tus desafíos más difíciles con Google Cloud

Los clientes nuevos obtienen $300 en créditos gratuitos que pueden usar en Google Cloud.

Comparación de inferencia de IA

Para ayudarte a elegir el mejor enfoque para tus necesidades específicas, aquí tienes una comparación rápida de las características clave y los casos de uso de cada tipo de inferencia de IA:

Función

Inferencia por lotes

Inferencia en tiempo real

Inferencia perimetral

Ubicación principal

Cloud (centros de datos)

Cloud (centros de datos)

Dispositivo local (como un teléfono, un sensor de IoT o un robot)

Latencia/capacidad de respuesta

Alto (predicciones devueltas después de procesar el lote)


Muy baja (de milisegundos a segundos por solicitud)

Extremadamente baja (casi instantánea, sin salto de red)

Volumen de los datos

Conjuntos de datos grandes (como terabytes)

Eventos o solicitudes individuales

Eventos o solicitudes individuales (en el dispositivo)

Flujo de datos

Los datos se envían a la nube, se procesan y se devuelven los resultados

Cada solicitud enviada a la nube, procesada y devuelta

Los datos se procesan en el dispositivo y los resultados se usan en él

Casos de uso típicos

Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico

Recomendaciones de productos, chatbots, traducción en vivo, alertas de fraude en tiempo real

Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial

Ventajas clave

Rentable para tareas grandes y no urgentes

Capacidad de respuesta inmediata para apps para el usuario

Latencia mínima, privacidad mejorada, capacidad sin conexión, costos de ancho de banda reducidos

Función

Inferencia por lotes

Inferencia en tiempo real

Inferencia perimetral

Ubicación principal

Cloud (centros de datos)

Cloud (centros de datos)

Dispositivo local (como un teléfono, un sensor de IoT o un robot)

Latencia/capacidad de respuesta

Alto (predicciones devueltas después de procesar el lote)


Muy baja (de milisegundos a segundos por solicitud)

Extremadamente baja (casi instantánea, sin salto de red)

Volumen de los datos

Conjuntos de datos grandes (como terabytes)

Eventos o solicitudes individuales

Eventos o solicitudes individuales (en el dispositivo)

Flujo de datos

Los datos se envían a la nube, se procesan y se devuelven los resultados

Cada solicitud enviada a la nube, procesada y devuelta

Los datos se procesan en el dispositivo y los resultados se usan en él

Casos de uso típicos

Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico

Recomendaciones de productos, chatbots, traducción en vivo, alertas de fraude en tiempo real

Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial

Ventajas clave

Rentable para tareas grandes y no urgentes

Capacidad de respuesta inmediata para apps para el usuario

Latencia mínima, privacidad mejorada, capacidad sin conexión, costos de ancho de banda reducidos

Casos de uso para desarrolladores

La inferencia de IA está transformando las industrias, ya que permite nuevos niveles de automatización, una toma de decisiones más inteligente y aplicaciones innovadoras. Para los desarrolladores empresariales, estas son algunas áreas fundamentales en las que la inferencia ofrece un valor empresarial tangible:

  • Analiza al instante las transacciones financieras, el comportamiento de los usuarios o los registros del sistema para identificar y marcar actividades sospechosas. Esto permite una intervención proactiva para prevenir el fraude, el lavado de dinero o las violaciones de la seguridad.
  • Ejemplo: Una empresa de tarjetas de crédito usa la inferencia para autorizar transacciones en milisegundos y bloquear de inmediato las compras potencialmente fraudulentas.


  • Proporciona experiencias altamente personalizadas para los usuarios prediciendo las preferencias en función de sus interacciones pasadas y el contexto en tiempo real.
  • Ejemplo: Las plataformas de comercio electrónico usan la inferencia para sugerir productos a los compradores, o los servicios de transmisión recomiendan películas en función de los hábitos de visualización, lo que impulsa la participación y las ventas.


  • Implementa modelos de IA para automatizar tareas rutinarias, brindar asistencia inteligente o interactuar con los usuarios a gran escala.
  • Ejemplo: Las organizaciones de atención al cliente usan agentes de IA para manejar consultas comunes, lo que libera a los agentes humanos para problemas complejos, o las fábricas usan IA para la inspección de calidad automatizada en las líneas de ensamblaje.


  •  Analizar datos de sensores de maquinaria, infraestructura o sistemas de TI para predecir fallas, pronosticar la demanda o optimizar la asignación de recursos antes de que ocurran problemas.
  • Ejemplo: Los fabricantes usan la inferencia para predecir cuándo un equipo necesita mantenimiento, lo que minimiza el tiempo de inactividad y extiende la vida útil de los activos, o las empresas de logística optimizan las rutas en función de las predicciones de tráfico en tiempo real.


  • Aprovecha la IA para crear contenido nuevo (texto, código, imágenes, audio) o comprender en profundidad los datos no estructurados existentes.
  • Ejemplo: Los desarrolladores usan modelos de generación de código para acelerar el desarrollo de software, o los equipos de marketing usan la IA para resumir documentos grandes y personalizar el texto de un anuncio.
¿Qué problema intentas resolver?
What you'll get:
Guía paso a paso
Arquitectura de referencia
Soluciones previamente compiladas disponibles
Este servicio se creó con Vertex AI. Debes ser mayor de 18 años para usarlo. No ingreses información sensible, confidencial ni personal.

Cómo puede ayudar Google Cloud

Google Cloud ofrece un conjunto integral de herramientas y servicios que ayudan a los desarrolladores y las organizaciones a crear, implementar y administrar cargas de trabajo de inferencia de IA de manera eficiente y a gran escala. Las capacidades de inferencia están profundamente integradas en muchas ofertas:

Soluciones y productos relacionados

Producto de Google Cloud

Enfoque de inferencia admitido

Ideal cuando necesitas

Ejemplo de caso de uso de inferencia

Todos los tipos de inferencia (nube e híbrida)

Obtén control y flexibilidad definitivos para implementar, administrar y escalar servicios de inferencia personalizados en contenedores, a menudo con hardware especializado, en entornos de nube o híbridos.

Implementa y escala un modelo de IA personalizado para la detección de anomalías en tiempo real en un sistema industrial complejo

Inferencia en la nube en tiempo real (sin servidores)

Implementa modelos alojados en contenedores con ajuste de escala automático a cero y precios de pago por solicitud, ideal para cargas de trabajo intermitentes y muy variables, o servicios web simples.


Entrega un modelo de tamaño pequeño a mediano para una aplicación web en la que el tráfico fluctúa ampliamente, lo que garantiza la rentabilidad.


Inferencia en la nube en tiempo real y por lotes

Obtén una aceleración flexible y de alto rendimiento para una amplia variedad de modelos y frameworks de IA.

Procesa rápidamente imágenes de alta resolución para diagnósticos médicos o acelera el modelado financiero complejo.


Inferencia en la nube por lotes (almacén de datos)

Realiza inferencias directamente en los datos que ya están en tu almacén de datos con SQL, lo que elimina el movimiento de datos.


Predice la deserción de clientes directamente en tus datos de CRM en BigQuery.


Inferencia en la nube en tiempo real (tareas específicas)

Incorpora fácilmente capacidades avanzadas de IA (como visión, lenguaje y voz) en las aplicaciones sin crear ni entrenar modelos.

Traduce automáticamente los mensajes de chat de los clientes en tiempo real o comprende el sentimiento de las publicaciones en redes sociales.


Inferencia en la nube en tiempo real y por lotes (modelos grandes)

Logra el máximo rendimiento y rentabilidad cuando entregues modelos de aprendizaje profundo muy grandes y complejos, especialmente modelos de lenguaje grandes (LLM).

Potencia las respuestas en tiempo real de un chatbot de IA generativa de vanguardia.


Soluciones de Edge (como Coral, GDC Edge)


Inferencia perimetral

Habilita la latencia ultrabaja, la privacidad mejorada o la funcionalidad sin conexión ejecutando modelos directamente en los dispositivos.


Realizar el reconocimiento instantáneo de objetos en una cámara inteligente sin enviar el video a la nube


Preparación de datos para la inferencia en la nube por lotes

Procesa y prepara de manera eficiente grandes cantidades de datos para trabajos de inferencia por lotes a gran escala.


Procesa previamente petabytes de datos de sensores antes de introducirlos en un modelo de mantenimiento predictivo.

Producto de Google Cloud

Enfoque de inferencia admitido

Ideal cuando necesitas

Ejemplo de caso de uso de inferencia

Todos los tipos de inferencia (nube e híbrida)

Obtén control y flexibilidad definitivos para implementar, administrar y escalar servicios de inferencia personalizados en contenedores, a menudo con hardware especializado, en entornos de nube o híbridos.

Implementa y escala un modelo de IA personalizado para la detección de anomalías en tiempo real en un sistema industrial complejo

Inferencia en la nube en tiempo real (sin servidores)

Implementa modelos alojados en contenedores con ajuste de escala automático a cero y precios de pago por solicitud, ideal para cargas de trabajo intermitentes y muy variables, o servicios web simples.


Entrega un modelo de tamaño pequeño a mediano para una aplicación web en la que el tráfico fluctúa ampliamente, lo que garantiza la rentabilidad.


Inferencia en la nube en tiempo real y por lotes

Obtén una aceleración flexible y de alto rendimiento para una amplia variedad de modelos y frameworks de IA.

Procesa rápidamente imágenes de alta resolución para diagnósticos médicos o acelera el modelado financiero complejo.


Inferencia en la nube por lotes (almacén de datos)

Realiza inferencias directamente en los datos que ya están en tu almacén de datos con SQL, lo que elimina el movimiento de datos.


Predice la deserción de clientes directamente en tus datos de CRM en BigQuery.


Inferencia en la nube en tiempo real (tareas específicas)

Incorpora fácilmente capacidades avanzadas de IA (como visión, lenguaje y voz) en las aplicaciones sin crear ni entrenar modelos.

Traduce automáticamente los mensajes de chat de los clientes en tiempo real o comprende el sentimiento de las publicaciones en redes sociales.


Inferencia en la nube en tiempo real y por lotes (modelos grandes)

Logra el máximo rendimiento y rentabilidad cuando entregues modelos de aprendizaje profundo muy grandes y complejos, especialmente modelos de lenguaje grandes (LLM).

Potencia las respuestas en tiempo real de un chatbot de IA generativa de vanguardia.


Soluciones de Edge (como Coral, GDC Edge)


Inferencia perimetral

Habilita la latencia ultrabaja, la privacidad mejorada o la funcionalidad sin conexión ejecutando modelos directamente en los dispositivos.


Realizar el reconocimiento instantáneo de objetos en una cámara inteligente sin enviar el video a la nube


Preparación de datos para la inferencia en la nube por lotes

Procesa y prepara de manera eficiente grandes cantidades de datos para trabajos de inferencia por lotes a gran escala.


Procesa previamente petabytes de datos de sensores antes de introducirlos en un modelo de mantenimiento predictivo.

Vertex AI

Vertex AI es la plataforma unificada de IA de Google Cloud. Proporciona herramientas integrales para crear, implementar y administrar modelos de AA, lo que lo convierte en el servicio de referencia para la mayoría de las necesidades de inferencia basadas en la nube.

Función de Vertex AI

Enfoque de inferencia

Ideal cuando necesitas

Ejemplo de caso de uso de inferencia

Inferencia en la nube en tiempo real

Implementa modelos personalizados y obtén predicciones en tiempo real y de baja latencia desde un extremo administrado.

Recomienda productos de forma instantánea a un usuario que navega por un sitio web.



Inferencia por lotes en la nube

Procesa grandes conjuntos de datos de manera rentable sin necesidad de resultados en tiempo real.

Analiza todas las transacciones de los clientes desde ayer para detectar patrones de fraude.

Inferencia en la nube en tiempo real y por lotes (IA generativa)

Aprovecha rápidamente los potentes modelos previamente entrenados para tareas comunes o de IA generativa sin necesidad de entrenarlos desde cero.

Genera textos de marketing, resume documentos extensos o crea fragmentos de código.


Función de Vertex AI

Enfoque de inferencia

Ideal cuando necesitas

Ejemplo de caso de uso de inferencia

Inferencia en la nube en tiempo real

Implementa modelos personalizados y obtén predicciones en tiempo real y de baja latencia desde un extremo administrado.

Recomienda productos de forma instantánea a un usuario que navega por un sitio web.



Inferencia por lotes en la nube

Procesa grandes conjuntos de datos de manera rentable sin necesidad de resultados en tiempo real.

Analiza todas las transacciones de los clientes desde ayer para detectar patrones de fraude.

Inferencia en la nube en tiempo real y por lotes (IA generativa)

Aprovecha rápidamente los potentes modelos previamente entrenados para tareas comunes o de IA generativa sin necesidad de entrenarlos desde cero.

Genera textos de marketing, resume documentos extensos o crea fragmentos de código.


Explora recursos de inferencia de IA

¿Todo listo para llevar tus habilidades de inferencia de IA al siguiente nivel? Estos son algunos recursos valiosos que te ayudarán a obtener más información y comenzar:

Da el siguiente paso

Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.

Google Cloud