¿Qué es la inferencia de IA?

La inferencia de IA es la parte "práctica" de la inteligencia artificial. Es el momento en que un modelo entrenado deja de aprender y empieza a trabajar, convirtiendo sus conocimientos en resultados del mundo real.

Para entenderlo mejor, piensa que el entrenamiento es como enseñar una nueva habilidad a una IA, mientras que la inferencia es la IA usando esa habilidad para hacer un trabajo. Recibe nuevos datos (como una foto o un fragmento de texto) y produce una salida instantánea, como una predicción, genera una foto o toma una decisión. Aquí es donde la IA aporta valor empresarial. Para cualquier persona que desarrolle con IA, entender cómo hacer inferencias de forma rápida, escalable y rentable es la clave para crear soluciones de éxito. Por ejemplo, un desarrollador de una empresa podría usar la inferencia de IA en Google Kubernetes Engine (GKE) para crear un sistema que analice las compras de los clientes en tiempo real y ofrezca descuentos personalizados en el momento de pagar, lo que aumentaría las ventas y la satisfacción de los clientes.

Entrenamiento de la IA, afinamiento, inferencia y servicio

Aunque el ciclo de vida completo de la IA abarca desde la recogida de datos hasta la monitorización a largo plazo, el recorrido central de un modelo, desde su creación hasta su ejecución, consta de tres fases clave. Los dos primeros se centran en el aprendizaje, mientras que el último consiste en poner en práctica lo aprendido.

  • El entrenamiento de la IA es la fase de aprendizaje fundamental. Es un proceso que consume muchos recursos computacionales, en el que un modelo analiza un conjunto de datos masivo para aprender patrones y relaciones. El objetivo es crear un modelo preciso y con conocimientos. Esto requiere potentes aceleradores de hardware (como GPUs y TPUs) y puede llevar desde horas hasta semanas.
  • El ajuste de la IA es un atajo para el entrenamiento. Se toma un modelo potente y preentrenado y se adapta a una tarea más específica usando un conjunto de datos más pequeño y especializado. Esto ahorra mucho tiempo y recursos en comparación con el entrenamiento de un modelo desde cero.
  • La inferencia de IA es la fase de ejecución. Utiliza el modelo entrenado y ajustado para hacer predicciones rápidas sobre datos nuevos y "desconocidos". Cada predicción individual requiere mucha menos potencia computacional que el entrenamiento, pero ofrecer millones de predicciones en tiempo real exige una infraestructura altamente optimizada y escalable.
  • El servicio de IA es el proceso de desplegar y gestionar el modelo para la inferencia. Esto suele implicar empaquetar el modelo, configurar un endpoint de API y gestionar la infraestructura para que pueda procesar las solicitudes.

En esta tabla se resumen las principales diferencias:

Entrenamiento de IA

Ajuste fino de la IA

Inferencia de IA

Servicio de IA

Objetivo

Crea un nuevo modelo desde cero.

Adapta un modelo preentrenado para una tarea específica.

Usa un modelo entrenado para hacer predicciones.

Despliega y gestiona el modelo para que se encargue de las solicitudes de inferencia.

Proceso

Aprende de forma iterativa a partir de un gran conjunto de datos.

Perfecciona un modelo ya creado con un conjunto de datos más pequeño.

Una sola "pasada hacia adelante" rápida de los nuevos datos.


Empaqueta el modelo y exponlo como una API

Datos

Conjuntos de datos grandes, históricos y etiquetados.

Conjuntos de datos más pequeños y específicos de la tarea.

Datos reales, sin etiquetar y en tiempo real.

N/A


Enfoque empresarial

Precisión y capacidad del modelo.

Eficiencia y personalización.

Velocidad (latencia), escala y rentabilidad.

Fiabilidad, escalabilidad y gestión del endpoint de inferencia.

Entrenamiento de IA

Ajuste fino de la IA

Inferencia de IA

Servicio de IA

Objetivo

Crea un nuevo modelo desde cero.

Adapta un modelo preentrenado para una tarea específica.

Usa un modelo entrenado para hacer predicciones.

Despliega y gestiona el modelo para que se encargue de las solicitudes de inferencia.

Proceso

Aprende de forma iterativa a partir de un gran conjunto de datos.

Perfecciona un modelo ya creado con un conjunto de datos más pequeño.

Una sola "pasada hacia adelante" rápida de los nuevos datos.


Empaqueta el modelo y exponlo como una API

Datos

Conjuntos de datos grandes, históricos y etiquetados.

Conjuntos de datos más pequeños y específicos de la tarea.

Datos reales, sin etiquetar y en tiempo real.

N/A


Enfoque empresarial

Precisión y capacidad del modelo.

Eficiencia y personalización.

Velocidad (latencia), escala y rentabilidad.

Fiabilidad, escalabilidad y gestión del endpoint de inferencia.

¿Cómo funciona la inferencia de IA?

En esencia, la inferencia de IA consta de tres pasos que transforman los datos nuevos en un resultado útil. 

Veamos un ejemplo sencillo: un modelo de IA creado para identificar objetos en fotos.

  1. Preparación de los datos de entrada: en primer lugar, se proporcionan datos nuevos, como una foto que acabas de enviar. Esta foto se prepara al instante para el modelo, lo que puede significar simplemente cambiar su tamaño a las dimensiones exactas con las que se entrenó.
  2. Ejecución del modelo: a continuación, el modelo de IA analiza la foto preparada. Busca patrones (como colores, formas y texturas) que coincidan con lo que aprendió durante su entrenamiento. Este análisis rápido se denomina "pase hacia adelante", un paso de solo lectura en el que el modelo aplica sus conocimientos sin aprender nada nuevo.
  3. Generación de resultados: el modelo produce un resultado útil. En el caso del análisis de fotos, podría ser una puntuación de probabilidad (por ejemplo, un 95 % de posibilidades de que la imagen contenga un "perro"). Esta salida se envía a la aplicación y se muestra al usuario.

Aunque una sola inferencia es rápida, servir a millones de usuarios en tiempo real aumenta la latencia y el coste, y requiere hardware optimizado. Las unidades de procesamiento gráfico (GPUs) especializadas en IA y las unidades de procesamiento de tensor de Google se han diseñado para gestionar estas tareas de forma eficiente, junto con la orquestación con Google Kubernetes Engine, lo que ayuda a aumentar el rendimiento y reducir la latencia.

Tipos de inferencia de IA

Inferencia en la nube: potencia y escalabilidad

Este es el enfoque más común, en el que la inferencia se ejecuta en potentes servidores remotos en un centro de datos. La nube ofrece una escalabilidad y unos recursos computacionales inmensos, lo que la convierte en la opción ideal para gestionar conjuntos de datos masivos y modelos complejos. En la nube, suele haber dos modos principales de inferencia:

  • Inferencia en tiempo real (online): procesa solicitudes individuales de forma instantánea a medida que llegan, a menudo en cuestión de milisegundos. Esto es fundamental para las aplicaciones interactivas que requieren una respuesta inmediata.
  • Inferencia por lotes (offline): procesa grandes volúmenes de datos de una sola vez, normalmente cuando no se necesitan respuestas inmediatas. Es un método muy rentable para realizar análisis periódicos o tareas programadas.

Inferencia en el dispositivo: para mayor velocidad y privacidad

Este enfoque realiza la inferencia directamente en el dispositivo donde se generan los datos, que puede ser un smartphone o un sensor industrial. Al evitar el viaje de ida y vuelta a la nube, la inferencia en el perímetro ofrece ventajas únicas:

  • Latencia reducida: las respuestas son casi instantáneas, lo cual es fundamental para aplicaciones como los vehículos autónomos o las comprobaciones de fabricación en tiempo real.
  • Privacidad mejorada: los datos sensibles (como escáneres médicos, fotos personales o feeds de vídeo) se pueden procesar en el dispositivo sin enviarse nunca a la nube.
  • Menores costes de ancho de banda: al procesar los datos de forma local, se reduce significativamente la cantidad de datos que se deben subir y descargar.
  • Funcionalidad sin conexión: la aplicación puede seguir funcionando incluso sin conexión a Internet, lo que garantiza un funcionamiento continuo en entornos remotos o desconectados.

Soluciona los retos empresariales que se te presenten con Google Cloud

Los nuevos clientes reciben 300 USD en crédito gratis para invertirlos en Google Cloud.

Comparación de la inferencia de IA

Para ayudarte a elegir el mejor enfoque para tus necesidades específicas, aquí tienes una breve comparación de las características clave y los casos prácticos de cada tipo de inferencia de IA:

Función

Inferencia por lotes

Inferencia en tiempo real

Inferencia en el perímetro

Ubicación principal

Cloud (centros de datos)

Cloud (centros de datos)

Dispositivo local (como un teléfono, un sensor de IoT o un robot)

Latencia o tiempo de respuesta

Alto (las predicciones se devuelven tras procesar el lote)


Muy baja (de milisegundos a segundos por solicitud)

Extremadamente baja (casi instantánea, sin cambio de red)

Volumen de datos

Conjuntos de datos grandes (como terabytes)

Eventos o solicitudes individuales

Eventos o solicitudes individuales (en el dispositivo)

Flujo de datos

Los datos se envían a la nube, se procesan y se devuelven los resultados

Cada solicitud se envía a la nube, se procesa y se devuelve

Los datos se procesan en el dispositivo y los resultados se usan en él

Casos prácticos habituales

Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico

Recomendaciones de productos, bots de chat, traducción en tiempo real, alertas de fraude en tiempo real

Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial

Principales ventajas

Rentable para tareas grandes y no urgentes

Respuesta inmediata para aplicaciones para los usuarios

Latencia mínima, privacidad mejorada, capacidad offline y costes de ancho de banda reducidos

Función

Inferencia por lotes

Inferencia en tiempo real

Inferencia en el perímetro

Ubicación principal

Cloud (centros de datos)

Cloud (centros de datos)

Dispositivo local (como un teléfono, un sensor de IoT o un robot)

Latencia o tiempo de respuesta

Alto (las predicciones se devuelven tras procesar el lote)


Muy baja (de milisegundos a segundos por solicitud)

Extremadamente baja (casi instantánea, sin cambio de red)

Volumen de datos

Conjuntos de datos grandes (como terabytes)

Eventos o solicitudes individuales

Eventos o solicitudes individuales (en el dispositivo)

Flujo de datos

Los datos se envían a la nube, se procesan y se devuelven los resultados

Cada solicitud se envía a la nube, se procesa y se devuelve

Los datos se procesan en el dispositivo y los resultados se usan en él

Casos prácticos habituales

Categorización de documentos a gran escala, análisis financiero nocturno, mantenimiento predictivo periódico

Recomendaciones de productos, bots de chat, traducción en tiempo real, alertas de fraude en tiempo real

Conducción autónoma, cámaras inteligentes, asistentes de voz sin conexión, control de calidad industrial

Principales ventajas

Rentable para tareas grandes y no urgentes

Respuesta inmediata para aplicaciones para los usuarios

Latencia mínima, privacidad mejorada, capacidad offline y costes de ancho de banda reducidos

Casos prácticos para desarrolladores

La inferencia de IA está transformando los sectores al permitir nuevos niveles de automatización, una toma de decisiones más inteligente y aplicaciones innovadoras. Para los desarrolladores empresariales, estas son algunas áreas críticas en las que la inferencia aporta un valor de negocio tangible:

  • Analiza al instante las transacciones financieras, el comportamiento de los usuarios o los registros del sistema para identificar y marcar actividades sospechosas. Esto permite una intervención proactiva para evitar el fraude, el blanqueo de dinero o las brechas de seguridad.
  • Ejemplo: una empresa de tarjetas de crédito usa la inferencia para autorizar transacciones en milisegundos y bloquear de inmediato las compras potencialmente fraudulentas.


  • Ofrece experiencias muy personalizadas a los usuarios prediciendo sus preferencias en función de sus interacciones anteriores y del contexto en tiempo real.
  • Ejemplo: las plataformas de comercio electrónico usan la inferencia para sugerir productos a los compradores, y los servicios de streaming recomiendan películas basándose en los hábitos de visualización, lo que aumenta la interacción y las ventas.


  • Despliega modelos de IA para automatizar tareas rutinarias, ofrecer asistencia inteligente o interactuar con los usuarios a escala.
  • Ejemplo: las organizaciones de atención al cliente usan agentes de IA para gestionar consultas comunes, lo que permite que los agentes humanos se centren en problemas complejos. Las fábricas usan la IA para realizar inspecciones de calidad automatizadas en las cadenas de montaje.


  •  Analiza los datos de los sensores de maquinaria, infraestructuras o sistemas de TI para predecir fallos, anticipar la demanda u optimizar la asignación de recursos antes de que surjan problemas.
  • Ejemplo: las empresas de fabricación usan la inferencia para predecir cuándo necesitan mantenimiento sus equipos, lo que minimiza el tiempo de inactividad y prolonga la vida útil de los activos. Por su parte, las empresas de logística optimizan las rutas basándose en predicciones de tráfico en tiempo real.


  • Aprovecha la IA para crear contenido nuevo (texto, código, imágenes, audio) o para comprender en profundidad los datos no estructurados que ya tienes.
  • Ejemplo: los desarrolladores usan modelos de generación de código para acelerar el desarrollo de software, o los equipos de marketing usan la IA para resumir documentos extensos y personalizar el texto de los anuncios.
¿Qué problema intentas resolver?
What you'll get:
Guía paso a paso
Arquitectura de referencia
Soluciones prediseñadas disponibles
Este servicio se ha creado con Vertex AI. Debes tener al menos 18 años para usarlo. No incluyas información sensible, confidencial ni personal.

Cómo puede ayudar Google Cloud

Google Cloud ofrece un paquete completo de herramientas y servicios que ayudan a los desarrolladores y a las empresas a crear, desplegar y gestionar cargas de trabajo de inferencia de IA de forma eficiente y a escala. Las funciones de inferencia están profundamente integradas en muchas ofertas:

Soluciones y productos relacionados

Producto de Google Cloud

Enfoque de inferencia compatible

Ideal cuando necesitas

Ejemplo de caso práctico de inferencia

Todos los tipos de inferencia (en la nube e híbrida)

Consigue el máximo control y flexibilidad para desplegar, gestionar y escalar servicios de inferencia en contenedores personalizados, a menudo con hardware especializado, en entornos de nube o híbridos.

Desplegar y escalar un modelo de IA personalizado para la detección de anomalías en tiempo real en un sistema industrial complejo.

Inferencia en la nube en tiempo real (sin servidor)

Despliega modelos en contenedores con autoescalado a cero y precios por petición, lo que resulta ideal para cargas de trabajo muy variables e intermitentes, o para servicios web sencillos.


Servir un modelo de tamaño pequeño o mediano para una aplicación web cuyo tráfico fluctúa mucho, garantizando la rentabilidad.


Inferencia en la nube en tiempo real y por lotes

Consigue una aceleración flexible y de alto rendimiento para una amplia gama de modelos y frameworks de IA.

Procesa rápidamente imágenes de alta resolución para diagnósticos médicos o acelera el modelado financiero complejo.


Inferencia por lotes en la nube (almacén de datos)

Realizar inferencias directamente con los datos que ya tienes en tu almacén de datos mediante SQL, lo que elimina la necesidad de moverlos.


Predecir la pérdida de clientes directamente sobre tus datos de CRM en BigQuery.


Inferencia en la nube en tiempo real (tareas específicas)

Integrar fácilmente funciones de IA avanzadas (como visión, lenguaje o voz) en aplicaciones sin tener que crear ni entrenar ningún modelo.

Traducir automáticamente los mensajes de chat de los clientes en tiempo real o analizar el sentimiento de las publicaciones en redes sociales.


Inferencia en la nube en tiempo real y por lotes (modelos grandes)

Consigue el máximo rendimiento y rentabilidad al servir modelos de aprendizaje profundo muy grandes y complejos, especialmente modelos de lenguaje extenso (LLMs).

Potencia las respuestas en tiempo real de un chatbot con IA generativa de vanguardia.


Soluciones perimetrales (como Coral o GDC Edge)


Inferencia en el perímetro

Habilita la latencia ultrabaja, la privacidad mejorada o la funcionalidad sin conexión ejecutando modelos directamente en los dispositivos.


Realiza un reconocimiento de objetos instantáneo en una cámara inteligente sin enviar el vídeo a la nube.


Preparación de datos para la inferencia por lotes en la nube

Procesa y prepara de forma eficiente grandes cantidades de datos para tareas de inferencia por lotes a gran escala.


Preprocesa petabytes de datos de sensores antes de introducirlos en un modelo de mantenimiento predictivo.

Producto de Google Cloud

Enfoque de inferencia compatible

Ideal cuando necesitas

Ejemplo de caso práctico de inferencia

Todos los tipos de inferencia (en la nube e híbrida)

Consigue el máximo control y flexibilidad para desplegar, gestionar y escalar servicios de inferencia en contenedores personalizados, a menudo con hardware especializado, en entornos de nube o híbridos.

Desplegar y escalar un modelo de IA personalizado para la detección de anomalías en tiempo real en un sistema industrial complejo.

Inferencia en la nube en tiempo real (sin servidor)

Despliega modelos en contenedores con autoescalado a cero y precios por petición, lo que resulta ideal para cargas de trabajo muy variables e intermitentes, o para servicios web sencillos.


Servir un modelo de tamaño pequeño o mediano para una aplicación web cuyo tráfico fluctúa mucho, garantizando la rentabilidad.


Inferencia en la nube en tiempo real y por lotes

Consigue una aceleración flexible y de alto rendimiento para una amplia gama de modelos y frameworks de IA.

Procesa rápidamente imágenes de alta resolución para diagnósticos médicos o acelera el modelado financiero complejo.


Inferencia por lotes en la nube (almacén de datos)

Realizar inferencias directamente con los datos que ya tienes en tu almacén de datos mediante SQL, lo que elimina la necesidad de moverlos.


Predecir la pérdida de clientes directamente sobre tus datos de CRM en BigQuery.


Inferencia en la nube en tiempo real (tareas específicas)

Integrar fácilmente funciones de IA avanzadas (como visión, lenguaje o voz) en aplicaciones sin tener que crear ni entrenar ningún modelo.

Traducir automáticamente los mensajes de chat de los clientes en tiempo real o analizar el sentimiento de las publicaciones en redes sociales.


Inferencia en la nube en tiempo real y por lotes (modelos grandes)

Consigue el máximo rendimiento y rentabilidad al servir modelos de aprendizaje profundo muy grandes y complejos, especialmente modelos de lenguaje extenso (LLMs).

Potencia las respuestas en tiempo real de un chatbot con IA generativa de vanguardia.


Soluciones perimetrales (como Coral o GDC Edge)


Inferencia en el perímetro

Habilita la latencia ultrabaja, la privacidad mejorada o la funcionalidad sin conexión ejecutando modelos directamente en los dispositivos.


Realiza un reconocimiento de objetos instantáneo en una cámara inteligente sin enviar el vídeo a la nube.


Preparación de datos para la inferencia por lotes en la nube

Procesa y prepara de forma eficiente grandes cantidades de datos para tareas de inferencia por lotes a gran escala.


Preprocesa petabytes de datos de sensores antes de introducirlos en un modelo de mantenimiento predictivo.

Vertex AI

Vertex AI es la plataforma de IA unificada de Google Cloud. Proporciona herramientas integrales para crear, desplegar y gestionar modelos de aprendizaje automático, lo que lo convierte en el servicio de referencia para la mayoría de las necesidades de inferencia basadas en la nube.

Función de Vertex AI

Enfoque de inferencia

Ideal cuando necesitas

Ejemplo de caso práctico de inferencia

Inferencia en la nube en tiempo real

Despliega modelos personalizados y obtén predicciones de baja latencia en tiempo real desde un endpoint gestionado.

Recomienda productos al instante a un usuario que esté navegando por un sitio web.



Inferencia por lotes en la nube

Procesa grandes conjuntos de datos de forma rentable sin necesidad de obtener resultados en tiempo real.

Analiza todas las transacciones de los clientes de ayer para detectar patrones de fraude.

Inferencia en la nube en tiempo real y por lotes (IA generativa)

Aprovecha rápidamente los potentes modelos preentrenados para tareas de IA comunes o generativas sin tener que entrenarlos desde cero.

Genera textos de marketing, resume documentos largos o crea fragmentos de código.


Función de Vertex AI

Enfoque de inferencia

Ideal cuando necesitas

Ejemplo de caso práctico de inferencia

Inferencia en la nube en tiempo real

Despliega modelos personalizados y obtén predicciones de baja latencia en tiempo real desde un endpoint gestionado.

Recomienda productos al instante a un usuario que esté navegando por un sitio web.



Inferencia por lotes en la nube

Procesa grandes conjuntos de datos de forma rentable sin necesidad de obtener resultados en tiempo real.

Analiza todas las transacciones de los clientes de ayer para detectar patrones de fraude.

Inferencia en la nube en tiempo real y por lotes (IA generativa)

Aprovecha rápidamente los potentes modelos preentrenados para tareas de IA comunes o generativas sin tener que entrenarlos desde cero.

Genera textos de marketing, resume documentos largos o crea fragmentos de código.


Ver recursos de inferencia de IA

¿Quieres llevar tus habilidades de inferencia de IA al siguiente nivel? Aquí tienes algunos recursos valiosos que te ayudarán a entender mejor y a dar tus primeros pasos:

Ve un paso más allá

Empieza a crear en Google Cloud con 300 USD en crédito gratis y más de 20 productos Always Free.

Google Cloud