¿Qué es una carga de trabajo de IA?

Una carga de trabajo de IA es el conjunto de tareas y procesos computacionales que impulsan los sistemas de inteligencia artificial o aprendizaje automático (AA). Piensa en ella como la computación de alto rendimiento que requiere una aplicación de IA para aprender, hacer predicciones o generar contenido nuevo. Estas cargas de trabajo pueden ser esenciales para los profesionales que crean IA, ya que abarcan las etapas clave que impulsan los sistemas de aprendizaje automático: preparación de datos, entrenamiento de modelos, inferencia y supervisión.

Opciones de organización de cargas de trabajo de IA

Tipos de cargas de trabajo de IA

Las cargas de trabajo de IA y AA se pueden categorizar de dos maneras

Comprender estos tipos ayuda a los responsables de las decisiones técnicas a planificar la infraestructura específica, la potencia de procesamiento y las estrategias de organización que cada uno exige.

Tipo de carga de trabajo de IA

Función principal en el ciclo de vida de la IA

Enfoque computacional requerido

Preparación de datos


Limpiar, transformar y dar formato a los datos sin procesar para que estén listos para el modelo.

E/S (entrada/salida) alta y procesamiento con uso intensivo de CPU para la manipulación de datos.

Entrenamiento del modelo

Usar datos preparados para enseñarle al modelo de IA y ajustar sus parámetros de forma iterativa para mejorar la exactitud.

Potencia de procesamiento extrema (GPUs/TPUs), alta memoria y procesamiento paralelo.

Inferencia de modelos

Implementar el modelo entrenado para hacer predicciones en tiempo real o generar resultados con datos nuevos

Latencia baja y capacidad de procesamiento alta, que a menudo requieren hardware especializado perimetral o en la nube.

IA generativa

Crea contenido nuevo, como texto, imágenes o código, con modelos de base grandes.

Inferencia y ajuste masivos que exigen GPUs/TPUs de alta gama.

Visión artificial


Permite que las máquinas interpreten datos visuales, como imágenes y videos, y actúen en función de ellos.

Capacidad de procesamiento de datos en grandes volúmenes y aceleración especializada de aprendizaje profundo.

Procesamiento de lenguaje natural (PLN)

Procesar y comprender el lenguaje humano para tareas como la traducción y el resumen

Una combinación de entrenamiento acelerado por GPU y entrega de baja latencia para aplicaciones en tiempo real.

Tipo de carga de trabajo de IA

Función principal en el ciclo de vida de la IA

Enfoque computacional requerido

Preparación de datos


Limpiar, transformar y dar formato a los datos sin procesar para que estén listos para el modelo.

E/S (entrada/salida) alta y procesamiento con uso intensivo de CPU para la manipulación de datos.

Entrenamiento del modelo

Usar datos preparados para enseñarle al modelo de IA y ajustar sus parámetros de forma iterativa para mejorar la exactitud.

Potencia de procesamiento extrema (GPUs/TPUs), alta memoria y procesamiento paralelo.

Inferencia de modelos

Implementar el modelo entrenado para hacer predicciones en tiempo real o generar resultados con datos nuevos

Latencia baja y capacidad de procesamiento alta, que a menudo requieren hardware especializado perimetral o en la nube.

IA generativa

Crea contenido nuevo, como texto, imágenes o código, con modelos de base grandes.

Inferencia y ajuste masivos que exigen GPUs/TPUs de alta gama.

Visión artificial


Permite que las máquinas interpreten datos visuales, como imágenes y videos, y actúen en función de ellos.

Capacidad de procesamiento de datos en grandes volúmenes y aceleración especializada de aprendizaje profundo.

Procesamiento de lenguaje natural (PLN)

Procesar y comprender el lenguaje humano para tareas como la traducción y el resumen

Una combinación de entrenamiento acelerado por GPU y entrega de baja latencia para aplicaciones en tiempo real.

Preguntas frecuentes sobre cargas de trabajo de IA

Las cargas de trabajo de IA se caracterizan principalmente por ser de uso intensivo de datos, procesar conjuntos de datos masivos y, a menudo, no estructurados, y de uso intensivo de procesamiento, lo que exige hardware de procesamiento paralelo especializado como GPUs para el entrenamiento. Las cargas de trabajo tradicionales, como las bases de datos relacionales o los servidores web simples, se enfocan más en la capacidad de procesamiento transaccional coherente y, por lo general, se optimizan para arquitecturas de CPU estándar.

Eliges cargas de trabajo de entrenamiento cuando necesitas crear un modelo nuevo o mejorar significativamente uno existente proporcionándole datos nuevos, lo que puede requerir un alto costo y una gran potencia de procesamiento.

Usas cargas de trabajo de inferencia cuando tu modelo está listo y se implementó en producción, y necesitas que haga predicciones en tiempo real o por lotes, que priorizan la baja latencia y la alta capacidad de procesamiento a un costo por transacción más bajo.

Los mayores desafíos suelen estar relacionados con la organización, que consiste en coordinar grandes clústeres de GPUs y TPUs de manera eficiente; la administración de datos, que consiste en garantizar un acceso rápido y confiable a petabytes de datos; y el control de costos, que consiste en administrar el consumo de recursos de procesamiento costosos para evitar el exceso de gasto en infraestructura inactiva.

Las tendencias emergentes incluyen el uso de plataformas sin servidores con compatibilidad con GPU para abstraer la administración de la infraestructura, la adopción de la organización de múltiples nubes para la utilización flexible de recursos y el aprovechamiento de modelos de base que requieren menos entrenamiento desde cero y se enfocan más en el ajuste y la entrega eficiente.

Casos de uso comunes para cargas de trabajo de IA

Las cargas de trabajo de IA son el corazón de la transformación digital, ya que ofrecen aplicaciones de alto impacto en el mundo real en casi todas las industrias, lo que convierte los datos en valor práctico.

Experiencias personalizadas para los clientes.

Las cargas de trabajo de IA pueden potenciar los motores de recomendaciones para empresas de venta minorista, comercio electrónico y medios. Por ejemplo, una empresa de transmisión usa un modelo de AA sofisticado, entrenado con miles de millones de hábitos de visualización, para proporcionar sugerencias de contenido altamente personalizadas.

Mantenimiento predictivo en la fabricación

Los fabricantes implementan sensores en equipos fundamentales, lo que genera grandes cantidades de datos de series temporales. Las cargas de trabajo de IA pueden analizar continuamente estos datos para predecir fallas mecánicas con días o semanas de anticipación, lo que permite programar el mantenimiento.

Detección de fraudes y análisis de riesgos financieros

Las instituciones financieras usan cargas de trabajo de aprendizaje automático para analizar millones de transacciones en tiempo real. Estos modelos pueden identificar patrones que indican fraude, y algunos sistemas detectan transacciones no autorizadas con un alto grado de exactitud y una baja tasa de falsos positivos.

Imagenología y diagnóstico en el cuidado de la salud

Las cargas de trabajo de visión artificial se usan para analizar imágenes médicas como radiografías, tomografías computarizadas y resonancias magnéticas. Estos modelos de IA pueden marcar anomalías potenciales, como tumores en etapa temprana, a menudo con la velocidad y la coherencia que ayudan a los médicos humanos a realizar diagnósticos más rápidos y precisos.

IA generativa y producción de contenido

Las cargas de trabajo basadas en modelos de IA generativa están ayudando a transformar los campos creativos y técnicos. Se usan para generar automáticamente textos de marketing, sintetizar imágenes realistas para publicidad, crear resúmenes de reuniones virtuales o incluso ayudar a los desarrolladores sugiriendo y completando bloques de código.

Implementación de cargas de trabajo de IA en Google Cloud

Google Cloud puede ofrecer un ecosistema potente y unificado basado en la infraestructura que impulsa los avances de IA de Google, lo que lo convierte en una plataforma ideal para alojar, escalar, organizar y controlar tus cargas de trabajo de IA y AA.

Vertex AI es una plataforma de aprendizaje automático unificada que reúne todos los servicios en la nube para crear, implementar y escalar modelos de AA. Puede proporcionar un único entorno para todo el ciclo de vida de MLOps, lo que permite que los ingenieros y científicos de datos se enfoquen en el desarrollo de modelos en lugar de la integración de herramientas.

Google Cloud ofrece una amplia variedad de opciones de procesamiento, incluidas Cloud TPU y Cloud GPU. Las Cloud TPU (Tensor Processing Units) se diseñaron específicamente para proporcionar modelos de IA a gran escala. Las GPUs de Cloud, potenciadas por unidades de procesamiento gráfico (GPU) de NVIDIA, ofrecen procesamiento flexible y de alto rendimiento para una amplia gama de cargas de trabajo de IA y HPC.


Vertex AI Pipelines te permite automatizar, administrar y supervisar todo tu flujo de trabajo de aprendizaje automático con herramientas de código abierto como Kubeflow. Esto puede ser esencial para crear procesos confiables y repetibles para la preparación, el entrenamiento y la implementación de datos.

Identity and Access Management (IAM) de Google Cloud proporciona controles detallados para administrar quién puede acceder a tus recursos, datos y modelos de IA, y administrarlos. Esto puede garantizar que solo el personal y los servicios autorizados puedan interactuar con tus cargas de trabajo de IA sensibles, lo que ayuda a cumplir con los estrictos estándares normativos y de seguridad.

Google Kubernetes Engine (GKE) es un servicio de Kubernetes completamente administrado y escalable que es fundamental para ejecutar cargas de trabajo de IA alojadas en contenedores. Puede permitirte organizar y administrar clústeres complejos, con flexibilidad en los aceleradores de hardware, y puede extender tu entorno de IA sin problemas en la nube pública y los sistemas locales.

Beneficios de las cargas de trabajo de IA

Implementar cargas de trabajo de IA puede aportar ventajas empresariales y técnicas significativas, principalmente enfocándose en la eficiencia, una escalabilidad superior y la capacidad de impulsar la innovación basada en datos con rapidez. Pueden permitir que las organizaciones pasen de operaciones reactivas a una estrategia más proactiva e inteligente.

Escalabilidad y rendimiento acelerado

Las cargas de trabajo de IA, en particular en la nube, pueden escalar recursos (como agregar cientos de GPUs) a pedido para manejar conjuntos de datos enormes y modelos complejos sin necesidad de una gran inversión de capital inicial.

Costos operativos optimizados

Las plataformas de IA basadas en la nube te permiten pagar solo por los recursos de procesamiento que realmente usas, lo que ofrece ayuda para optimizar los costos en comparación con el mantenimiento de clústeres de hardware locales dedicados que permanecen inactivos durante períodos.

Canalizaciones de implementación estandarizadas y optimizadas

Las plataformas para cargas de trabajo de IA usan herramientas de MLOps (operaciones de aprendizaje automático) para automatizar y estandarizar el ciclo de vida de extremo a extremo, desde la preparación de datos hasta la implementación y supervisión de modelos.

Integración de seguridad y administración

Una plataforma en la nube proporciona funciones de seguridad integradas, como administración de identidades y accesos (IAM) y seguridad de red, directamente integradas en tu entorno de IA. Esto ayuda a simplificar el proceso de cumplimiento de los requisitos normativos y de administración.

Compatibilidad con entornos híbridos y de múltiples nubes

Las soluciones de IA están diseñadas para ejecutarse de forma flexible. Pueden aprovechar los contenedores y las herramientas de organización para administrar y ejecutar cargas de trabajo de manera coherente en los proveedores de nube pública.

Pasos para implementar una carga de trabajo de inferencia de modelos con Vertex AI

Implementar un modelo de aprendizaje automático entrenado para la inferencia puede ser un paso clave en la producción de una carga de trabajo de IA. Vertex AI simplifica este proceso proporcionando servicios administrados que se encargan de la infraestructura subyacente.

Sube el modelo entrenado al registro de modelos

  • El primer paso es tomar el artefacto del modelo entrenado y subirlo a Vertex AI Model Registry. Este repositorio central almacena y versiona tus modelos de forma segura, lo que los prepara para la implementación.

Crea un extremo administrado

  • Luego, crearás un extremo, que es un servidor HTTP dedicado en tiempo real para tu modelo. Este extremo es la URL que tus aplicaciones llamarán para obtener predicciones. Defines el tipo de recursos de procesamiento que usará, como una máquina de CPU N1 o un tipo específico de GPU para un rendimiento acelerado.

Implementa el modelo con el extremo

  • Después de crear el extremo, implementas una versión específica de tu modelo en él. Este paso implica especificar la imagen de contenedor que incluye tu modelo y el código del servidor de predicción (a menudo, una imagen precompilada proporcionada por Vertex AI). También configuras divisiones de tráfico, lo que te permite probar una nueva versión del modelo con un pequeño porcentaje de tráfico en vivo antes de implementarla por completo.

Envía y recibe predicciones en línea

  • Una vez implementado, el modelo está disponible para la predicción en línea. Tu aplicación envía datos de entrada (la carga útil) a través de una solicitud HTTP a la URL del extremo, y el servicio administrado controla la carga de trabajo de inferencia, devolviendo la predicción o el resultado casi en tiempo real.

Supervisar y controlar el extremo

  • El último paso es la supervisión continua. Usas las herramientas integradas de Vertex AI para hacer un seguimiento del estado del extremo (latencia, tasas de error, uso de recursos) y el rendimiento del modelo en sí (desviación, sesgo y calidad de la predicción) para garantizar que la carga de trabajo de inferencia siga siendo confiable y precisa con el tiempo.

Resuelve tus desafíos más difíciles con Google Cloud

Los clientes nuevos obtienen $300 en créditos gratuitos que pueden usar en Google Cloud.

Recursos adicionales

  • Introducción a las cargas de trabajo de IA/AA en GKE: Google Kubernetes Engine proporciona una plataforma administrada para implementar y escalar cargas de trabajo de IA y aprendizaje automático en contenedores, lo que admite entrenamiento e inferencia a gran escala con aceleradores de hardware como GPUs y TPUs.
  • Diseña almacenamiento para cargas de trabajo de IA y AA: Esta guía te ayuda a diseñar estrategias de almacenamiento para flujos de trabajo de IA y aprendizaje automático, y recomienda servicios como Cloud Storage y Managed Lustre en función de requisitos específicos de latencia, capacidad de procesamiento y capacidad.

Da el siguiente paso

Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.

Google Cloud