¿Qué es una carga de trabajo de IA?

Una carga de trabajo de IA es el conjunto de tareas y procesos computacionales que sustentan los sistemas de inteligencia artificial o de aprendizaje automático (ML). Se trata de la computación de alto rendimiento que necesita una aplicación de IA para aprender, hacer predicciones o generar contenido nuevo. Estas cargas de trabajo pueden ser esenciales para los profesionales que desarrollan IA, ya que abarcan las fases clave que impulsan los sistemas de aprendizaje automático: preparación de datos, entrenamiento de modelos, inferencia y monitorización.

3:39

Opciones de orquestación de cargas de trabajo de IA

Tipos de cargas de trabajo de IA

Las cargas de trabajo de IA y aprendizaje automático se pueden clasificar de dos formas generales:

Fase del ciclo de vida de la IA que representan (como el preprocesamiento de datos, el entrenamiento y la inferencia)
Tipo de tarea que realizan (como el procesamiento del lenguaje natural o la visión artificial)

Conocer estos tipos ayuda a los responsables de la toma de decisiones técnicas a planificar la infraestructura, la potencia computacional y las estrategias de orquestación específicas que requiere cada uno.

Tipo de carga de trabajo de IA	Función principal en el ciclo de vida de la IA	Enfoque computacional necesario
Preparación de datos	Limpiar, transformar y dar formato a los datos en bruto para que estén listos para el modelo.	Procesamiento con un uso intensivo de E/S (entrada/salida) y CPU para la manipulación de datos.
Preparación de modelos	Se usan datos preparados para enseñar al modelo de IA, ajustando sus parámetros de forma iterativa para mejorar la precisión.	Potencia de computación extrema (GPUs o TPUs), mucha memoria y procesamiento en paralelo.
Inferencia de modelos	Desplegar el modelo entrenado para hacer predicciones en tiempo real o generar resultados a partir de nuevos datos.	Baja latencia y alto rendimiento, que a menudo requieren hardware especializado en el perímetro o en la nube.
Generative AI	Crear contenido nuevo, como texto, imágenes o código, usando modelos fundacionales grandes.	Inferencia y afinamiento a gran escala, lo que requiere GPUs o TPUs de gama alta.
Visión artificial	Permite que las máquinas interpreten datos visuales, como imágenes y vídeos, y actúen en consecuencia.	Rendimiento de datos de gran volumen y aceleración especializada del aprendizaje profundo.
Procesamiento del lenguaje natural (PLN)	Procesar y comprender el lenguaje humano para tareas como la traducción y el resumen.	Una combinación de entrenamiento acelerado por GPU y servicio de baja latencia para aplicaciones en tiempo real.

Tipo de carga de trabajo de IA

Función principal en el ciclo de vida de la IA

Enfoque computacional necesario

Preparación de datos

Limpiar, transformar y dar formato a los datos en bruto para que estén listos para el modelo.

Procesamiento con un uso intensivo de E/S (entrada/salida) y CPU para la manipulación de datos.

Preparación de modelos

Se usan datos preparados para enseñar al modelo de IA, ajustando sus parámetros de forma iterativa para mejorar la precisión.

Potencia de computación extrema (GPUs o TPUs), mucha memoria y procesamiento en paralelo.

Inferencia de modelos

Desplegar el modelo entrenado para hacer predicciones en tiempo real o generar resultados a partir de nuevos datos.

Baja latencia y alto rendimiento, que a menudo requieren hardware especializado en el perímetro o en la nube.

Generative AI

Crear contenido nuevo, como texto, imágenes o código, usando modelos fundacionales grandes.

Inferencia y afinamiento a gran escala, lo que requiere GPUs o TPUs de gama alta.

Visión artificial

Permite que las máquinas interpreten datos visuales, como imágenes y vídeos, y actúen en consecuencia.

Rendimiento de datos de gran volumen y aceleración especializada del aprendizaje profundo.

Procesamiento del lenguaje natural (PLN)

Procesar y comprender el lenguaje humano para tareas como la traducción y el resumen.

Una combinación de entrenamiento acelerado por GPU y servicio de baja latencia para aplicaciones en tiempo real.

Preguntas frecuentes sobre las cargas de trabajo de IA

¿Qué diferencia las cargas de trabajo de IA de las tradicionales?

Las cargas de trabajo de IA se caracterizan principalmente por ser intensivas en datos, ya que procesan conjuntos de datos masivos y, a menudo, no estructurados, y por ser intensivas en computación, ya que requieren hardware de procesamiento paralelo especializado, como las GPUs, para el entrenamiento. Las cargas de trabajo tradicionales, como las bases de datos relacionales o los servidores web sencillos, se centran más en el rendimiento transaccional coherente y suelen estar optimizadas para arquitecturas de CPU estándar.

¿Cómo se eligen las cargas de trabajo de entrenamiento e inferencia?

Elige cargas de trabajo de entrenamiento cuando necesites crear un modelo o mejorar significativamente uno que ya tengas proporcionándole datos nuevos, lo que puede requerir una gran potencia computacional y, por tanto, un coste elevado.

Las cargas de trabajo de inferencia se usan cuando el modelo está listo y se ha implementado en producción, y necesitas que haga predicciones en tiempo real o por lotes, que priorizan la baja latencia y el alto rendimiento a un menor coste por transacción.

¿Cuáles son los mayores retos a la hora de escalar las cargas de trabajo de aprendizaje automático?

Los mayores retos suelen estar relacionados con la orquestación, que consiste en coordinar grandes clústeres de GPUs y TPUs de forma eficiente; la gestión de datos, que consiste en garantizar un acceso rápido y fiable a petabytes de datos; y el control de costes, que consiste en gestionar el consumo de recursos de computación caros para evitar gastar demasiado en infraestructuras inactivas.

¿Cuáles son las tendencias emergentes en la automatización y la orquestación de cargas de trabajo de IA?

Entre las tendencias emergentes, se incluyen el uso de plataformas sin servidor con compatibilidad con GPUs para abstraer la gestión de la infraestructura, la adopción de la orquestación multinube para un uso flexible de los recursos y el aprovechamiento de modelos fundacionales que requieren menos entrenamiento desde cero y se centran más en el afinamiento y el servicio eficiente.

Casos prácticos habituales de las cargas de trabajo de IA

Las cargas de trabajo de IA son el núcleo de la transformación digital, ya que ofrecen aplicaciones de alto impacto en el mundo real en casi todos los sectores, convirtiendo los datos en valor práctico.

Experiencias de cliente personalizadas

Las cargas de trabajo de IA pueden impulsar los motores de recomendaciones de comercios, empresas de comercio electrónico y empresas de medios de comunicación. Por ejemplo, una empresa de streaming utiliza un sofisticado modelo de aprendizaje automático, entrenado con miles de millones de hábitos de visualización, para ofrecer sugerencias de contenido muy personalizadas.

Mantenimiento predictivo en la fabricación

Los fabricantes despliegan sensores en equipos críticos, lo que genera grandes cantidades de datos de series temporales. Las cargas de trabajo de IA pueden analizar continuamente estos datos para predecir fallos mecánicos con días o semanas de antelación, lo que permite programar el mantenimiento.

Detección de fraudes y analíticas de riesgos financieros

Las instituciones financieras usan cargas de trabajo de aprendizaje automático para analizar millones de transacciones en tiempo real. Estos modelos pueden identificar patrones que indican fraude, y algunos sistemas detectan transacciones no autorizadas con un alto grado de precisión y una baja tasa de falsos positivos.

Técnicas de diagnósticos con imágenes médicas

Las cargas de trabajo de visión artificial se utilizan para analizar imágenes médicas, como radiografías, tomografías computarizadas y resonancias magnéticas. Estos modelos de IA pueden detectar posibles anomalías, como tumores en fases iniciales, a menudo con una velocidad y una coherencia que ayudan a los profesionales sanitarios a hacer diagnósticos más rápidos y precisos.

IA generativa y producción de contenido

Las cargas de trabajo basadas en modelos de IA generativa están ayudando a transformar los campos creativos y técnicos. Se usan para generar automáticamente textos de marketing, sintetizar imágenes realistas para publicidad, crear resúmenes de reuniones virtuales o incluso ayudar a los desarrolladores sugiriendo y completando bloques de código.

Implementar cargas de trabajo de IA en Google Cloud

Google Cloud puede ofrecer un ecosistema potente y unificado basado en la infraestructura que impulsa los avances en IA de Google, lo que la convierte en una plataforma ideal para alojar, escalar, orquestar y gobernar tus cargas de trabajo de IA y aprendizaje automático.

Optimiza el desarrollo de modelos con Vertex AI

Vertex AI es una plataforma unificada de aprendizaje automático que reúne todos los servicios en la nube para crear, desplegar y escalar modelos de aprendizaje automático. Puede proporcionar un único entorno para todo el ciclo de vida de MLOps, lo que permite a los científicos de datos e ingenieros centrarse en el desarrollo de modelos en lugar de en la integración de herramientas.

Acelera la computación con las TPUs y GPUs de Cloud

Google Cloud ofrece una amplia gama de opciones de computación, como Cloud TPU y Cloud GPU. Las TPUs de Cloud (unidades de procesamiento de tensor) se han diseñado específicamente para proporcionar modelos de IA a gran escala. Las GPUs de Cloud, que se basan en unidades de procesamiento gráfico (GPUs) de NVIDIA, ofrecen una computación flexible y de alto rendimiento para una amplia variedad de cargas de trabajo de IA y HPC.

Automatiza flujos de trabajo con Vertex AI Pipelines

Vertex AI Pipelines te permite automatizar, gestionar y monitorizar todo tu flujo de trabajo de aprendizaje automático con herramientas de código abierto como Kubeflow. Esto puede ser esencial para crear procesos fiables y repetibles de preparación, entrenamiento y despliegue de datos.

Protege y gobierna las cargas de trabajo mediante la gestión de identidades y accesos

Gestión de Identidades y Accesos (IAM) de Google Cloud ofrece controles pormenorizados para gestionar quién puede acceder a tus recursos, datos y modelos de IA, así como quién puede gestionarlos. De esta forma, solo el personal y los servicios autorizados podrán interactuar con tus cargas de trabajo de IA sensibles, lo que te ayudará a cumplir los estrictos estándares normativos y de seguridad.

Ejecuta cargas de trabajo híbridas con GKE

Google Kubernetes Engine (GKE) es un servicio de Kubernetes totalmente gestionado y escalable que resulta fundamental para ejecutar cargas de trabajo de IA en contenedores. Te permite orquestar y gestionar clústeres complejos, con flexibilidad en los aceleradores de hardware, y puede ampliar tu entorno de IA sin problemas en la nube pública y los sistemas on-premise.

Ventajas de las cargas de trabajo de IA

Implementar cargas de trabajo de IA puede aportar ventajas empresariales y técnicas significativas, principalmente al centrarse en la eficiencia, una escalabilidad superior y la capacidad de impulsar la innovación basada en datos a gran velocidad. Pueden permitir que las empresas pasen de operaciones reactivas a una estrategia más proactiva e inteligente.

Escalabilidad y rendimiento acelerado

Las cargas de trabajo de IA, sobre todo en la nube, pueden escalar recursos (por ejemplo, añadiendo cientos de GPUs) bajo demanda para gestionar conjuntos de datos enormes y modelos complejos sin necesidad de una gran inversión inicial.

Costes operativos optimizados

Las plataformas de IA basadas en la nube te permiten pagar solo por los recursos de computación que realmente usas, lo que te ayuda a optimizar los costes en comparación con el mantenimiento de clústeres de hardware on-premise dedicados que permanecen inactivos durante periodos de tiempo.

Flujos de procesamiento de despliegue estandarizados y optimizados

Las plataformas para cargas de trabajo de IA usan herramientas de MLOps (operaciones de aprendizaje automático) para automatizar y estandarizar el ciclo de vida integral, desde la preparación de los datos hasta el despliegue y la monitorización de los modelos.

Integración de la seguridad y la gobernanza

Una plataforma en la nube proporciona funciones de seguridad integradas, como la gestión de identidades y accesos (IAM) y la seguridad de red, directamente integradas en tu entorno de IA. Esto ayuda a simplificar el proceso de cumplimiento de los requisitos normativos y de gobernanza.

Compatibilidad con entornos híbridos y multinube

Las soluciones de IA están diseñadas para ejecutarse de forma flexible. Pueden aprovechar los contenedores y las herramientas de orquestación para gestionar y ejecutar cargas de trabajo de forma coherente en distintos proveedores de nube pública.

Pasos para desplegar una carga de trabajo de inferencia de modelos con Vertex AI

Desplegar un modelo de aprendizaje automático entrenado para la inferencia puede ser un paso clave para llevar una carga de trabajo de IA a producción. Vertex AI simplifica este proceso proporcionando servicios gestionados que se encargan de la infraestructura subyacente.

Sube el modelo entrenado al registro de modelos

El primer paso es tomar el artefacto del modelo entrenado y subirlo al registro de modelos de Vertex AI. Este repositorio central almacena y versiona tus modelos de forma segura, lo que los deja listos para su despliegue.

Crea un punto final gestionado

A continuación, crea un endpoint, que es un servidor HTTP dedicado en tiempo real para tu modelo. Este punto final es la URL a la que llamarán tus aplicaciones para obtener predicciones. Defines el tipo de recursos de computación que usará, como una máquina con CPU N1 o un tipo específico de GPU para un rendimiento acelerado.

Despliega el modelo en el endpoint.

Después de crear el endpoint, despliegas una versión específica de tu modelo en él. En este paso, se especifica la imagen de contenedor que incluye tu modelo y el código del servidor de predicción (a menudo, una imagen predefinida proporcionada por Vertex AI). También puedes configurar divisiones de tráfico, que te permiten probar una nueva versión de un modelo con un pequeño porcentaje de tráfico real antes de implementarla por completo.

Envía y recibe predicciones online

Una vez desplegado, el modelo está disponible para la predicción online. Tu aplicación envía datos de entrada (la carga útil) mediante una solicitud HTTP a la URL del endpoint, y el servicio gestionado se encarga de la carga de trabajo de inferencia, devolviendo la predicción o el resultado casi en tiempo real.

Monitoriza y controla el endpoint

El último paso es la monitorización continua. Usas las herramientas integradas de Vertex AI para monitorizar el estado del endpoint (latencia, tasas de error y uso de recursos) y el rendimiento del modelo en sí (deriva, sesgo y calidad de las predicciones) para asegurarte de que la carga de trabajo de inferencia siga siendo fiable y precisa con el paso del tiempo.

Soluciona los retos empresariales que se te presenten con Google Cloud

Los nuevos clientes reciben 300 USD en crédito gratis para invertirlos en Google Cloud.

Recursos adicionales

Introducción a las cargas de trabajo de IA y aprendizaje automático en GKE: Google Kubernetes Engine proporciona una plataforma gestionada para desplegar y escalar cargas de trabajo de IA y aprendizaje automático en contenedores, que admite el entrenamiento y la inferencia a gran escala con aceleradores de hardware como las GPUs y las TPUs.
Diseña el almacenamiento para cargas de trabajo de IA y aprendizaje automático: esta guía te ayuda a diseñar estrategias de almacenamiento para flujos de trabajo de IA y aprendizaje automático, y recomienda servicios como Cloud Storage y Managed Lustre en función de los requisitos específicos de latencia, rendimiento y capacidad.

Ve un paso más allá

Empieza a crear en Google Cloud con 300 USD en crédito gratis y más de 20 productos Always Free.

¿Necesitas ayuda para empezar?
Contactar con Ventas
Trabaja con un partner de confianza
Buscar un partner
Sigue explorando
Ver todos los productos