Una carga de trabajo de IA es el conjunto de tareas y procesos computacionales que sustentan los sistemas de inteligencia artificial o de aprendizaje automático (ML). Se trata de la computación de alto rendimiento que necesita una aplicación de IA para aprender, hacer predicciones o generar contenido nuevo. Estas cargas de trabajo pueden ser esenciales para los profesionales que desarrollan IA, ya que abarcan las fases clave que impulsan los sistemas de aprendizaje automático: preparación de datos, entrenamiento de modelos, inferencia y monitorización.
Las cargas de trabajo de IA y aprendizaje automático se pueden clasificar de dos formas generales:
Conocer estos tipos ayuda a los responsables de la toma de decisiones técnicas a planificar la infraestructura, la potencia computacional y las estrategias de orquestación específicas que requiere cada uno.
Tipo de carga de trabajo de IA | Función principal en el ciclo de vida de la IA | Enfoque computacional necesario |
Preparación de datos | Limpiar, transformar y dar formato a los datos en bruto para que estén listos para el modelo. | Procesamiento con un uso intensivo de E/S (entrada/salida) y CPU para la manipulación de datos. |
Preparación de modelos | Se usan datos preparados para enseñar al modelo de IA, ajustando sus parámetros de forma iterativa para mejorar la precisión. | Potencia de computación extrema (GPUs o TPUs), mucha memoria y procesamiento en paralelo. |
Inferencia de modelos | Desplegar el modelo entrenado para hacer predicciones en tiempo real o generar resultados a partir de nuevos datos. | Baja latencia y alto rendimiento, que a menudo requieren hardware especializado en el perímetro o en la nube. |
Generative AI | Crear contenido nuevo, como texto, imágenes o código, usando modelos fundacionales grandes. | Inferencia y afinamiento a gran escala, lo que requiere GPUs o TPUs de gama alta. |
Visión artificial | Permite que las máquinas interpreten datos visuales, como imágenes y vídeos, y actúen en consecuencia. | Rendimiento de datos de gran volumen y aceleración especializada del aprendizaje profundo. |
Procesamiento del lenguaje natural (PLN) | Procesar y comprender el lenguaje humano para tareas como la traducción y el resumen. | Una combinación de entrenamiento acelerado por GPU y servicio de baja latencia para aplicaciones en tiempo real. |
Tipo de carga de trabajo de IA
Función principal en el ciclo de vida de la IA
Enfoque computacional necesario
Preparación de datos
Limpiar, transformar y dar formato a los datos en bruto para que estén listos para el modelo.
Procesamiento con un uso intensivo de E/S (entrada/salida) y CPU para la manipulación de datos.
Preparación de modelos
Se usan datos preparados para enseñar al modelo de IA, ajustando sus parámetros de forma iterativa para mejorar la precisión.
Potencia de computación extrema (GPUs o TPUs), mucha memoria y procesamiento en paralelo.
Inferencia de modelos
Desplegar el modelo entrenado para hacer predicciones en tiempo real o generar resultados a partir de nuevos datos.
Baja latencia y alto rendimiento, que a menudo requieren hardware especializado en el perímetro o en la nube.
Generative AI
Crear contenido nuevo, como texto, imágenes o código, usando modelos fundacionales grandes.
Inferencia y afinamiento a gran escala, lo que requiere GPUs o TPUs de gama alta.
Visión artificial
Permite que las máquinas interpreten datos visuales, como imágenes y vídeos, y actúen en consecuencia.
Rendimiento de datos de gran volumen y aceleración especializada del aprendizaje profundo.
Procesamiento del lenguaje natural (PLN)
Procesar y comprender el lenguaje humano para tareas como la traducción y el resumen.
Una combinación de entrenamiento acelerado por GPU y servicio de baja latencia para aplicaciones en tiempo real.
Las cargas de trabajo de IA se caracterizan principalmente por ser intensivas en datos, ya que procesan conjuntos de datos masivos y, a menudo, no estructurados, y por ser intensivas en computación, ya que requieren hardware de procesamiento paralelo especializado, como las GPUs, para el entrenamiento. Las cargas de trabajo tradicionales, como las bases de datos relacionales o los servidores web sencillos, se centran más en el rendimiento transaccional coherente y suelen estar optimizadas para arquitecturas de CPU estándar.
Elige cargas de trabajo de entrenamiento cuando necesites crear un modelo o mejorar significativamente uno que ya tengas proporcionándole datos nuevos, lo que puede requerir una gran potencia computacional y, por tanto, un coste elevado.
Las cargas de trabajo de inferencia se usan cuando el modelo está listo y se ha implementado en producción, y necesitas que haga predicciones en tiempo real o por lotes, que priorizan la baja latencia y el alto rendimiento a un menor coste por transacción.
Los mayores retos suelen estar relacionados con la orquestación, que consiste en coordinar grandes clústeres de GPUs y TPUs de forma eficiente; la gestión de datos, que consiste en garantizar un acceso rápido y fiable a petabytes de datos; y el control de costes, que consiste en gestionar el consumo de recursos de computación caros para evitar gastar demasiado en infraestructuras inactivas.
Entre las tendencias emergentes, se incluyen el uso de plataformas sin servidor con compatibilidad con GPUs para abstraer la gestión de la infraestructura, la adopción de la orquestación multinube para un uso flexible de los recursos y el aprovechamiento de modelos fundacionales que requieren menos entrenamiento desde cero y se centran más en el afinamiento y el servicio eficiente.
Las cargas de trabajo de IA son el núcleo de la transformación digital, ya que ofrecen aplicaciones de alto impacto en el mundo real en casi todos los sectores, convirtiendo los datos en valor práctico.
Las cargas de trabajo de IA pueden impulsar los motores de recomendaciones de comercios, empresas de comercio electrónico y empresas de medios de comunicación. Por ejemplo, una empresa de streaming utiliza un sofisticado modelo de aprendizaje automático, entrenado con miles de millones de hábitos de visualización, para ofrecer sugerencias de contenido muy personalizadas.
Los fabricantes despliegan sensores en equipos críticos, lo que genera grandes cantidades de datos de series temporales. Las cargas de trabajo de IA pueden analizar continuamente estos datos para predecir fallos mecánicos con días o semanas de antelación, lo que permite programar el mantenimiento.
Las instituciones financieras usan cargas de trabajo de aprendizaje automático para analizar millones de transacciones en tiempo real. Estos modelos pueden identificar patrones que indican fraude, y algunos sistemas detectan transacciones no autorizadas con un alto grado de precisión y una baja tasa de falsos positivos.
Las cargas de trabajo de visión artificial se utilizan para analizar imágenes médicas, como radiografías, tomografías computarizadas y resonancias magnéticas. Estos modelos de IA pueden detectar posibles anomalías, como tumores en fases iniciales, a menudo con una velocidad y una coherencia que ayudan a los profesionales sanitarios a hacer diagnósticos más rápidos y precisos.
Las cargas de trabajo basadas en modelos de IA generativa están ayudando a transformar los campos creativos y técnicos. Se usan para generar automáticamente textos de marketing, sintetizar imágenes realistas para publicidad, crear resúmenes de reuniones virtuales o incluso ayudar a los desarrolladores sugiriendo y completando bloques de código.
Google Cloud puede ofrecer un ecosistema potente y unificado basado en la infraestructura que impulsa los avances en IA de Google, lo que la convierte en una plataforma ideal para alojar, escalar, orquestar y gobernar tus cargas de trabajo de IA y aprendizaje automático.
Vertex AI es una plataforma unificada de aprendizaje automático que reúne todos los servicios en la nube para crear, desplegar y escalar modelos de aprendizaje automático. Puede proporcionar un único entorno para todo el ciclo de vida de MLOps, lo que permite a los científicos de datos e ingenieros centrarse en el desarrollo de modelos en lugar de en la integración de herramientas.
Google Cloud ofrece una amplia gama de opciones de computación, como Cloud TPU y Cloud GPU. Las TPUs de Cloud (unidades de procesamiento de tensor) se han diseñado específicamente para proporcionar modelos de IA a gran escala. Las GPUs de Cloud, que se basan en unidades de procesamiento gráfico (GPUs) de NVIDIA, ofrecen una computación flexible y de alto rendimiento para una amplia variedad de cargas de trabajo de IA y HPC.
Vertex AI Pipelines te permite automatizar, gestionar y monitorizar todo tu flujo de trabajo de aprendizaje automático con herramientas de código abierto como Kubeflow. Esto puede ser esencial para crear procesos fiables y repetibles de preparación, entrenamiento y despliegue de datos.
Gestión de Identidades y Accesos (IAM) de Google Cloud ofrece controles pormenorizados para gestionar quién puede acceder a tus recursos, datos y modelos de IA, así como quién puede gestionarlos. De esta forma, solo el personal y los servicios autorizados podrán interactuar con tus cargas de trabajo de IA sensibles, lo que te ayudará a cumplir los estrictos estándares normativos y de seguridad.
Google Kubernetes Engine (GKE) es un servicio de Kubernetes totalmente gestionado y escalable que resulta fundamental para ejecutar cargas de trabajo de IA en contenedores. Te permite orquestar y gestionar clústeres complejos, con flexibilidad en los aceleradores de hardware, y puede ampliar tu entorno de IA sin problemas en la nube pública y los sistemas on-premise.
Implementar cargas de trabajo de IA puede aportar ventajas empresariales y técnicas significativas, principalmente al centrarse en la eficiencia, una escalabilidad superior y la capacidad de impulsar la innovación basada en datos a gran velocidad. Pueden permitir que las empresas pasen de operaciones reactivas a una estrategia más proactiva e inteligente.
Escalabilidad y rendimiento acelerado
Las cargas de trabajo de IA, sobre todo en la nube, pueden escalar recursos (por ejemplo, añadiendo cientos de GPUs) bajo demanda para gestionar conjuntos de datos enormes y modelos complejos sin necesidad de una gran inversión inicial.
Costes operativos optimizados
Las plataformas de IA basadas en la nube te permiten pagar solo por los recursos de computación que realmente usas, lo que te ayuda a optimizar los costes en comparación con el mantenimiento de clústeres de hardware on-premise dedicados que permanecen inactivos durante periodos de tiempo.
Flujos de procesamiento de despliegue estandarizados y optimizados
Las plataformas para cargas de trabajo de IA usan herramientas de MLOps (operaciones de aprendizaje automático) para automatizar y estandarizar el ciclo de vida integral, desde la preparación de los datos hasta el despliegue y la monitorización de los modelos.
Integración de la seguridad y la gobernanza
Una plataforma en la nube proporciona funciones de seguridad integradas, como la gestión de identidades y accesos (IAM) y la seguridad de red, directamente integradas en tu entorno de IA. Esto ayuda a simplificar el proceso de cumplimiento de los requisitos normativos y de gobernanza.
Compatibilidad con entornos híbridos y multinube
Las soluciones de IA están diseñadas para ejecutarse de forma flexible. Pueden aprovechar los contenedores y las herramientas de orquestación para gestionar y ejecutar cargas de trabajo de forma coherente en distintos proveedores de nube pública.
Desplegar un modelo de aprendizaje automático entrenado para la inferencia puede ser un paso clave para llevar una carga de trabajo de IA a producción. Vertex AI simplifica este proceso proporcionando servicios gestionados que se encargan de la infraestructura subyacente.
Sube el modelo entrenado al registro de modelos
Crea un punto final gestionado
Despliega el modelo en el endpoint.
Envía y recibe predicciones online
Monitoriza y controla el endpoint
Empieza a crear en Google Cloud con 300 USD en crédito gratis y más de 20 productos Always Free.