Una carga de trabajo de IA es el conjunto de tareas y procesos computacionales que impulsan los sistemas de inteligencia artificial o aprendizaje automático (AA). Piensa en ella como la computación de alto rendimiento que requiere una aplicación de IA para aprender, hacer predicciones o generar contenido nuevo. Estas cargas de trabajo pueden ser esenciales para los profesionales que crean IA, ya que abarcan las etapas clave que impulsan los sistemas de aprendizaje automático: preparación de datos, entrenamiento de modelos, inferencia y supervisión.
Las cargas de trabajo de IA y AA se pueden categorizar de dos maneras
Comprender estos tipos ayuda a los responsables de las decisiones técnicas a planificar la infraestructura específica, la potencia de procesamiento y las estrategias de organización que cada uno exige.
Tipo de carga de trabajo de IA | Función principal en el ciclo de vida de la IA | Enfoque computacional requerido |
Preparación de datos | Limpiar, transformar y dar formato a los datos sin procesar para que estén listos para el modelo. | E/S (entrada/salida) alta y procesamiento con uso intensivo de CPU para la manipulación de datos. |
Entrenamiento del modelo | Usar datos preparados para enseñarle al modelo de IA y ajustar sus parámetros de forma iterativa para mejorar la exactitud. | Potencia de procesamiento extrema (GPUs/TPUs), alta memoria y procesamiento paralelo. |
Inferencia de modelos | Implementar el modelo entrenado para hacer predicciones en tiempo real o generar resultados con datos nuevos | Latencia baja y capacidad de procesamiento alta, que a menudo requieren hardware especializado perimetral o en la nube. |
IA generativa | Crea contenido nuevo, como texto, imágenes o código, con modelos de base grandes. | Inferencia y ajuste masivos que exigen GPUs/TPUs de alta gama. |
Visión artificial | Permite que las máquinas interpreten datos visuales, como imágenes y videos, y actúen en función de ellos. | Capacidad de procesamiento de datos en grandes volúmenes y aceleración especializada de aprendizaje profundo. |
Procesamiento de lenguaje natural (PLN) | Procesar y comprender el lenguaje humano para tareas como la traducción y el resumen | Una combinación de entrenamiento acelerado por GPU y entrega de baja latencia para aplicaciones en tiempo real. |
Tipo de carga de trabajo de IA
Función principal en el ciclo de vida de la IA
Enfoque computacional requerido
Preparación de datos
Limpiar, transformar y dar formato a los datos sin procesar para que estén listos para el modelo.
E/S (entrada/salida) alta y procesamiento con uso intensivo de CPU para la manipulación de datos.
Entrenamiento del modelo
Usar datos preparados para enseñarle al modelo de IA y ajustar sus parámetros de forma iterativa para mejorar la exactitud.
Potencia de procesamiento extrema (GPUs/TPUs), alta memoria y procesamiento paralelo.
Inferencia de modelos
Implementar el modelo entrenado para hacer predicciones en tiempo real o generar resultados con datos nuevos
Latencia baja y capacidad de procesamiento alta, que a menudo requieren hardware especializado perimetral o en la nube.
IA generativa
Crea contenido nuevo, como texto, imágenes o código, con modelos de base grandes.
Inferencia y ajuste masivos que exigen GPUs/TPUs de alta gama.
Visión artificial
Permite que las máquinas interpreten datos visuales, como imágenes y videos, y actúen en función de ellos.
Capacidad de procesamiento de datos en grandes volúmenes y aceleración especializada de aprendizaje profundo.
Procesamiento de lenguaje natural (PLN)
Procesar y comprender el lenguaje humano para tareas como la traducción y el resumen
Una combinación de entrenamiento acelerado por GPU y entrega de baja latencia para aplicaciones en tiempo real.
Las cargas de trabajo de IA se caracterizan principalmente por ser de uso intensivo de datos, procesar conjuntos de datos masivos y, a menudo, no estructurados, y de uso intensivo de procesamiento, lo que exige hardware de procesamiento paralelo especializado como GPUs para el entrenamiento. Las cargas de trabajo tradicionales, como las bases de datos relacionales o los servidores web simples, se enfocan más en la capacidad de procesamiento transaccional coherente y, por lo general, se optimizan para arquitecturas de CPU estándar.
Eliges cargas de trabajo de entrenamiento cuando necesitas crear un modelo nuevo o mejorar significativamente uno existente proporcionándole datos nuevos, lo que puede requerir un alto costo y una gran potencia de procesamiento.
Usas cargas de trabajo de inferencia cuando tu modelo está listo y se implementó en producción, y necesitas que haga predicciones en tiempo real o por lotes, que priorizan la baja latencia y la alta capacidad de procesamiento a un costo por transacción más bajo.
Los mayores desafíos suelen estar relacionados con la organización, que consiste en coordinar grandes clústeres de GPUs y TPUs de manera eficiente; la administración de datos, que consiste en garantizar un acceso rápido y confiable a petabytes de datos; y el control de costos, que consiste en administrar el consumo de recursos de procesamiento costosos para evitar el exceso de gasto en infraestructura inactiva.
Las tendencias emergentes incluyen el uso de plataformas sin servidores con compatibilidad con GPU para abstraer la administración de la infraestructura, la adopción de la organización de múltiples nubes para la utilización flexible de recursos y el aprovechamiento de modelos de base que requieren menos entrenamiento desde cero y se enfocan más en el ajuste y la entrega eficiente.
Las cargas de trabajo de IA son el corazón de la transformación digital, ya que ofrecen aplicaciones de alto impacto en el mundo real en casi todas las industrias, lo que convierte los datos en valor práctico.
Las cargas de trabajo de IA pueden potenciar los motores de recomendaciones para empresas de venta minorista, comercio electrónico y medios. Por ejemplo, una empresa de transmisión usa un modelo de AA sofisticado, entrenado con miles de millones de hábitos de visualización, para proporcionar sugerencias de contenido altamente personalizadas.
Los fabricantes implementan sensores en equipos fundamentales, lo que genera grandes cantidades de datos de series temporales. Las cargas de trabajo de IA pueden analizar continuamente estos datos para predecir fallas mecánicas con días o semanas de anticipación, lo que permite programar el mantenimiento.
Las instituciones financieras usan cargas de trabajo de aprendizaje automático para analizar millones de transacciones en tiempo real. Estos modelos pueden identificar patrones que indican fraude, y algunos sistemas detectan transacciones no autorizadas con un alto grado de exactitud y una baja tasa de falsos positivos.
Las cargas de trabajo de visión artificial se usan para analizar imágenes médicas como radiografías, tomografías computarizadas y resonancias magnéticas. Estos modelos de IA pueden marcar anomalías potenciales, como tumores en etapa temprana, a menudo con la velocidad y la coherencia que ayudan a los médicos humanos a realizar diagnósticos más rápidos y precisos.
Las cargas de trabajo basadas en modelos de IA generativa están ayudando a transformar los campos creativos y técnicos. Se usan para generar automáticamente textos de marketing, sintetizar imágenes realistas para publicidad, crear resúmenes de reuniones virtuales o incluso ayudar a los desarrolladores sugiriendo y completando bloques de código.
Google Cloud puede ofrecer un ecosistema potente y unificado basado en la infraestructura que impulsa los avances de IA de Google, lo que lo convierte en una plataforma ideal para alojar, escalar, organizar y controlar tus cargas de trabajo de IA y AA.
Vertex AI es una plataforma de aprendizaje automático unificada que reúne todos los servicios en la nube para crear, implementar y escalar modelos de AA. Puede proporcionar un único entorno para todo el ciclo de vida de MLOps, lo que permite que los ingenieros y científicos de datos se enfoquen en el desarrollo de modelos en lugar de la integración de herramientas.
Google Cloud ofrece una amplia variedad de opciones de procesamiento, incluidas Cloud TPU y Cloud GPU. Las Cloud TPU (Tensor Processing Units) se diseñaron específicamente para proporcionar modelos de IA a gran escala. Las GPUs de Cloud, potenciadas por unidades de procesamiento gráfico (GPU) de NVIDIA, ofrecen procesamiento flexible y de alto rendimiento para una amplia gama de cargas de trabajo de IA y HPC.
Vertex AI Pipelines te permite automatizar, administrar y supervisar todo tu flujo de trabajo de aprendizaje automático con herramientas de código abierto como Kubeflow. Esto puede ser esencial para crear procesos confiables y repetibles para la preparación, el entrenamiento y la implementación de datos.
Identity and Access Management (IAM) de Google Cloud proporciona controles detallados para administrar quién puede acceder a tus recursos, datos y modelos de IA, y administrarlos. Esto puede garantizar que solo el personal y los servicios autorizados puedan interactuar con tus cargas de trabajo de IA sensibles, lo que ayuda a cumplir con los estrictos estándares normativos y de seguridad.
Google Kubernetes Engine (GKE) es un servicio de Kubernetes completamente administrado y escalable que es fundamental para ejecutar cargas de trabajo de IA alojadas en contenedores. Puede permitirte organizar y administrar clústeres complejos, con flexibilidad en los aceleradores de hardware, y puede extender tu entorno de IA sin problemas en la nube pública y los sistemas locales.
Implementar cargas de trabajo de IA puede aportar ventajas empresariales y técnicas significativas, principalmente enfocándose en la eficiencia, una escalabilidad superior y la capacidad de impulsar la innovación basada en datos con rapidez. Pueden permitir que las organizaciones pasen de operaciones reactivas a una estrategia más proactiva e inteligente.
Escalabilidad y rendimiento acelerado
Las cargas de trabajo de IA, en particular en la nube, pueden escalar recursos (como agregar cientos de GPUs) a pedido para manejar conjuntos de datos enormes y modelos complejos sin necesidad de una gran inversión de capital inicial.
Costos operativos optimizados
Las plataformas de IA basadas en la nube te permiten pagar solo por los recursos de procesamiento que realmente usas, lo que ofrece ayuda para optimizar los costos en comparación con el mantenimiento de clústeres de hardware locales dedicados que permanecen inactivos durante períodos.
Canalizaciones de implementación estandarizadas y optimizadas
Las plataformas para cargas de trabajo de IA usan herramientas de MLOps (operaciones de aprendizaje automático) para automatizar y estandarizar el ciclo de vida de extremo a extremo, desde la preparación de datos hasta la implementación y supervisión de modelos.
Integración de seguridad y administración
Una plataforma en la nube proporciona funciones de seguridad integradas, como administración de identidades y accesos (IAM) y seguridad de red, directamente integradas en tu entorno de IA. Esto ayuda a simplificar el proceso de cumplimiento de los requisitos normativos y de administración.
Compatibilidad con entornos híbridos y de múltiples nubes
Las soluciones de IA están diseñadas para ejecutarse de forma flexible. Pueden aprovechar los contenedores y las herramientas de organización para administrar y ejecutar cargas de trabajo de manera coherente en los proveedores de nube pública.
Implementar un modelo de aprendizaje automático entrenado para la inferencia puede ser un paso clave en la producción de una carga de trabajo de IA. Vertex AI simplifica este proceso proporcionando servicios administrados que se encargan de la infraestructura subyacente.
Sube el modelo entrenado al registro de modelos
Crea un extremo administrado
Implementa el modelo con el extremo
Envía y recibe predicciones en línea
Supervisar y controlar el extremo
Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.