Acerca de las opciones de consumo de aceleradores para cargas de trabajo de IA y aprendizaje automático en GKE


En esta página se describen las técnicas disponibles que puedes usar para obtener aceleradores de computación, como GPUs o TPUs, en función de los requisitos de tus cargas de trabajo de IA o aprendizaje automático. Estas técnicas se denominan opciones de consumo de aceleradores en GKE. Conocer las diferentes opciones de consumo te ayuda a optimizar el uso de los recursos para evitar que se infrautilicen, aumentar la probabilidad de obtenerlos y equilibrar los costes y el rendimiento.

Esta página está dirigida a administradores y operadores de la plataforma que coordinan con ingenieros de aprendizaje automático para obtener los recursos necesarios para desplegar correctamente cargas de trabajo de IA y aprendizaje automático.

Para obtener más información sobre los roles habituales y las tareas de ejemplo a las que hacemos referencia en el contenido de Google Cloud , consulta Roles y tareas de usuario habituales de GKE.

Información sobre las opciones de consumo

Puedes seleccionar una de las siguientes opciones para consumir aceleradores en GKE:

  • Bajo demanda: consumes TPUs o GPUs en GKE sin tener que organizar la capacidad con antelación. Antes de solicitar recursos, debes tener suficiente cuota bajo demanda para el tipo y la cantidad específicos de aceleradores. La opción bajo demanda es la más flexible, pero no hay ninguna garantía de que haya suficientes recursos bajo demanda disponibles para satisfacer tu solicitud.
  • Reservas: reservas recursos durante un periodo determinado. Una reserva puede ser cualquiera de los siguientes elementos:
    • Reservas futuras: reservas recursos durante periodos más largos para un momento concreto del futuro. Tienes acceso exclusivo a los recursos que has reservado durante ese periodo. Para hacer reservas futuras, debes ponerte en contacto con un administrador técnico de cuentas. Para obtener más información, consulta las directrices sobre TPU y GPUs.
    • Reservas futuras de hasta 90 días (en modo calendario): solicitas capacidad para un periodo concreto y un asesor te sugiere las fechas disponibles. Las reservas futuras de hasta 90 días (en modo Calendario) ofrecen más flexibilidad para duraciones más cortas y búsquedas de capacidad de autoservicio. Para obtener más información, consulta Solicitudes de reserva futuras en el modo Calendario.
    • Reservas bajo demanda: puedes solicitar que se aprovisione una reserva bajo demanda en cuanto haya capacidad disponible, de forma similar a la opción bajo demanda. Mientras la reserva esté activa, pagarás por los recursos tanto si los usas como si no.
  • Inicio flexible: puedes proteger recursos asignados de forma densa para cargas de trabajo de corta duración sin necesidad de hacer una reserva. Solicitas un número específico de GPUs o TPUs, y Compute Engine las aprovisiona cuando hay capacidad disponible. Las GPUs o las TPUs se ejecutan sin interrupciones durante un máximo de siete días. Para obtener más información, consulta la sección sobre el aprovisionamiento de inicio flexible.
  • Spot: aprovisionas máquinas virtuales de acceso puntual, lo que te permite obtener descuentos significativos, pero estas máquinas se pueden interrumpir en cualquier momento con una advertencia de 30 segundos. Para obtener más información, consulta Máquinas virtuales de acceso puntual.

Información sobre la cuota de aceleradores en GKE

Las cuotas y los límites del sistema restringen el uso de los recursos de Google Cloud para que todos los usuarios de Google Cloud puedan acceder a ellos. Las cuotas tienen valores predeterminados, pero normalmente puedes solicitar ajustes. Los límites del sistema son valores fijos que no se pueden cambiar. De forma predeterminada, los proyectos no suelen tener una cuota de aceleradores significativa. Debes solicitar y recibir la aprobación de la cuota de tipos y regiones de aceleradores específicos.

Ten en cuenta las siguientes características al gestionar las cuotas que necesitan tus cargas de trabajo:

  • Debes solicitar la cuota necesaria para cada opción de consumo. Para identificar la cuota necesaria para cada opción de consumo, consulta los parámetros de cuota correspondientes que se indican en la tabla Elegir una opción de consumo. Si no hay suficiente cuota, se producirá un error Quota exceeded al intentar crear clústeres o grupos de nodos, o bien al implementar cargas de trabajo que requieran aceleradores.

  • Debes solicitar cuota cuando uses clases de computación personalizadas en Autopilot. Los nodos aprovisionados para cumplir los requisitos de la clase de computación siguen consumiendo la cuota de tu proyecto para los aceleradores especificados.

  • Google Cloud Las cuentas de prueba gratuitas tienen limitaciones a la hora de solicitar aumentos de cuota para recursos de alto valor, como GPUs y TPUs. Para acceder a la cuota de acelerador, actualiza a una cuenta de pago.

Para consultar y solicitar cuotas, ve a la página Cuotas de la Google Cloud consola. Puedes filtrar las cuotas de aceleradores y solicitar aumentos.

Elige una opción de consumo

Ten en cuenta lo siguiente para elegir la mejor opción de consumo para tu carga de trabajo de IA o aprendizaje automático:

  • Tipo de carga de trabajo: ten en cuenta el tipo de carga de trabajo que quieres implementar. Los requisitos de GKE varían en función de si ejecutas una carga de trabajo de entrenamiento o de inferencia:
    • Entrenamiento: requiere recursos de alto rendimiento con una cantidad de memoria significativa. Las cargas de trabajo de entrenamiento suelen tener una vida útil bien definida. Estas cargas de trabajo suelen ser más fáciles de planificar porque son menos propensas a picos repentinos en el consumo de recursos.
    • Inferencia: suele requerir aceleradores optimizados para la escalabilidad y un coste más bajo. Las cargas de trabajo de inferencia pueden requerir una cantidad significativa de memoria del acelerador durante los picos repentinos de consumo de recursos.
  • Duración en función de la fase de implementación: ten en cuenta tu objetivo de negocio si estás llevando a cabo una prueba de concepto, una evaluación de la plataforma, un desarrollo o una prueba de aplicaciones, una puesta en producción o una optimización.
  • Tiempo de aprovisionamiento: determina si tu carga de trabajo requiere una ejecución inmediata o si se puede ejecutar más adelante. Si es posible ejecutarlo en el futuro, determina la flexibilidad de la hora de inicio.
  • Equilibrio entre coste y rendimiento: evalúa los requisitos de rendimiento de tu carga de trabajo y las restricciones de presupuesto para seleccionar el acelerador más rentable. Tenga en cuenta la relación entre el coste de los aceleradores y sus características de rendimiento. Ten en cuenta que los nuevos aceleradores pueden mejorar la relación coste-rendimiento.

Usa la siguiente tabla para elegir una opción de consumo:

Tipo de carga de trabajo Tiempo de aprovisionamiento Duración Opción de consumo recomendada
  • Cargas de trabajo de larga duración y a gran escala, como el preentrenamiento de modelos fundacionales o la inferencia multihost.
  • Cargas de trabajo de producción.
Inmediata (con reserva aprobada) Largo plazo (por reserva)

Si quieres usar cualquier GPU (excepto A4X, A4 o A3 Ultra) o cualquier TPU, utiliza las reservas bajo demanda:

  • Coste: se te cobra el periodo de reserva completo.
  • Cuota: la cuota se aumenta automáticamente antes de que se proporcione la capacidad.

Si quieres usar los aceleradores G2, A2, A3 High o A3 Mega, utiliza las reservas futuras:

  • Coste: se te cobra el periodo de reserva completo.
  • Cuota: la cuota se aumenta automáticamente antes de que se proporcione la capacidad.
  • Cargas de trabajo distribuidas de corta duración, como el ajuste de modelos, las simulaciones o la inferencia por lotes, en las que se necesita una hora de inicio precisa.
  • Cargas de trabajo para la evaluación, la creación de comparativas o las pruebas de optimización de la plataforma.
Inmediata (con reserva aprobada) Hasta 90 días

Reservas futuras de hasta 90 días (en el modo Calendario):

  • Coste: con descuento (hasta un 53%). Se te cobrará por el periodo de reserva.
  • Cuota: no se cobra ninguna cuota.
  • Aceleradores compatibles: A4, A3 Ultra, TPU v5e, TPU v5p y TPU Trillium.
  • Cargas de trabajo por lotes, como el entrenamiento de modelos pequeños, el ajuste fino o la inferencia escalable, en las que la hora de inicio es flexible.
  • Cargas de trabajo para pruebas de concepto o pruebas de integración.
Bajo demanda (sujeto a disponibilidad) Hasta 7 días por asignación

Modo de aprovisionamiento de inicio flexible:

  • Coste: con descuento (hasta un 53%). Pagas a medida que avanzas.
  • Se cobra la cuota de GPUs no garantizadas o de TPUs no garantizadas.
  • Aceleradores admitidos: todas las familias de GPU, excepto A4X. Todas las versiones de TPU.
  • Cargas de trabajo tolerantes a fallos y de menor prioridad, como CI/CD, analíticas de datos o computación de alto rendimiento (HPC).
  • Cargas de trabajo altamente interrumpibles.
Bajo demanda (sujeto a disponibilidad) Variable, se puede interrumpir con una advertencia de 30 segundos

Máquinas virtuales de acceso puntual:

  • Cargas de trabajo de uso general que requieren una ejecución inmediata.
Inmediata (sujeta a disponibilidad) Sin límite

Bajo demanda (GPUs o TPUs):

  • Coste: pagas por lo que usas.
  • Cuota: se cobra la cuota bajo demanda de GPU o TPU.
  • Aceleradores admitidos: todas las familias de GPU, excepto A4X, A4 o A3 Ultra. Todas las versiones de TPU.

Siguientes pasos