En esta página se describen las técnicas disponibles que puedes usar para obtener aceleradores de computación, como GPUs o TPUs, en función de los requisitos de tus cargas de trabajo de IA o aprendizaje automático. Estas técnicas se denominan opciones de consumo de aceleradores en GKE. Conocer las diferentes opciones de consumo te ayuda a optimizar el uso de los recursos para evitar que se infrautilicen, aumentar la probabilidad de obtenerlos y equilibrar los costes y el rendimiento.
Esta página está dirigida a administradores y operadores de la plataforma que coordinan con ingenieros de aprendizaje automático para obtener los recursos necesarios para desplegar correctamente cargas de trabajo de IA y aprendizaje automático.
Para obtener más información sobre los roles habituales y las tareas de ejemplo a las que hacemos referencia en el contenido de Google Cloud , consulta Roles y tareas de usuario habituales de GKE.
Información sobre las opciones de consumo
Puedes seleccionar una de las siguientes opciones para consumir aceleradores en GKE:
- Bajo demanda: consumes TPUs o GPUs en GKE sin tener que organizar la capacidad con antelación. Antes de solicitar recursos, debes tener suficiente cuota bajo demanda para el tipo y la cantidad específicos de aceleradores. La opción bajo demanda es la más flexible, pero no hay ninguna garantía de que haya suficientes recursos bajo demanda disponibles para satisfacer tu solicitud.
- Reservas: reservas recursos durante un periodo determinado. Una reserva puede ser cualquiera de los siguientes elementos:
- Reservas futuras: reservas recursos durante periodos más largos para un momento concreto del futuro. Tienes acceso exclusivo a los recursos que has reservado durante ese periodo. Para hacer reservas futuras, debes ponerte en contacto con un administrador técnico de cuentas. Para obtener más información, consulta las directrices sobre TPU y GPUs.
- Reservas futuras de hasta 90 días (en modo calendario): solicitas capacidad para un periodo concreto y un asesor te sugiere las fechas disponibles. Las reservas futuras de hasta 90 días (en modo Calendario) ofrecen más flexibilidad para duraciones más cortas y búsquedas de capacidad de autoservicio. Para obtener más información, consulta Solicitudes de reserva futuras en el modo Calendario.
- Reservas bajo demanda: puedes solicitar que se aprovisione una reserva bajo demanda en cuanto haya capacidad disponible, de forma similar a la opción bajo demanda. Mientras la reserva esté activa, pagarás por los recursos tanto si los usas como si no.
- Inicio flexible: puedes proteger recursos asignados de forma densa para cargas de trabajo de corta duración sin necesidad de hacer una reserva. Solicitas un número específico de GPUs o TPUs, y Compute Engine las aprovisiona cuando hay capacidad disponible. Las GPUs o las TPUs se ejecutan sin interrupciones durante un máximo de siete días. Para obtener más información, consulta la sección sobre el aprovisionamiento de inicio flexible.
- Spot: aprovisionas máquinas virtuales de acceso puntual, lo que te permite obtener descuentos significativos, pero estas máquinas se pueden interrumpir en cualquier momento con una advertencia de 30 segundos. Para obtener más información, consulta Máquinas virtuales de acceso puntual.
Información sobre la cuota de aceleradores en GKE
Las cuotas y los límites del sistema restringen el uso de los recursos de Google Cloud para que todos los usuarios de Google Cloud puedan acceder a ellos. Las cuotas tienen valores predeterminados, pero normalmente puedes solicitar ajustes. Los límites del sistema son valores fijos que no se pueden cambiar. De forma predeterminada, los proyectos no suelen tener una cuota de aceleradores significativa. Debes solicitar y recibir la aprobación de la cuota de tipos y regiones de aceleradores específicos.
Ten en cuenta las siguientes características al gestionar las cuotas que necesitan tus cargas de trabajo:
Debes solicitar la cuota necesaria para cada opción de consumo. Para identificar la cuota necesaria para cada opción de consumo, consulta los parámetros de cuota correspondientes que se indican en la tabla Elegir una opción de consumo. Si no hay suficiente cuota, se producirá un error
Quota exceeded
al intentar crear clústeres o grupos de nodos, o bien al implementar cargas de trabajo que requieran aceleradores.Debes solicitar cuota cuando uses clases de computación personalizadas en Autopilot. Los nodos aprovisionados para cumplir los requisitos de la clase de computación siguen consumiendo la cuota de tu proyecto para los aceleradores especificados.
Google Cloud Las cuentas de prueba gratuitas tienen limitaciones a la hora de solicitar aumentos de cuota para recursos de alto valor, como GPUs y TPUs. Para acceder a la cuota de acelerador, actualiza a una cuenta de pago.
Para consultar y solicitar cuotas, ve a la página Cuotas de la Google Cloud consola. Puedes filtrar las cuotas de aceleradores y solicitar aumentos.
Elige una opción de consumo
Ten en cuenta lo siguiente para elegir la mejor opción de consumo para tu carga de trabajo de IA o aprendizaje automático:
- Tipo de carga de trabajo: ten en cuenta el tipo de carga de trabajo que quieres implementar.
Los requisitos de GKE varían en función de si ejecutas una carga de trabajo de entrenamiento o de inferencia:
- Entrenamiento: requiere recursos de alto rendimiento con una cantidad de memoria significativa. Las cargas de trabajo de entrenamiento suelen tener una vida útil bien definida. Estas cargas de trabajo suelen ser más fáciles de planificar porque son menos propensas a picos repentinos en el consumo de recursos.
- Inferencia: suele requerir aceleradores optimizados para la escalabilidad y un coste más bajo. Las cargas de trabajo de inferencia pueden requerir una cantidad significativa de memoria del acelerador durante los picos repentinos de consumo de recursos.
- Duración en función de la fase de implementación: ten en cuenta tu objetivo de negocio si estás llevando a cabo una prueba de concepto, una evaluación de la plataforma, un desarrollo o una prueba de aplicaciones, una puesta en producción o una optimización.
- Tiempo de aprovisionamiento: determina si tu carga de trabajo requiere una ejecución inmediata o si se puede ejecutar más adelante. Si es posible ejecutarlo en el futuro, determina la flexibilidad de la hora de inicio.
- Equilibrio entre coste y rendimiento: evalúa los requisitos de rendimiento de tu carga de trabajo y las restricciones de presupuesto para seleccionar el acelerador más rentable. Tenga en cuenta la relación entre el coste de los aceleradores y sus características de rendimiento. Ten en cuenta que los nuevos aceleradores pueden mejorar la relación coste-rendimiento.
Usa la siguiente tabla para elegir una opción de consumo:
Tipo de carga de trabajo | Tiempo de aprovisionamiento | Duración | Opción de consumo recomendada |
---|---|---|---|
|
Inmediata (con reserva aprobada) | Largo plazo (por reserva) | Si quieres usar cualquier GPU (excepto A4X, A4 o A3 Ultra) o cualquier TPU, utiliza las reservas bajo demanda:
|
Si quieres usar los aceleradores G2, A2, A3 High o A3 Mega, utiliza las reservas futuras:
|
|||
|
Inmediata (con reserva aprobada) | Hasta 90 días | Reservas futuras de hasta 90 días (en el modo Calendario):
|
|
Bajo demanda (sujeto a disponibilidad) | Hasta 7 días por asignación | Modo de aprovisionamiento de inicio flexible:
|
|
Bajo demanda (sujeto a disponibilidad) | Variable, se puede interrumpir con una advertencia de 30 segundos | Máquinas virtuales de acceso puntual:
|
|
Inmediata (sujeta a disponibilidad) | Sin límite |
Siguientes pasos
- Consulta más información sobre las GPUs en GKE.
- Consulta más información sobre las TPUs en GKE.
- Consulta más información sobre la inferencia de IA y aprendizaje automático en GKE.