Se usó la API de Cloud Translation para traducir esta página.

Acerca de las opciones de consumo de aceleradores para cargas de trabajo de IA/AA en GKE

Autopilot estándar

En esta página, se describen las técnicas disponibles que puedes usar para obtener aceleradores de procesamiento, como GPUs o TPUs, según los requisitos de tus cargas de trabajo de AA/IA. En GKE, estas técnicas se denominan opciones de consumo de aceleradores. Comprender las diferentes opciones de consumo te ayuda a optimizar el uso de recursos para evitar la subutilización, aumentar la probabilidad de obtener recursos y equilibrar el costo y el rendimiento.

Esta página está dirigida a los administradores y operadores de plataformas que se coordinan con los ingenieros de aprendizaje automático (AA) para obtener los recursos necesarios para implementar correctamente las cargas de trabajo de IA/AA.

Para obtener más información sobre los roles comunes y las tareas de ejemplo a las que hacemos referencia en el contenido de Google Cloud , consulta Roles y tareas comunes de los usuarios de GKE.

Comprende las opciones de consumo

Puedes seleccionar entre las siguientes opciones para usar aceleradores en GKE:

Bajo demanda: Consumes TPU o GPU en GKE sin organizar la capacidad con anticipación. Antes de solicitar recursos, debes tener suficiente cuota a pedido para el tipo y la cantidad específicos de aceleradores. La opción según demanda es la más flexible, pero no hay garantía de que haya suficientes recursos disponibles para satisfacer tu solicitud.
Reservas: Reservas recursos por un período determinado. Una reserva puede ser cualquiera de las siguientes opciones:
- Reservas futuras: Reservas recursos por períodos más largos para un momento específico en el futuro. Tienes acceso exclusivo a los recursos reservados durante ese período. Las reservas futuras requieren la participación de un administrador técnico de cuentas (TAM). Para obtener más información, consulta las guías sobre TPU y GPU.
- Reservas futuras de hasta 90 días (en modo de calendario): Solicitas capacidad para un período específico, y un asesor de calendario te sugiere las fechas disponibles. Las reservas futuras de hasta 90 días (en modo de calendario) ofrecen más flexibilidad para duraciones más cortas y búsquedas de capacidad de autoservicio. Para obtener más información, consulta Solicitudes de reserva futuras en modo de calendario.
- Reservas según demanda: Puedes solicitar que se aprovisione una reserva según demanda tan pronto como esté disponible la capacidad, de manera similar a la opción según demanda. Mientras la reserva está activa, pagas por los recursos, ya sea que los uses o no.
Flex-start: Aseguras recursos asignados de forma densa para cargas de trabajo de corta duración sin una reserva. Solicitas una cantidad específica de GPUs o TPUs, y Compute Engine las aprovisiona cuando hay capacidad disponible. Las GPU o TPU se ejecutan sin interrupciones durante un máximo de siete días. Para obtener más información, consulta aprovisionamiento de flex-start.
Spot: Aprovisionas VMs Spot, lo que te permite obtener descuentos significativos, pero las VMs Spot se pueden interrumpir en cualquier momento, con una advertencia de 30 segundos. Para obtener más información, consulta VMs Spot.

Información sobre la cuota de aceleradores en GKE

Las cuotas y los límites del sistema restringen el uso de los recursos de Google Cloud para admitir la disponibilidad de recursos para todos los usuarios de Google Cloud . Las cuotas tienen valores predeterminados, pero, por lo general, puedes solicitar ajustes. Los límites del sistema son valores fijos que no se pueden cambiar. De forma predeterminada, los proyectos no suelen incluir una cuota de acelerador significativa. Debes solicitar y recibir la aprobación de la cuota para tipos y regiones de aceleradores específicos.

Ten en cuenta las siguientes características cuando administres las cuotas que necesitan tus cargas de trabajo:

Debes solicitar la cuota necesaria para cada opción de consumo. Para identificar la cuota necesaria para cada opción de consumo, consulta los parámetros de "Cuota" correspondientes que se indican en la tabla elige una opción de consumo. Si no hay suficiente cuota, los intentos de crear clústeres o grupos de nodos, o bien de implementar cargas de trabajo que requieran aceleradores, fallarán con un error Quota exceeded.
Debes solicitar una cuota cuando uses clases de procesamiento personalizadas en Autopilot. Los nodos aprovisionados para cumplir con los requisitos de la clase de procesamiento siguen consumiendo la cuota de tu proyecto para los aceleradores especificados.
Google Cloud Las cuentas de prueba gratuita tienen limitaciones para solicitar aumentos de cuota para recursos valiosos, como las GPU y las TPU. Para acceder a la cuota del acelerador, actualiza tu cuenta a una cuenta pagada.

Para verificar y solicitar cuota, ve a la página Cuotas en la consola de Google Cloud . Puedes filtrar las cuotas de aceleradores y solicitar aumentos.

Elige una opción de consumo

Usa las siguientes consideraciones para elegir la mejor opción de consumo para tu carga de trabajo de IA/AA:

Tipo de carga de trabajo: Ten en cuenta el tipo de carga de trabajo que deseas implementar. Los requisitos de GKE varían si ejecutas una carga de trabajo de entrenamiento o de inferencia:
- Entrenamiento: Requiere recursos de alto rendimiento con una memoria significativa. Las cargas de trabajo de entrenamiento suelen tener una vida útil bien definida. Por lo general, estas cargas de trabajo son más fáciles de planificar porque son menos propensas a picos repentinos en el consumo de recursos.
- Inferencia: Por lo general, requiere aceleradores optimizados para la escalabilidad y un menor costo. Las cargas de trabajo de inferencia pueden requerir una cantidad significativa de memoria del acelerador durante los aumentos repentinos en el consumo de recursos.
Duración según la fase de implementación: Ten en cuenta tu objetivo comercial si estás ejecutando una prueba de concepto (POC), una evaluación de la plataforma, el desarrollo o las pruebas de una aplicación, la producción o la optimización.
Tiempo de aprovisionamiento: Determina si tu carga de trabajo requiere una ejecución inmediata o si se puede ejecutar en el futuro. Si es posible la ejecución en el futuro, determina qué tan flexible puede ser la hora de inicio.
Equilibrio entre costo y rendimiento: Evalúa los requisitos de rendimiento de tu carga de trabajo y las restricciones de presupuesto para seleccionar el acelerador más rentable. Considera la compensación entre el costo de los aceleradores y sus características de rendimiento. Recuerda que los nuevos aceleradores pueden mejorar las relaciones costo-rendimiento.

Usa la siguiente tabla para elegir una opción de consumo:

Tipo de carga de trabajo	Tiempo de aprovisionamiento	Vida útil	Opción de consumo recomendada
Cargas de trabajo a gran escala y de larga duración, como el entrenamiento previo de modelos de base o la inferencia de varios hosts Cargas de trabajo de producción	Inmediata (con reserva aprobada)	A largo plazo (por reserva)	Si deseas usar cualquier GPU (excepto A4X, A4 o A3 Ultra) o cualquier TPU, usa Reservas bajo demanda: Costo: Se te cobrará el período de reserva completo. Cuota: La cuota se incrementa automáticamente antes de que se entregue la capacidad.
	Inmediata (con reserva aprobada)	A largo plazo (por reserva)	Si deseas consumir aceleradores G2, A2, A3 High o A3 Mega, usa Reservas futuras: Costo: Se te cobrará el período de reserva completo. Cuota: La cuota se incrementa automáticamente antes de que se entregue la capacidad.
Cargas de trabajo distribuidas de corta duración, como el ajuste de modelos, las simulaciones o la inferencia por lotes, en las que se necesita una hora de inicio precisa Cargas de trabajo para la evaluación, la comparación o las pruebas de optimización de la plataforma	Inmediata (con reserva aprobada)	Hasta 90 días	Reservas futuras de hasta 90 días (en modo de calendario): Costo: Con descuento (hasta un 53%). Se te cobra por el período de reserva. Cuota: No se cobra ninguna cuota. Aceleradores compatibles: A4, A3 Ultra, TPU v5e, TPU v5p y TPU Trillium.
Cargas de trabajo por lotes, como entrenamiento de modelos pequeños, ajuste o inferencia escalable, en las que la hora de inicio es flexible. Cargas de trabajo para pruebas de concepto o pruebas de integración	A pedido (sujeto a disponibilidad)	Hasta 7 días por asignación	Modo de aprovisionamiento de inicio flexible: Costo: Con descuento (hasta un 53%). Pagas por lo que usas. Cuota: Se cobra la cuota de GPU interrumpible o la cuota de TPU interrumpible. Aceleradores compatibles: Todas las familias de GPU, excepto A4X. Todas las versiones de TPU.
Cargas de trabajo de menor prioridad y tolerantes a errores, como CI/CD, análisis de datos o computación de alto rendimiento (HPC) Cargas de trabajo altamente interrumpibles	A pedido (sujeto a disponibilidad)	Variable, se puede interrumpir con una advertencia de 30 segundos	VMs Spot: Costo: Con descuentos importantes (del 60% al 91%). Pagas por lo que usas. Cuota: Se cobra la cuota de GPU interrumpible o la cuota de TPU interrumpible. Aceleradores compatibles: Todas las familias de GPU, excepto A4X. Todas las versiones de TPU.
Cargas de trabajo de uso general que requieren ejecución inmediata.	Inmediata (sujeto a disponibilidad)	Sin límite	A pedido (GPUs o TPUs): Costo: Pagas a medida que usas el servicio. Cuota: Se cobra la cuota según demanda de GPU o TPU. Aceleradores compatibles: Todas las familias de GPU, excepto A4X, A4 o A3 Ultra. Todas las versiones de TPU.

¿Qué sigue?

Obtén más información sobre las GPUs en GKE.
Obtén más información sobre las TPU en GKE.
Obtén más información sobre la inferencia de IA/AA en GKE.