Solicitudes de recursos en Autopilot

Autopilot

En esta página, se describen las solicitudes de recursos máximas, mínimas y predeterminadas que puedes especificar para tus cargas de trabajo de Google Kubernetes Engine (GKE) Autopilot y cómo Autopilot modifica esas solicitudes automáticamente a fin de mantener la estabilidad de las cargas de trabajo.

Descripción general de las solicitudes de recursos en Autopilot

Autopilot usa las solicitudes de recursos que especificas en la configuración de tu carga de trabajo para configurar los nodos que ejecutan tus cargas de trabajo. Autopilot aplica las solicitudes de recursos mínimas y máximas según la clase de procesamiento o la configuración de hardware que usan tus cargas de trabajo. Si no especificas solicitudes para algunos contenedores, Autopilot asigna valores predeterminados para permitir que esos contenedores se ejecuten de forma correcta.

Cuando implementas una carga de trabajo en un clúster de Autopilot, GKE valida la configuración de la carga de trabajo con los valores mínimos y máximos permitidos para la clase de procesamiento seleccionada o la configuración de hardware (como las GPU). Si tus solicitudes son menores que el mínimo, Autopilot modifica automáticamente la configuración de tu carga de trabajo para mover tus solicitudes dentro del rango permitido. Si tus solicitudes son superiores al máximo, Autopilot rechaza tu carga de trabajo y muestra un mensaje de error.

En la siguiente lista, se resumen las categorías de las solicitudes de recursos:

Solicitudes de recursos predeterminadas: Autopilot las agrega si no especificas tus propias solicitudes para cargas de trabajo
Solicitudes de recursos mínimas y máximas: Autopilot valida tus solicitudes especificadas para garantizar que estén dentro de estos límites. Si tus solicitudes están fuera de los límites, Autopilot modifica tus solicitudes de carga de trabajo.
Separación de cargas de trabajo y solicitudes de duración extendida: Autopilot tiene diferentes valores predeterminados y diferentes valores mínimos para las cargas de trabajo que separan entre sí o para Pods que obtienen protección extendida de la expulsión iniciada por GKE.
Solicitudes de recursos para DaemonSets: Autopilot tiene valores predeterminados, mínimos y máximos diferentes para los contenedores en DaemonSets.

Cómo solicitar recursos

En Autopilot, solicitas recursos en la especificación de tu Pod. Los recursos mínimos y máximos admitidos que puedes solicitar cambian según la configuración de hardware del nodo en el que se ejecutan los Pods. Para obtener información sobre cómo solicitar configuraciones de hardware específicas, consulta las siguientes páginas:

Solicitudes de recursos predeterminadas

Si no especificas solicitudes de recursos para algunos contenedores en un Pod, Autopilot aplica valores predeterminados. Estos valores predeterminados son adecuados para muchas cargas de trabajo más pequeñas.

Además, Autopilot aplica las siguientes solicitudes de recursos predeterminadas, sin importar la clase de procesamiento ni la configuración de hardware seleccionadas:

Contenedores en DaemonSets
- CPU: 50 mCPU
- Memoria: 100 MiB
- Almacenamiento efímero: 100 MiB
Todos los demás contenedores
- Almacenamiento efímero: 1 GiB

Para obtener más información sobre los límites del clúster de Autopilot, consulta Cuotas y límites.

Solicitudes predeterminadas para clases de procesamiento

Autopilot aplica los siguientes valores predeterminados a los recursos que no están definidos en la especificación del Pod para pods que se ejecutan en clases de procesamiento: Si solo configuras una de las solicitudes y dejas la otra en blanco, GKE usa la proporción de CPU:memoria definida en la sección Solicitudes mínimas y máximas para establecer la solicitud faltante a un valor que cumple con la proporción.

Clase de procesamiento	Recurso	Solicitud predeterminada
De uso general (predeterminado)	CPU	0.5 CPU virtual
De uso general (predeterminado)	Memoria	2 GiB
Acelerador	Consulta la sección de recursos predeterminados para aceleradores.
Equilibrado	CPU	0.5 CPU virtual
Equilibrado	Memoria	2 GiB
Rendimiento	CPU	Serie de máquinas C3: 2 CPUs virtuales Serie de máquinas C3 con SSD local: 2 CPUs virtuales Serie de máquinas C3D: 2 CPUs virtuales Serie de máquinas C3D con SSD local: 4 CPUs virtuales Serie de máquinas H3: 80 CPUs virtuales Serie de máquinas C2: 2 CPUs virtuales Serie de máquinas C2D: 2 CPUs virtuales Serie de máquinas T2A: 2 CPUs virtuales Serie de máquinas T2D: 2 CPUs virtuales
	Memoria	Serie de máquinas C3: 8 GiB Serie de máquinas C3 con SSD local: 8 GiB Serie de máquinas C3D: 8 GiB Serie de máquinas C3D con SSD local: 16 GiB Serie de máquinas H3: 320 GiB Serie de máquinas C2: 8 GiB Serie de máquinas C2D: 8 GiB Serie de máquinas T2A: 8 GiB Serie de máquinas T2D: 8 GiB
	Almacenamiento efímero	Serie de máquinas C3: 1 GiB Serie de máquinas C3 con SSD local: 1 GiB Serie de máquinas C3D: 1 GiB Serie de máquinas C3D con SSD local: 1 GiB Serie de máquinas H3: 1 GiB Serie de máquinas C2: 1 GiB Serie de máquinas C2D: 1 GiB Serie de máquinas T2A: 1 GiB Serie de máquinas T2D: 1 GiB
Escalar horizontalmente	CPU	0.5 CPU virtual
Escalar horizontalmente	Memoria	2 GiB

Solicitudes predeterminadas para aceleradores

En la siguiente tabla, se describen los valores predeterminados que GKE asigna a los Pods que no especifican valores en el campo requests de la especificación del Pod. Esta tabla se aplica a los Pods que usan la clase de procesamiento Accelerator, que es la forma recomendada de ejecutar aceleradores en clústeres de Autopilot.

Acelerador	Recurso	Solicitud predeterminada total
GPUs NVIDIA H100 (80 GB) `nvidia-h100-80gb`	CPU	8 GPUs: 200 CPUs virtuales
	Memoria	8 GPUs: 1400 GiB
	Almacenamiento efímero	8 GPUs: 1 GiB
GPUs NVIDIA A100 (40 GB) `nvidia-tesla-a100`	CPU	1 GPU: 9 CPUs virtuales 2 GPUs: 20 CPUs virtuales 4 GPUs: 44 CPUs virtuales 8 GPUs: 92 CPUs virtuales 16 GPUs: 92 vCPU
GPUs NVIDIA A100 (40 GB) `nvidia-tesla-a100`	Memoria	1 GPU: 60 GiB 2 GPUs: 134 GiB 4 GPUs: 296 GiB 8 GPUs: 618 GiB 16 GPU: 1250 GiB
GPUs NVIDIA A100 (80 GB) `nvidia-a100-80gb`	CPU	1 GPU: 9 CPUs virtuales 2 GPUs: 20 CPUs virtuales 4 GPUs: 44 CPUs virtuales 8 GPUs: 92 CPUs virtuales
	Memoria	1 GPU: 134 GiB 2 GPUs: 296 GiB 4 GPUs: 618 GiB 8 GPUs: 1250 GiB
	Almacenamiento efímero	1 GPU: 1 GiB 2 GPUs: 1 GiB 4 GPUs: 1 GiB 8 GPUs: 1 GiB
GPUs NVIDIA L4 `nvidia-l4`	CPU	1 GPU: 2 CPUs virtuales 2 GPUs: 21 CPUs virtuales 4 GPUs: 45 CPUs virtuales 8 GPUs: 93 CPUs virtuales
GPUs NVIDIA L4 `nvidia-l4`	Memoria	1 GPU: 7 GiB 2 GPUs: 78 GiB 4 GPUs: 170 GiB 8 GPUs: 355 GiB
GPUs NVIDIA T4 `nvidia-tesla-t4`	CPU	1 GPU: 0,5 CPUs virtuales 4 GPUs: 0,5 CPUs virtuales
GPUs NVIDIA T4 `nvidia-tesla-t4`	Memoria	1 GPU: 2 GiB 4 GPUs: 2 GiB
TPU v5e `tpu-v5-lite-device` (host único)	CPU	Todas las topologías: 1 mCPU
TPU v5e `tpu-v5-lite-device` (host único)	Memoria	Todas las topologías: 1 MiB
TPU v5e `tpu-v5-lite-podslice` (hosts múltiples)	CPU	Todas las topologías: 1 mCPU
TPU v5e `tpu-v5-lite-podslice` (hosts múltiples)	Memoria	Todas las topologías: 1 MiB
TPU v5p `tpu-v5p-slice`	CPU	Todas las topologías: 1 mCPU
TPU v5p `tpu-v5p-slice`	Memoria	Todas las topologías: 1 MiB
TPU v4 `tpu-v4-podslice`	CPU	Todas las topologías: 1 mCPU
TPU v4 `tpu-v4-podslice`	Memoria	Todas las topologías: 1 MiB

GPUs compatibles sin la clase de procesamiento Accelerator

Si no usas la clase de procesamiento Accelerator, solo se admiten las siguientes GPUs. Las solicitudes de recursos predeterminadas para estas GPUs son las mismas que en la clase de procesamiento del acelerador:

NVIDIA A100 (40 GB)
NVIDIA A100 (80 GB)
NVIDIA L4
NVIDIA Tesla T4

Solicitudes de recursos mínimas y máximas

El total de recursos que solicita tu configuración de implementación debe estar dentro de los valores mínimos y máximos admitidos que permite Autopilot. Se aplican las siguientes condiciones:

La solicitud de almacenamiento efímero debe estar entre 10 MiB y 10 GiB para todas las clases de procesamiento y configuraciones de hardware, a menos que se especifique lo contrario. Para volúmenes más grandes, se recomienda usar volúmenes efímeros genéricos que proporcionan funcionalidad y rendimiento equivalentes al almacenamiento efímero, pero con mucho más flexibilidad, ya que se pueden usar. con cualquier opción de almacenamiento de GKE. Por ejemplo, el tamaño máximo de un volumen efímero genérico con pd-balanced es de 64 TiB.
Para los Pods DaemonSet, las solicitudes mínimas de recursos son las siguientes:
- Clústeres que admiten aumentos de actividad: 1 mCPU de CPU por Pod, 2 MiB de memoria por Pod y 10 MiB de almacenamiento efímero por contenedor en el Pod.
- Clústeres que no admiten aumentos de actividad: 10 mCPU de CPU por Pod, 10 MiB de memoria por Pod y 10 MiB de almacenamiento efímero por contenedor en el Pod.
Para verificar si tu clúster admite aumentos de actividad, consulta Disponibilidad de aumentos de actividad en GKE.
La proporción entre CPU y memoria debe estar dentro del rango permitido para la clase de procesamiento o la configuración de hardware seleccionada. Si la proporción entre CPU y memoria está fuera del rango permitido, Autopilot aumenta de forma automática el recurso más pequeño. Por ejemplo, si solicitas 1 CPU virtual y 16 GiB de memoria (proporción 1:16) para Pods que se ejecutan en la clase Scale-Out, Autopilot aumenta la solicitud de CPU a 4 CPU virtuales, lo que cambia la proporción a 1:4.

Mínimos y máximos para las clases de procesamiento

En la siguiente tabla, se describe la proporción de CPU y memoria mínima, máxima y permitida para cada clase de procesamiento que admite Autopilot:

Clase de procesamiento	Proporción de CPU:memoria (CPU virtual:GiB)	Recurso	Mínimo	Máximo
De uso general (predeterminado)	Entre 1:1 y 1:6.5	CPU	El valor depende de si tu clúster admite aumentos de actividad, de la siguiente manera: Clústeres que admiten aumentos de actividad: 50 m de CPU Clústeres que no admiten aumentos de actividad: 250 m de CPU Para verificar si tu clúster admite aumentos de actividad, consulta Disponibilidad de aumentos de actividad en GKE.	30 CPU virtuales
De uso general (predeterminado)	Entre 1:1 y 1:6.5	Memoria	El valor depende de si tu clúster admite aumentos de actividad, de la siguiente manera: Clústeres que admiten aumentos de actividad: 52 MiB Clústeres que no admiten los aumentos de actividad: 512 MiB Para verificar si tu clúster admite aumentos de actividad, consulta Disponibilidad de aumentos de actividad en GKE.	110 GiB
Acelerador	Consulta Mínimos y máximos para aceleradores
Equilibrado	Entre 1:1 y 1:8	CPU	0.25 CPU virtuales	222 CPU virtuales Si se seleccionó la plataforma de CPU mínima, haz lo siguiente: Plataformas Intel: 126 CPU virtuales Plataformas AMD: 222 CPU virtuales
Equilibrado	Entre 1:1 y 1:8	Memoria	0.5 GiB	851 GiB Si se seleccionó la plataforma de CPU mínima, haz lo siguiente: Plataformas de Intel: 823 GiB Plataformas AMD: 851 GiB
Rendimiento	N/A	CPU	0.001 CPU virtual	Serie de máquinas C3: 174 CPUs virtuales Serie de máquinas C3 con SSD local: 174 CPUs virtuales Serie de máquinas C3D: 358 CPUs virtuales Serie de máquinas C3D con SSD local: 358 CPUs virtuales Serie de máquinas H3: 86 CPUs virtuales Serie de máquinas C2: 58 CPUs virtuales Serie de máquinas C2D: 110 CPUs virtuales Serie de máquinas T2A: 46 CPUs virtuales Serie de máquinas T2D: 58 CPUs virtuales
		Memoria	1 MiB	Serie de máquinas C3: 1,345 GiB Serie de máquinas C3 con SSD local: 670 GiB Serie de máquinas C3D: 2,750 GiB Serie de máquinas C3D con SSD local: 1,375 GiB Serie de máquinas H3: 330 GiB Serie de máquinas C2: 218 GiB Serie de máquinas C2D: 835 GiB Serie de máquinas T2A: 172 GiB Serie de máquinas T2D: 218 GiB
		Almacenamiento efímero	10 MiB	Serie de máquinas C3: 250 GiB Serie de máquinas C3 con SSD local: 10,000 GiB Serie de máquinas C3D: 250 GiB Serie de máquinas C3D con SSD local: 10,000 GiB Serie de máquinas H3: 250 GiB Serie de máquinas C2: 250 GiB Serie de máquinas C2D: 250 GiB Serie de máquinas T2A: 250 GiB Serie de máquinas T2D: 250 GiB
Escalar horizontalmente	1:4	CPU	0.25 CPU virtuales	`arm64`: 43 CPU virtuales `amd64`: 54 CPU virtuales
Escalar horizontalmente	1:4	Memoria	1 GiB	`arm64`: 172 GiB `amd64`: 216 GiB

Para obtener información sobre cómo solicitar clases de procesamiento en tus Pods de Autopilot, consulta Elige clases de procesamiento para Pods de Autopilot.

Mínimos y máximos para los aceleradores

En las siguientes secciones, se describe la proporción de CPU a memoria mínima, máxima y permitida para los Pods que usan aceleradores de hardware, como GPU y TPU.

A menos que se especifique, el almacenamiento efímero máximo admitido es de 122 GiB en las versiones 1.28.6-gke.1369000 o posteriores, y 1.29.1-gke.1575000 o posteriores. Para las versiones anteriores, el almacenamiento efímero máximo admitido es de 10 GiB.

Mínimos y máximos para la clase de procesamiento Accelerator

En la siguiente tabla, se muestran las solicitudes de recursos mínimas y máximas para los Pods que usan la clase de procesamiento de Accelerator, que es la forma recomendada de ejecutar aceleradores con clústeres de GKE Autopilot. En la clase de procesamiento de Accelerator, GKE no aplica las proporciones de solicitud de CPU a memoria.

Tipo de acelerador	Recurso	Mínimo	Máximo
NVIDIA H100 (80 GB) `nvidia-h100-80gb`	CPU	8 GPUs: 0.001 CPUs virtuales	8 GPUs: 206 CPUs virtuales
	Memoria	8 GPUs: 1 MiB	8 GPUs: 1795 GiB
	Almacenamiento efímero	8 GPUs: 10 MiB	8 GPUs: 5250 GiB
NVIDIA A100 (40 GB) `nvidia-tesla-a100`	CPU	0.001 CPU virtual	1 GPU: 11 CPUs virtuales 2 GPUs: 22 CPUs virtuales 8 GPUs: 94 CPUs virtuales 8 GPUs: 94 CPUs virtuales 16 GPUs: 94 CPUs virtuales La suma de solicitudes de CPU de todos los DaemonSets que se ejecutan en un nodo de GPU A100 no debe exceder las 2 CPU virtuales.
NVIDIA A100 (40 GB) `nvidia-tesla-a100`	Memoria	1 MiB	1 GPU: 74 GiB 2 GPUs: 148 GiB 4 GPUs: 310 GiB 8 GPUs: 632 GiB 16 GPUs: 1264 GiB La suma de las solicitudes de memoria de todos los DaemonSets que se ejecutan en un nodo de GPU A100 no debe exceder los 14 GiB.
NVIDIA A100 (80 GB) `nvidia-a100-80gb`	CPU	0.001 CPU virtual	1 GPU: 11 CPUs virtuales 2 GPUs: 22 CPUs virtuales 8 GPUs: 94 CPUs virtuales 8 GPUs: 94 CPUs virtuales La suma de solicitudes de CPU de todos los DaemonSets que se ejecutan en un nodo de GPU A100 (80 GB) no debe exceder las 2 CPUs virtuales.
	Memoria	1 MiB	1 GPU: 148 GiB 2 GPUs: 310 GiB 4 GPUs: 632 GiB 8 GPUs: 1264 GiB La suma de las solicitudes de memoria de todos los DaemonSets que se ejecutan en un nodo de GPU A100 (80 GB) no debe exceder los 14 GiB.
	Almacenamiento efímero	512 MiB	1 GPU: 280 GiB 2 GPUs: 585 GiB 4 GPUs: 1220 GiB 8 GPUs: 2540 GiB
NVIDIA L4 `nvidia-l4`	CPU	0.001 CPU virtual	1 GPU: 31 CPUs virtuales 2 GPUs: 23 CPUs virtuales 4 GPUs: 47 CPUs virtuales 8 GPUs: 95 CPUs virtuales La suma de solicitudes de CPU de todos los DaemonSets que se ejecutan en un nodo de GPU L4 no debe exceder las 2 CPUs virtuales.
NVIDIA L4 `nvidia-l4`	Memoria	1 MiB	1 GPU: 115 GiB 2 GPUs: 86 GiB 4 GPUs: 177 GiB 8 GPUs: 363 GiB La suma de las solicitudes de memoria de todos los DaemonSets que se ejecutan en un nodo de GPU L4 no debe exceder los 14 GiB.
NVIDIA Tesla T4 `nvidia-tesla-t4`	CPU	0.001 CPU virtual	1 GPU: 46 CPUs virtuales 2 GPUs: 46 CPUs virtuales 4 GPUs: 94 CPUs virtuales
NVIDIA Tesla T4 `nvidia-tesla-t4`	Memoria	1 MiB	1 GPU: 287.5 GiB 2 GPUs: 287.5 GiB 4 GPU: 587.5 GiB
TPU v5e `tpu-v5-lite-device`	CPU	0.001 CPU virtual	Topología 1 x 1: 24 CPUs virtuales Topología de 2 x 2: 112 CPUs virtuales Topología 2 x 4: 224 CPUs virtuales
	Memoria	1 MiB	Topología de 1 x 1: 48 GiB Topología de 2 x 2: 192 GiB Topología de 2 x 4: 384 GiB
	Almacenamiento efímero	10 MiB	56 TiB
TPU v5e `tpu-v5-lite-podslice`	CPU	0.001 CPU virtual	Topología 1 x 1: 24 CPUs virtuales Topología de 2 x 2: 112 CPUs virtuales Topología 2 x 4 (solicitud de 4 chips): 112 CPUs virtuales Topología 2 x 4 (solicitud de 8 chips): 224 CPUs virtuales Topología 4 x 4: 112 CPUs virtuales Topología 4 x 8: 112 CPUs virtuales Topología de 8 x 8: 112 CPUs virtuales Topología de 8 x 16: 112 CPUs virtuales Topología de 16 x 16: 112 CPUs virtuales
	Memoria	1 MiB	Topología de 1 x 1: 48 GiB Topología de 2 x 2: 192 GiB Topología 2 x 4 (solicitud de 4 chips): 192 GiB Topología 2 x 4 (solicitud de 8 chips): 384 GiB Topología de 4 x 4: 192 GiB Topología de 4 x 8: 192 GiB Topología de 8 x 8: 192 GiB Topología de 8 x 16: 192 GiB Topología de 16 x 16: 192 GiB
	Almacenamiento efímero	10 MiB	56 TiB
TPU v5p `tpu-v5p-slice`	CPU	0.001 CPU virtual	280 CPUs virtuales
	Memoria	1 MiB	448 GiB
	Almacenamiento efímero	10 MiB	56 TiB
TPU v4 `tpu-v4-podslice`	CPU	0.001 CPU virtual	240 CPU virtuales
	Memoria	1 MiB	407 GiB
	Almacenamiento efímero	10 MiB	56 TiB

Para obtener información sobre cómo solicitar GPU en tus Pods de Autopilot, consulta Implementa cargas de trabajo de GPU en Autopilot.

Mínimos y máximos para las GPUs sin una clase de procesamiento

En la siguiente tabla, se muestran las solicitudes de recursos mínimas y máximas para los Pods que no usan la clase de procesamiento de Accelerator:

Tipo de GPU	Proporción de CPU:memoria (CPU virtual:GiB)	Recurso	Mínimo	Máximo
NVIDIA A100 (40 GB) `nvidia-tesla-a100`	No aplicado	CPU	1 GPU: 9 CPUs virtuales 2 GPUs: 20 CPUs virtuales 4 GPUs: 44 CPUs virtuales 8 GPUs: 92 CPUs virtuales 16 GPUs: 92 CPUs virtuales	1 GPU: 11 CPUs virtuales 2 GPUs: 22 CPUs virtuales 8 GPUs: 94 CPUs virtuales 8 GPUs: 94 CPUs virtuales 16 GPUs: 94 CPUs virtuales La suma de solicitudes de CPU de todos los DaemonSets que se ejecutan en un nodo de GPU A100 no debe exceder las 2 CPU virtuales.
NVIDIA A100 (40 GB) `nvidia-tesla-a100`	No aplicado	Memoria	1 GPU: 60 GiB 2 GPUs: 134 GiB 4 GPUs: 296 GiB 8 GPUs: 618 GiB 16 GPU: 1250 GiB	1 GPU: 74 GiB 2 GPUs: 148 GiB 4 GPUs: 310 GiB 8 GPUs: 632 GiB 16 GPUs: 1264 GiB La suma de las solicitudes de memoria de todos los DaemonSets que se ejecutan en un nodo de GPU A100 no debe exceder los 14 GiB.
NVIDIA A100 (80 GB) `nvidia-a100-80gb`	No aplicado	CPU	1 GPU: 9 CPUs virtuales 2 GPUs: 20 CPUs virtuales 4 GPUs: 44 CPUs virtuales 8 GPUs: 92 CPUs virtuales	1 GPU: 11 CPUs virtuales 2 GPUs: 22 CPUs virtuales 8 GPUs: 94 CPUs virtuales 8 GPUs: 94 CPUs virtuales La suma de solicitudes de CPU de todos los DaemonSets que se ejecutan en un nodo de GPU A100 (80 GB) no debe exceder las 2 CPUs virtuales.
		Memoria	1 GPU: 134 GiB 2 GPUs: 296 GiB 4 GPUs: 618 GiB 8 GPUs: 1250 GiB	1 GPU: 148 GiB 2 GPUs: 310 GiB 4 GPUs: 632 GiB 8 GPUs: 1264 GiB La suma de las solicitudes de memoria de todos los DaemonSets que se ejecutan en un nodo de GPU A100 (80 GB) no debe exceder los 14 GiB.
		Almacenamiento efímero	1 GPU: 512 MiB 2 GPUs: 512 MiB 4 GPUs: 512 MiB 8 GPUs: 512 MiB	1 GPU: 280 GiB 2 GPUs: 585 GiB 4 GPUs: 1220 GiB 8 GPUs: 2540 GiB
NVIDIA L4 `nvidia-l4`	1 GPU: entre 1:3.5 y 1:4 2, 4 y 8 GPUs: no se aplican	CPU	1 GPU: 2 CPUs virtuales 2 GPUs: 21 CPUs virtuales 4 GPUs: 45 CPUs virtuales 8 GPUs: 93 CPUs virtuales	1 GPU: 31 CPUs virtuales 2 GPUs: 23 CPUs virtuales 4 GPUs: 47 CPUs virtuales 8 GPUs: 95 CPUs virtuales La suma de solicitudes de CPU de todos los DaemonSets que se ejecutan en un nodo de GPU L4 no debe exceder las 2 CPUs virtuales.
NVIDIA L4 `nvidia-l4`	1 GPU: entre 1:3.5 y 1:4 2, 4 y 8 GPUs: no se aplican	Memoria	1 GPU: 7 GiB 2 GPUs: 78 GiB 4 GPUs: 170 GiB 8 GPUs: 355 GiB	1 GPU: 115 GiB 2 GPUs: 86 GiB 4 GPUs: 177 GiB 8 GPUs: 363 GiB La suma de las solicitudes de memoria de todos los DaemonSets que se ejecutan en un nodo de GPU L4 no debe exceder los 14 GiB.
NVIDIA Tesla T4 `nvidia-tesla-t4`	Entre 1:1 y 1:6.25	CPU	0.5 CPU virtual	1 GPU: 46 CPUs virtuales 2 GPUs: 46 CPUs virtuales 4 GPUs: 94 CPUs virtuales
NVIDIA Tesla T4 `nvidia-tesla-t4`	Entre 1:1 y 1:6.25	Memoria	0.5 GiB	1 GPU: 287.5 GiB 2 GPUs: 287.5 GiB 4 GPU: 587.5 GiB

Para obtener información sobre cómo solicitar GPU en tus Pods de Autopilot, consulta Implementa cargas de trabajo de GPU en Autopilot.

Solicitudes de recursos para la separación de cargas de trabajo y la duración extendida

Autopilot te permite manipular el comportamiento de programación y expulsión de Kubernetes mediante métodos como los siguientes:

Usa taints y tolerancias y selectores de nodos para garantizar que ciertos pods solo se coloquen en nodos específicos. Si deseas obtener detalles, consulta Configura la separación de cargas de trabajo en GKE.
Usa la antiafinidad de Pods para evitar que los Pods se ubiquen en el mismo nodo. Las solicitudes de recursos predeterminadas y mínimas para las cargas de trabajo que usan estos métodos para controlar el comportamiento de programación son más altas que las que no lo hacen.
Usa una anotación para proteger los Pods de la expulsión causada por las actualizaciones automáticas de nodos y los eventos de reducción de escala verticalmente hasta por siete días. Para obtener más detalles, consulta Extiende el tiempo de ejecución de los Pods de Autopilot.

Si tus solicitudes especificadas son menores que los mínimos, el comportamiento de Autopilot cambia según el método que usaste, de la siguiente manera:

Taints, tolerancias, selectores y Pods de duración extendida: Autopilot modifica tus Pods para aumentar las solicitudes cuando se programan los Pods.
Antiafinidad de Pods: Autopilot rechaza el Pod y muestra un mensaje de error.

En la siguiente tabla, se describen las solicitudes predeterminadas y las solicitudes de recursos mínimas de recursos que puedes especificar. Si una configuración o una clase de procesamiento no está en esta tabla, Autopilot no aplica valores mínimos o predeterminados especiales.

Clase de procesamiento	Recurso	Predeterminado	Mínimo
Uso general	CPU	0.5 CPU virtual	0.5 CPU virtual
Uso general	Memoria	2 GiB	0.5 GiB
Equilibrado	CPU	2 vCPU	1 CPU virtual
Equilibrado	Memoria	8 GiB	4 GiB
Escalar horizontalmente	CPU	0.5 CPU virtual	0.5 CPU virtual
Escalar horizontalmente	Memoria	2 GiB	2 GiB

Contenedores Init

Los contenedores init se ejecutan en serie y deben completarse antes de que se inicien los contenedores de la aplicación. Si no especificas solicitudes de recursos para tus contenedores init de Autopilot, GKE asigna los recursos totales disponibles para el Pod a cada contenedor init. Este comportamiento es diferente del de GKE Standard, en el que cada contenedor init puede usar cualquier recurso sin asignar disponible en el nodo en el que está programado el Pod.

A diferencia de los contenedores de aplicaciones, GKE recomienda que no especifiques solicitudes de recursos para contenedores init de Autopilot, de modo que cada contenedor obtenga los recursos completos disponibles para el Pod. Si solicitas menos recursos que los predeterminados, limitarás tu contenedor init. Si solicitas más recursos que los valores predeterminados de Autopilot, puedes aumentar la factura durante la vida útil del Pod.

Configura límites de recursos en Autopilot

Kubernetes te permite configurar requests y limits para los recursos de tu especificación de Pod. El comportamiento de los pods cambia en función de si tus limits son diferentes de tus requests, como se describe en la siguiente tabla:

Valores establecidos	Comportamiento de Autopilot
`requests` igual a `limits`	Los Pods usan la clase QoS `Guaranteed`. Nota: Los límites de almacenamiento efímero siempre deben establecerse de manera explícita para igual a las solicitudes. GKE modifica tus Pods para aplicar esta regla.
`requests` establecido, `limits` no establecido	El comportamiento depende de si tu clúster admite aumentos de actividad, de la siguiente manera: Clústeres que admiten aumentos de actividad: Los Pods pueden generar aumentos de actividad en la capacidad de aumento de actividad disponible. Clústeres que no admiten aumentos de actividad: GKE establece `limits` igual a `requests`. Para verificar si tu clúster admite aumentos de actividad, consulta Disponibilidad de aumentos de actividad en GKE.
`requests` no establecido, `limits` establecido	Autopilot establece `requests` en el valor de `limits`, que es el comportamiento predeterminado de Kubernetes. Antes: resources: limits: cpu: "400m" Después: resources: requests: cpu: "400m" limits: cpu: "400m"
`requests` menos que `limits`	El comportamiento depende de si tu clúster admite aumentos de actividad, de la siguiente manera: Clústeres que admiten aumentos de actividad: Los Pods pueden generar aumentos de actividad hasta el valor especificado en `limits`. Clústeres que no admiten aumentos de actividad: GKE establece `limits` igual a `requests`. Para verificar si tu clúster admite aumentos de actividad, consulta Disponibilidad de aumentos de actividad en GKE.
`requests` mayor que `limits`	Autopilot establece `requests` en el valor de `limits`. Antes: resources: requests: cpu: "450m" limits: cpu: "400m" Después: resources: requests: cpu: "400m" limits: cpu: "400m"
`requests` no fijado, `limits` no fijado	Autopilot establece `requests` en los valores predeterminados para la clase de procesamiento o la configuración de hardware. El comportamiento de `limits` depende de si tu clúster admite aumentos de actividad, de la siguiente manera: Clústeres que admiten aumentos de actividad: Autopilot no configura `limits`. Clústeres que no admiten aumentos de actividad: GKE establece `limits` igual a `requests`. Para verificar si tu clúster admite aumentos de actividad, consulta Disponibilidad de aumentos de actividad en GKE.

En la mayoría de las situaciones, debes establecer las solicitudes de recursos adecuadas y los límites iguales para las cargas de trabajo.

En el caso de las cargas de trabajo que necesitan más recursos que su estado estable de forma temporal, como durante el arranque o durante períodos de tráfico más altos, establece tus límites más altos que las solicitudes para permitir que los Pods generen aumentos de actividad. Para obtener más información, consulta Configura el aumento de actividad de Pods en GKE.

Administración automática de recursos en Autopilot

Si tus solicitudes de recursos especificadas para tus cargas de trabajo están fuera de los rangos permitidos o si no solicitas recursos para algunos contenedores, Autopilot modifica tu configuración de cargas de trabajo para cumplir con los límites permitidos. Autopilot calcula las proporciones de recursos y los requisitos de escalamiento vertical de recursos después de aplicar valores predeterminados a los contenedores sin ninguna solicitud especificada.

Solicitudes faltantes: Si no solicitas recursos en algunos contenedores, Autopilot aplica las solicitudes predeterminadas para la clase de procesamiento o la configuración de hardware.
Proporción de CPU:memoria: Autopilot escala verticalmente el recurso más pequeño para tener la proporción dentro del rango permitido.
Almacenamiento efímero: Autopilot modifica tus solicitudes de almacenamiento efímero para cumplir con la cantidad mínima requerida por cada contenedor. El valor acumulado de las solicitudes de almacenamiento en todos los contenedores no puede ser mayor que el valor máximo permitido. Autopilot reduce la escala de la solicitud si el valor supera el máximo.
Solicitudes por debajo de los mínimos: Si solicitas menos recursos que el mínimo permitido para la configuración de hardware seleccionada, Autopilot modifica automáticamente el Pod a fin de solicitar, al menos, el valor de recurso mínimo.

De forma predeterminada, cuando Autopilot escala automáticamente un recurso para alcanzar un valor de recurso mínimo o predeterminado, GKE asigna la capacidad adicional al primer contenedor en el manifiesto del Pod. En la versión 1.27.2-gke.2200 y posteriores de GKE, puedes indicarle a GKE que asigne los recursos adicionales a un contenedor específico si agregas lo siguiente al campo annotations en el manifiesto del Pod:

autopilot.gke.io/primary-container: "CONTAINER_NAME"

Reemplaza CONTAINER_NAME con el nombre del contenedor.

Ejemplos de modificaciones de recursos

En la siguiente situación de ejemplo, se muestra cómo Autopilot modifica la configuración de la carga de trabajo para cumplir con los requisitos de tus contenedores y Pods en ejecución.

Contenedor único con < 0.5 CPU virtuales

Cantidad de contenedores	Solicitud original	Solicitud modificada
1	CPU: 30 mCPU Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB	CPU: 50 mCPU Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB

Varios contenedores con CPU total < 0.05 CPUs virtuales

Cantidad de contenedores	Solicitudes originales	Solicitudes modificadas
1	CPU: 10 mCPU Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB	CPU: 30 mCPU Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB
2	CPU: 10 mCPU Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB	CPU: 10 mCPU Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB
3	CPU: 10 mvCPU Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB	CPU: 10 mCPU Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB
Total de recursos del Pod		CPU: 50 mCPU Memoria: 1.5 GiB Almacenamiento efímero: 30 MiB

Varios contenedores con más de 0.25 CPU virtuales en total

En varios contenedores con un total de recursos >= 0.25 CPU virtuales, la CPU se redondea a múltiplos de 0.25 CPU virtuales y se agrega la CPU adicional al primer contenedor. En este ejemplo, la CPU acumulada original es de 0.32 CPU virtuales y se modifica a un total de 0.5 CPU virtuales.

Cantidad de contenedores	Solicitudes originales	Solicitudes modificadas
1	CPU: 0.17 CPU virtuales Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB	CPU: 0.35 CPU virtuales Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB
2	CPU: 0.08 CPU virtuales Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB	CPU: 0.08 CPU virtuales Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB
3	CPU: 0.07 CPU virtuales Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB	CPU: 0.07 CPU virtuales Memoria: 0.5 GiB Almacenamiento efímero: 10 MiB
4	Contenedor init, recursos no definidos	Recibirá recursos del Pod
Total de recursos del Pod		CPU: 0.5 CPU virtuales Memoria: 1.5 GiB Almacenamiento efímero: 30 MiB

Un solo contenedor con memoria demasiado baja para la CPU solicitada

En este ejemplo, la memoria es demasiado baja para la cantidad de CPU (1 CPU virtual:1 GiB como mínimo). La proporción mínima permitida de CPU y memoria es 1:1. Si la proporción es menor que eso, la solicitud de memoria se incrementa.

Cantidad de contenedores	Solicitud original	Solicitud modificada
1	CPU: 4 CPU virtuales Memoria: 1 GiB Almacenamiento efímero: 10 MiB	CPU: 4 CPU virtuales Memoria: 4 GiB Almacenamiento efímero: 10 MiB
Total de recursos del Pod		CPU: 4 CPU virtuales Memoria: 4 GiB Almacenamiento efímero: 10 MiB