MAX_SURGE: 업데이트 중에 일시적으로 노드 풀의 현재 크기를 초과하여 만들 수 있는 최대 노드 수입니다. 이 값을 조정하면 동시에 업데이트되는 노드 수를 제어할 수 있습니다. 기본 설정은 1이지만 0으로 설정할 수 있습니다.
max-surge-update를 0보다 큰 값으로 설정하면 AWS용 GKE가 일시 급증 노드를 생성합니다. 0으로 설정하면 생성되지 않습니다.
MAX_UNAVAILABLE: 업데이트 프로세스 중 동시에 사용할 수 없는 최대 노드 수입니다. 이 값을 늘리면 더 많은 노드를 동시에 업데이트할 수 있습니다. 기본값은 0이지만 상향 조정할 수 있습니다.
노드 풀에 일시 급증 업데이트가 사용 설정되어 있으면 이 명령어의 출력에는 surge_settings이라는 섹션이 표시됩니다. 이 surge_settings 섹션에는 max_surge 및 max_unavailable 매개변수의 값이 표시됩니다.
진행 중인 일시 급증 업데이트 관리
진행 중인 일시 급증 업데이트를 취소하거나, 실패한 일시 급증 업데이트의 롤백을 수행하거나, 중단된 업데이트를 재개할 수 있습니다.
일시 급증 업데이트 취소(일시중지) 및 재개
AWS용 GKE에서 일시 급증 업데이트를 '취소'하면 실제로는 일시중지됩니다. 업데이트를 취소하는 방법은 업데이트 작업 취소를 참조하세요.
즉, 일시 급증 업데이트를 취소해도 업데이트가 롤백되지 않습니다. 대신 2개의 자동 확장 그룹이 있는 노드 풀을 부분적으로 업데이트한 상태로 유지할 수 있습니다. 하나는 이전 구성을 실행하는 노드이고, 다른 하나는 새 구성을 실행하는 노드입니다. 이 문제를 해결하려면 중단된 작업과 동일한 대상 매개변수를 사용해 업데이트된 명령을 다시 실행하여 일시 급증 업데이트를 재개합니다. 이전 업데이트의 결과가 나오기 전에는 다른 노드 풀 매개변수로 업데이트를 시작할 수 없습니다.
실패한 일시 급증 업데이트 롤백 수행
일시 급증 업데이트가 취소되었거나 실패한 경우 노드 풀을 원래 상태로 롤백할 수 있습니다.
일시 급증 업데이트를 롤백하기 전에 고려해야 할 사항
부분적으로 업데이트된 상태(또는 DEGRADED 상태)의 일시 급증이 사용 설정된 노드 풀만 롤백할 수 있습니다.
롤백을 시작하면 내부적으로 노드 풀에서 새 업데이트 작업이 시작됩니다.
'내부적으로'는 이 프로세스가 시스템 자체 내에서 실행되며, 사용자가 개입할 필요가 없음을 의미합니다. 이 작업은 최선의 방식으로 노드 풀 노드를 원래 상태로 되돌립니다.
이전 자동 확장 그룹에 속하는 노드가 차단 해제되며 이 그룹의 클러스터 자동 확장 처리가 사용 설정되어 노드에서 워크로드를 예약할 수 있습니다. 새 자동 확장 그룹에서 부분적으로 업데이트된 노드 풀 노드는 최초 일시 급증 업데이트 시도 시 정의한 일시 급증 설정에 따라 차단, 드레이닝, 종료됩니다.
실패한 일시 급증 업데이트 관리
실패한 업데이트 문제를 해결하는 옵션으로는 다음 세 가지가 있습니다.
업데이트 계속 진행: 초기 실패한 시도와 동일한 대상 노드 풀 설정을 사용하여 실패한 업데이트를 계속 진행할 수 있습니다.
롤백: rollback 명령어를 사용하여 노드 풀을 원래 상태로 되돌립니다.
수정 후 다시 시작: 일시 급증 업데이트의 매개변수를 변경하려면 기존 노드 풀을 삭제한 후 새 설정으로 다시 만들어야 합니다. 노드 풀을 삭제하는 방법은 노드 풀 삭제를 참조하세요.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[],[],null,["# Configure surge updates of node pools\n\nThis document describes how to enable and manage surge updates of node pools.\nFor information about how surge updates of node pools work, see\n[About surge updates](/kubernetes-engine/multi-cloud/docs/aws/concepts/about-surge-updates).\n\nThings to consider before running surge updates\n-----------------------------------------------\n\nBefore running a surge update, keep in mind the following:\n\n- Additional instances created as part of this surge step can potentially exceed your AWS instance quota limit. If you don't have enough quota and these additional instances can't be provisioned, the update might fail.\n- If `max-unavailable-update` is set to 0, disruptions to workloads can still occur as Pods get evicted and rescheduled onto the newer nodes.\n- The maximum number of nodes that can be updated simultaneously is equal to the sum of `max-surge-update` and `max-unavailable-update`, and is limited to 20.\n\nEnable and configure surge updates\n----------------------------------\n\nTo enable surge updates, contact\n[Google Cloud Support](/kubernetes-engine/multi-cloud/docs/aws/getting-support). After the support\nteam enables the feature, you can assign values to the `max-surge-update`\nand `max-unavailable-update` parameters when creating or updating your node\npool: \n\n### Create\n\n gcloud container aws node-pools create \u003cvar translate=\"no\"\u003eNODE_POOL_NAME\u003c/var\u003e\n --cluster \u003cvar translate=\"no\"\u003eCLUSTER_NAME\u003c/var\u003e \\\n --location \u003cvar translate=\"no\"\u003eGOOGLE_CLOUD_LOCATION\u003c/var\u003e \\\n --max-surge-update \u003cvar translate=\"no\"\u003eMAX_SURGE\u003c/var\u003e \\\n --max-unavailable-update \u003cvar translate=\"no\"\u003eMAX_UNAVAILABLE\u003c/var\u003e\n\n### Update\n\n gcloud container aws node-pools update \u003cvar translate=\"no\"\u003eNODE_POOL_NAME\u003c/var\u003e\n --cluster \u003cvar translate=\"no\"\u003eCLUSTER_NAME\u003c/var\u003e \\\n --location \u003cvar translate=\"no\"\u003eGOOGLE_CLOUD_LOCATION\u003c/var\u003e \\\n --max-surge-update \u003cvar translate=\"no\"\u003eMAX_SURGE\u003c/var\u003e \\\n --max-unavailable-update \u003cvar translate=\"no\"\u003eMAX_UNAVAILABLE\u003c/var\u003e\n\nReplace the following:\n\n- \u003cvar translate=\"no\"\u003eNODE_POOL_NAME\u003c/var\u003e: the name of the node pool to update.\n- \u003cvar translate=\"no\"\u003eCLUSTER_NAME\u003c/var\u003e: the name of the cluster.\n- \u003cvar translate=\"no\"\u003eGOOGLE_CLOUD_LOCATION\u003c/var\u003e: the [supported Google Cloud region](/kubernetes-engine/multi-cloud/docs/aws/reference/supported-regions) that manages your cluster. For example, `us-west1`.\n- \u003cvar translate=\"no\"\u003eMAX_SURGE\u003c/var\u003e: the maximum number of additional nodes that can be temporarily created beyond the current node pool size during an update. By adjusting this value, you can control how many nodes are updated simultaneously. The default setting is 1, but you can set it to 0. If you set `max-surge-update` to a value greater than 0, GKE on AWS creates surge nodes; setting it to 0 prevents their creation.\n- \u003cvar translate=\"no\"\u003eMAX_UNAVAILABLE\u003c/var\u003e: the maximum number of nodes that can be unavailable simultaneously during the update process. By increasing this value, more nodes can be updated simultaneously. The default value is 0, but it can be adjusted upwards.\n\nCheck surge update settings on a node pool\n------------------------------------------\n\nTo see the surge update settings of a node pool, run the following command: \n\n gcloud alpha container aws node-pools describe \u003cvar translate=\"no\"\u003eNODE_POOL_NAME\u003c/var\u003e\n --cluster \u003cvar translate=\"no\"\u003eCLUSTER_NAME\u003c/var\u003e \\\n --location \u003cvar translate=\"no\"\u003eGOOGLE_CLOUD_LOCATION\u003c/var\u003e \\\n\nReplace the following:\n\n- \u003cvar translate=\"no\"\u003eNODE_POOL_NAME\u003c/var\u003e: the name of your node pool.\n- \u003cvar translate=\"no\"\u003eCLUSTER_NAME\u003c/var\u003e: the name of the cluster.\n- \u003cvar translate=\"no\"\u003eGOOGLE_CLOUD_LOCATION\u003c/var\u003e: the [supported Google Cloud region](/kubernetes-engine/multi-cloud/docs/aws/reference/supported-regions) that manages your cluster. For example, `us-west1`.\n\nIf the node pool has surge updates enabled, the output from this command\ndisplays a section labeled `surge_settings`. This `surge_settings` section\ndisplays the values of the `max_surge` and `max_unavailable` parameters.\n\nManage surge updates that are in progress\n-----------------------------------------\n\nYou can cancel an ongoing surge update, perform a rollback of a surge update\nthat failed, or resume an update that's been interrupted.\n\n### Cancel (pause) and resume a surge update\n\nIn GKE on AWS, \"cancelling\" a surge update actually means pausing it. For\ndetails about how to cancel an update, see\n[Cancel an update operation](/kubernetes-engine/multi-cloud/docs/aws/how-to/update-node-pool#cancel_an_update_operation).\n\nIn other words, canceling a surge update doesn't roll back the update. Instead,\nit might leave the node pool in a partially updated state with two autoscaling\ngroups: one with nodes running the previous configuration and one with nodes\nrunning the new configuration. To eliminate this problem, resume the surge\nupdate by running the update command again, using the same target parameters as\nthe interrupted operation. Initiating an update with different node pool\nparameters is restricted until the previous update concludes.\n\n### Perform rollback of failed surge update\n\nYou can roll back a node pool to its original state if a surge update\nwas canceled or failed.\n\n#### Things to consider before rolling back a surge update\n\n- You can only roll back a surge-enabled node pool that is in a partially updated state (or the `DEGRADED` state).\n- Once a rollback is initiated on a node pool, you can't cancel it.\n- You're restricted from performing more update operations until the rollback operation finishes successfully.\n- You can only retry a rollback if it fails.\n- You can't roll back node pools after they have been successfully updated.\n\n#### How to perform a rollback of a failed surge update\n\nTo rollback an unsuccessful update operation on the node pool, run the following\ncommand: \n\n gcloud container aws node-pools rollback \u003cvar translate=\"no\"\u003eNODE_POOL_NAME\u003c/var\u003e\n --cluster \u003cvar translate=\"no\"\u003eCLUSTER_NAME\u003c/var\u003e\n\nReplace the following:\n\n- \u003cvar translate=\"no\"\u003eNODE_POOL_NAME\u003c/var\u003e: the name of the node pool to update.\n- \u003cvar translate=\"no\"\u003eCLUSTER_NAME\u003c/var\u003e: the name of the cluster.\n\n#### How the rollback works\n\nInitiating a rollback internally starts a new update operation on the node pool.\n('Internally' here means that this process is executed within the system itself,\nand doesn't require your intervention). The operation reverts the node pool\nnodes back to their original state on a best-effort basis.\n\nThe nodes belonging to the old autoscaling group are un-cordoned, and the\ncluster autoscaler of this group is enabled to allow workloads to be scheduled\non the nodes. Partially updated node pool nodes in the new autoscaling group are\ncordoned, drained, and terminated based on the surge settings you defined\nin your initial surge update attempt.\n\n### Manage unsuccessful surge updates\n\nYou have three options to address a failed update:\n\n1. Continue the update: You can proceed with the failed update using the same target node pool settings as the initial unsuccessful attempt.\n2. Rollback: Use the rollback command to revert the node pool to its original state.\n3. Modify and restart: If you want to change the parameters for the surge update, the existing node pool must be deleted and then recreated with the new settings. For instructions about how to delete a node pool, see [Delete a node pool](/kubernetes-engine/multi-cloud/docs/aws/how-to/delete-node-pool)."]]