호스트 유지보수 이벤트 수동 시작
이 페이지에서는 지원되는 TPU VM에서 호스트 유지보수 이벤트를 수동으로 시작하는 방법을 설명합니다. 이는 성능 저하 또는 다운타임의 영향을 받을 수 있는 워크로드에 유용하며, 이러한 워크로드의 경우 유지보수 기간이 특정 시간에 시작되어야 합니다.
유지보수 이벤트를 수동으로 시작하면 호스트 유지보수 이벤트가 즉시 시작됩니다. 유지보수 이벤트의 시작 날짜 또는 시간을 지정할 수 없습니다. 이 기능을 사용하지 않으면 예정된 유지보수 알림에 표시된 시간에 유지보수 이벤트가 발생합니다.
GKE에서 TPU의 유지보수를 수동으로 시작하는 방법에 관한 자세한 내용은 GPU 및 TPU의 GKE 노드 중단 관리를 참고하세요.
제한사항
다음 구성을 사용하여 TPU v6e VM의 호스트 유지보수 이벤트를 수동으로만 시작할 수 있습니다.
2x4
토폴로지 구성 (Cloud TPU API에서 가속기 유형 필드를 사용하는 경우v6e-8
) 이상의 TPU v6e VM2x4
이상 크기의 TPU v6e VM이 있는 GKE 멀티 호스트 노드 풀
대규모 슬라이스의 호스트 유지보수를 즉시 시작하면 최대 몇 시간 동안 슬라이스를 사용할 수 없게 될 수 있습니다. 일반적으로 호스트 유지보수 이벤트로 인해 슬라이스가 가능한 한 빨리 다른 대상 호스트 집합으로 일정이 변경되지만, 대규모 호스트 유지보수 이벤트 요청의 경우 슬라이스의 일정을 즉시 변경할 수 있는 용량이 충분하지 않아 대기 시간이 길어질 수 있습니다.
또한 Cloud TPU 슬라이스의 유지보수를 시작하면 모든 기본 TPU VM의 유지보수가 시작됩니다. Instances API를 사용하여 인스턴스 중 하나에서 직접 유지보수를 실행하면 Cloud TPU 슬라이스의 모든 인스턴스가 유지보수 상태로 전환됩니다. 대신 queued-resources
Cloud TPU API를 사용하여 유지보수가 필요한 노드를 지정합니다.
호스트 유지보수 이벤트 수동 시작
유지보수 알림을 사용하여 TPU에서 유지보수 이벤트를 수동으로 시작할 수 있는 시점을 확인할 수 있습니다.
알림 정보 확인
Cloud TPU API를 사용하거나 VM에서 메타데이터 서버를 쿼리하여 예정된 유지보수 이벤트에 대한 알림을 찾을 수 있습니다. 자세한 내용은 유지보수 알림 보기를 참고하세요.
TPU에 예정된 호스트 유지보수 알림이 있는 경우 사전에 유지보수 이벤트를 시작할 수 있습니다. 유지보수 이벤트를 미리 시작하려면 예정된 호스트 유지보수 알림에서 canReschedule
를 true
로, maintenanceStatus
를 PENDING
로 설정해야 합니다.
유지보수 이벤트 시작
호스트 유지보수 이벤트를 시작하려면 perform-maintenance
명령어와 함께 Cloud TPU API를 사용하면 됩니다.
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
작업이 완료되면 windowEndTime
및 windowStartTime
필드가 유지보수 이벤트를 시작한 시간으로 변경되고 maintenanceStatus
필드는 ONGOING
로 변경됩니다. 호스트 유지보수 이벤트가 곧 시작됩니다.
gcloud alpha compute tpus tpu-vm describe
명령어를 사용하여 유지보수 이벤트의 상태를 확인합니다.
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
출력에 다음과 유사한 섹션이 포함됩니다.
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
TPU VM의 상태가 READY
이고 gcloud alpha compute tpus tpu-vm describe
명령어의 출력에 더 이상 upcomingMaintenance
메타데이터 필드가 포함되지 않으면 유지보수가 완료된 것입니다.
멀티슬라이스 환경의 경우 다음 명령어를 사용하여 특정 슬라이스에서 호스트 유지보수 이벤트를 수동으로 시작할 수 있습니다.
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
는 호스트 유지보수 이벤트를 시작하려는 대기열에 있는 슬라이스 (노드)의 쉼표로 구분된 목록입니다. 예를 들어 대기열에 있는 리소스에 my-qr-0, my-qr-1
및 my-qr-2
라는 노드가 있는 경우 perform-maintenance
명령어에 유효한 입력은 --node-names=my-qr-0,my-qr-1
입니다.