호스트 유지보수 이벤트 수동 시작

이 페이지에서는 지원되는 TPU VM에서 호스트 유지보수 이벤트를 수동으로 시작하는 방법을 설명합니다. 이는 성능 저하 또는 다운타임의 영향을 받을 수 있는 워크로드에 유용하며, 이러한 워크로드의 경우 유지보수 기간이 특정 시간에 시작되어야 합니다.

유지보수 이벤트를 수동으로 시작하면 호스트 유지보수 이벤트가 즉시 시작됩니다. 유지보수 이벤트의 시작 날짜 또는 시간을 지정할 수 없습니다. 이 기능을 사용하지 않으면 예정된 유지보수 알림에 표시된 시간에 유지보수 이벤트가 발생합니다.

GKE에서 TPU의 유지보수를 수동으로 시작하는 방법에 관한 자세한 내용은 GPU 및 TPU의 GKE 노드 중단 관리를 참고하세요.

제한사항

다음 구성을 사용하여 TPU v6e VM의 호스트 유지보수 이벤트를 수동으로만 시작할 수 있습니다.

  • 2x4 토폴로지 구성 (Cloud TPU API에서 가속기 유형 필드를 사용하는 경우 v6e-8) 이상의 TPU v6e VM
  • 2x4 이상 크기의 TPU v6e VM이 있는 GKE 멀티 호스트 노드 풀

대규모 슬라이스의 호스트 유지보수를 즉시 시작하면 최대 몇 시간 동안 슬라이스를 사용할 수 없게 될 수 있습니다. 일반적으로 호스트 유지보수 이벤트로 인해 슬라이스가 가능한 한 빨리 다른 대상 호스트 집합으로 일정이 변경되지만, 대규모 호스트 유지보수 이벤트 요청의 경우 슬라이스의 일정을 즉시 변경할 수 있는 용량이 충분하지 않아 대기 시간이 길어질 수 있습니다.

또한 Cloud TPU 슬라이스의 유지보수를 시작하면 모든 기본 TPU VM의 유지보수가 시작됩니다. Instances API를 사용하여 인스턴스 중 하나에서 직접 유지보수를 실행하면 Cloud TPU 슬라이스의 모든 인스턴스가 유지보수 상태로 전환됩니다. 대신 queued-resources Cloud TPU API를 사용하여 유지보수가 필요한 노드를 지정합니다.

호스트 유지보수 이벤트 수동 시작

유지보수 알림을 사용하여 TPU에서 유지보수 이벤트를 수동으로 시작할 수 있는 시점을 확인할 수 있습니다.

알림 정보 확인

Cloud TPU API를 사용하거나 VM에서 메타데이터 서버를 쿼리하여 예정된 유지보수 이벤트에 대한 알림을 찾을 수 있습니다. 자세한 내용은 유지보수 알림 보기를 참고하세요.

TPU에 예정된 호스트 유지보수 알림이 있는 경우 사전에 유지보수 이벤트를 시작할 수 있습니다. 유지보수 이벤트를 미리 시작하려면 예정된 호스트 유지보수 알림에서 canRescheduletrue로, maintenanceStatusPENDING로 설정해야 합니다.

유지보수 이벤트 시작

호스트 유지보수 이벤트를 시작하려면 perform-maintenance 명령어와 함께 Cloud TPU API를 사용하면 됩니다.

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

작업이 완료되면 windowEndTimewindowStartTime 필드가 유지보수 이벤트를 시작한 시간으로 변경되고 maintenanceStatus 필드는 ONGOING로 변경됩니다. 호스트 유지보수 이벤트가 곧 시작됩니다.

gcloud alpha compute tpus tpu-vm describe 명령어를 사용하여 유지보수 이벤트의 상태를 확인합니다.

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

출력에 다음과 유사한 섹션이 포함됩니다.

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

TPU VM의 상태가 READY이고 gcloud alpha compute tpus tpu-vm describe 명령어의 출력에 더 이상 upcomingMaintenance 메타데이터 필드가 포함되지 않으면 유지보수가 완료된 것입니다.

멀티슬라이스 환경의 경우 다음 명령어를 사용하여 특정 슬라이스에서 호스트 유지보수 이벤트를 수동으로 시작할 수 있습니다.

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES는 호스트 유지보수 이벤트를 시작하려는 대기열에 있는 슬라이스 (노드)의 쉼표로 구분된 목록입니다. 예를 들어 대기열에 있는 리소스에 my-qr-0, my-qr-1my-qr-2라는 노드가 있는 경우 perform-maintenance 명령어에 유효한 입력은 --node-names=my-qr-0,my-qr-1입니다.

다음 단계