GPU 호스트 유지보수 이벤트 처리


GPU가 연결된 VM은 라이브 마이그레이션될 수 없습니다. 이러한 VM이 호스트 유지보수 이벤트 중에 중지되도록 설정해야 합니다. 필요한 경우 유지보수 이벤트가 완료되면 중지된 VM이 자동으로 다시 시작되도록 설정할 수 있습니다. Compute Engine에서 호스트 유지보수 이벤트는 2주에 한 번으로 설정되어 있지만 더 자주 실행될 수 있습니다.

유지보수 이벤트 중 워크로드 중단을 최소화하려면 가상 머신(VM) 인스턴스의 유지보수 일정을 모니터링하고 시스템 재시작을 통해 워크로드가 전환되도록 준비하면 됩니다.

호스트 이벤트에 대한 사전 알림을 받으려면 /computeMetadata/v1/instance/maintenance-event 메타데이터 값을 모니터링합니다. 메타데이터 서버 요청으로 NONE이 반환되면 VM은 중지되도록 예약되지 않습니다. 예를 들어 VM 내에서 다음 명령어를 실행합니다.

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

메타데이터 서버가 TERMINATE_ON_HOST_MAINTENANCE를 반환하면 VM이 중지되도록 예약된 것입니다. Compute Engine에서는 GPU VM에 1시간 전에 알림을 전송하지만 일반적인 VM의 경우에는 중지 60초 전에 알림을 전송합니다. 애플리케이션이 유지보수 이벤트 중에 전환되도록 구성합니다. 예를 들어 다음 방법 중 하나를 사용할 수 있습니다.

  • 진행 중인 작업을 Cloud Storage 버킷으로 임시 이전한 후 VM이 다시 시작된 후에 해당 데이터를 검색하도록 애플리케이션을 구성합니다.

  • 보조 영구 디스크에 데이터를 씁니다. VM이 자동으로 다시 시작되면 영구 디스크를 다시 연결할 수 있으며 애플리케이션이 작업을 다시 시작할 수 있습니다.

다음 단계