GPU 호스트 이벤트 처리


GPU가 연결된 VM은 라이브 마이그레이션될 수 없습니다. 이러한 VM이 호스트 이벤트 중에 중지되도록 설정해야 합니다. 필요한 경우 유지보수 이벤트가 완료되면 중지된 VM이 자동으로 다시 시작되도록 설정할 수 있습니다. Compute Engine에서 호스트 유지보수 이벤트는 2주에 한 번으로 설정되어 있지만 더 자주 실행될 수 있습니다.

유지보수 이벤트 중 워크로드 중단을 최소화하려면 가상 머신(VM) 인스턴스의 유지보수 일정을 모니터링하고 시스템 재시작을 통해 워크로드가 전환되도록 준비하면 됩니다.

호스트 이벤트에 대한 사전 알림을 받으려면 /computeMetadata/v1/instance/maintenance-event 메타데이터 값을 모니터링합니다. 메타데이터 서버 요청으로 NONE이 반환되면 VM은 중지되도록 예약되지 않은 것입니다. 예를 들어 VM 내에서 다음 명령어를 실행합니다.

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

메타데이터 서버가 TERMINATE_ON_HOST_MAINTENANCE를 반환하면 VM이 중지되도록 예약된 것입니다. Compute Engine에서는 GPU VM에 1시간 중지 알림을 제공하는 반면 일반적인 VM은 60초 알림만 수신합니다. 애플리케이션이 유지보수 이벤트 중에 전환되도록 구성합니다. 예를 들어 다음 방법 중 하나를 사용할 수 있습니다.

  • 진행 중인 작업을 Cloud Storage 버킷으로 임시 이전한 후 VM이 다시 시작된 후에 해당 데이터를 검색하도록 애플리케이션을 구성합니다.

  • 보조 영구 디스크에 데이터를 씁니다. VM이 자동으로 다시 시작되면 영구 디스크를 다시 연결할 수 있으며 애플리케이션이 작업을 다시 시작할 수 있습니다.

다음 단계