호스트 이벤트 정보


VM을 만드는 동안 호스트 유지보수 정책을 설정하여 호스트 시스템 이벤트 중이나 후에 가상 머신(VM) 인스턴스가 응답하는 방식을 선택할 수 있습니다. 호스트 이벤트에는 Compute Engine 인프라의 정기 유지보수 또는 VM의 호스트 오류가 포함될 수 있습니다. 기본적으로 VM은 호스트 시스템 이벤트 중에 라이브 마이그레이션되도록 설정되지만 종료하고 선택적으로 다시 시작하도록 설정될 수 있습니다. Z3 VM은 기본적으로 그대로 다시 시작되므로 라이브 마이그레이션은 예외입니다.

다음 호스트 이벤트는 설정한 호스트 유지보수 정책에 따라 VM 라이브 마이그레이션이나 종료로 이어집니다.

유지보수 이벤트

유지보수 이벤트는 Compute Engine에서 VM을 중지하여 하드웨어 또는 소프트웨어 업데이트를 수행하는 경우입니다. 라이브 마이그레이션 호스트 유지보수 정책을 사용 설정하면 Compute Engine에서 VM을 새 호스트로 이동하며 애플리케이션이 중단되지 않습니다.

유지보수 이벤트 중의 VM 동작은 VM 테넌시에 따라 다를 수 있습니다. 다음 표에서는 유지보수 이벤트 중 멀티 테넌트 VM과 단독 테넌트 VM 동작의 몇 가지 차이점을 보여줍니다.

호스트 테넌시 대략적인 빈도* 새 호스트로 라이브 마이그레이션 호스트 선택
멀티 테넌트 2주마다 Compute Engine
단독 테넌트 4~6주 간격 호스트 유지보수 정책에 따라 다름 호스트 유지보수 정책에 따라 다름
*위 빈도는 대략적인 수치이며 Compute Engine에서 유지보수를 더 자주 수행할 수도 있습니다.

또한 Compute Engine은 백그라운드에서 일부 가벼운 하이퍼바이저 업그레이드와 네트워크 업그레이드를 중단 없이 적용합니다.

호스트 유지보수 정책

VM 호스트 유지보수 정책은 다음 이벤트 중의 VM 동작 방식을 결정합니다.

  • Google에서 VM을 다른 호스트 머신으로 이전해야 하는 유지보수 이벤트가 있는 경우
  • Google에서 VM을 종료하거나 다시 시작해야 하는 호스트 오류가 발생하는 경우

호스트 유지보수 중에 VM이 계속 실행되도록 구성하고, Compute Engine에서 VM을 다른 호스트로 라이브 마이그레이션하거나, 대신 VM을 중지하도록 선택할 수 있습니다. 언제든지 VM의 호스트 유지보수 정책을 업데이트하여 VM의 동작 방식을 제어하는 것이 가능합니다.

다음 설정을 구성하여 VM의 호스트 유지보수 정책을 변경할 수 있습니다.

  • 유지보수 동작: 유지보수 이벤트가 있을 때 VM을 라이브 마이그레이션할지 또는 중지할지 여부입니다.
  • 다시 시작 동작: VM이 비정상 종료되거나 호스트 오류가 발생하는 경우 Compute Engine이 VM을 다시 시작할지 또는 종료할지 여부입니다.
  • 호스트 오류 감지 시간: VM에서 응답이 없는 것을 감지한 후 Compute Engine이 VM을 다시 시작하거나 종료하기 위해 기다리는 최대 시간입니다.
  • 로컬 SSD 복구 시간: Compute Engine에서 호스트 오류 감지 후 로컬 SSD 디스크의 데이터를 복구하기 위해 시도하는 최대 시간입니다. 지정된 시간 안에 성공적으로 복구되지 않으면 로컬 SSD 데이터가 손실됩니다.

유지보수 예약

Google Cloud는 유지보수를 보다 확실하게 제어할 수 있는 기능을 제공합니다. 특정 VM 제품군을 사용하면 Cloud Logging을 통해 며칠에 걸친 알림을 받도록 유지보수 환경설정을 지정할 수 있습니다. 알림이 수신되면 예약된 이벤트가 발생할 때까지 원하는 시점에서 유지보수를 트리거할 수 있습니다.

이러한 기능을 호스트 유지보수 정책과 함께 사용하여 워크로드에 적합한 일정을 맞춤설정할 수 있습니다.

라이브 마이그레이션

기본적으로 Z3 VM을 제외한 모든 VM은 라이브 마이그레이션으로 설정되어 있으며, 여기서 Compute Engine이 인프라 유지보수 이벤트 발생 시 VM을 자동으로 마이그레이하며 VM은 마이그레이션 중에 실행 상태로 유지됩니다. VM은 짧은 시간 동안 성능이 저하될 수 있지만 일반적으로 대부분의 VM은 눈에 띄게 성능의 차이를 보이지 않습니다. 이는 지속적인 업타임이 요구되며 짧은 시간 동안의 성능 감소에 크게 영향을 받지 않는 VM에 이상적입니다.

Compute Engine은 VM을 마이그레이션할 때 시스템 이벤트를 보고하며, 이벤트는 영역 작업 목록에 게시됩니다. 특정 영역의 Compute Engine 작업을 확인하여 이 이벤트를 검토할 수 있습니다. 라이브 마이그레이션 이벤트의 작업 유형은 다음과 같습니다.

    compute.instances.migrateOnHostMaintenance

중지 및 (원하는 경우) 다시 시작

VM을 라이브 마이그레이션하지 않으려면 VM을 중지하고 원하는 경우 다시 시작하도록 선택할 수 있습니다. VM을 중지하고 원하는 경우 다시 시작하도록 설정한 경우 Compute Engine은 소프트 전원 끄기 신호를 보내 VM을 종료합니다. 그런 다음 VM이 완전히 꺼질 때까지 60초 동안 기다린 후 VM을 종료하고 유지보수 이벤트 이후에 VM을 다시 시작합니다. 60초 안에 완전히 꺼지지 않아도 VM이 종료됩니다.

이는 VM이 일정하게 최대 성능을 유지해야 하고, 전체 애플리케이션이 VM 장애나 재부팅을 처리하도록 빌드되어 있는 경우에 적합한 설정입니다.

Compute Engine은 VM을 중지하고 재부팅할 때 시스템 이벤트를 보고하며, 이벤트는 영역 작업 목록에 게시됩니다. 특정 영역의 Compute Engine 작업을 확인하여 이 이벤트를 검토할 수 있습니다. 중지된 이벤트의 작업 유형은 다음과 같습니다.

compute.instances.terminateOnHostMaintenance

VM은 재부팅할 때 동일한 영구 부팅 디스크를 사용하며 구성한 보조 영구 디스크를 다시 연결합니다. 이러한 디스크의 데이터는 VM을 마이그레이션하고 재시작해도 유지됩니다.

로컬 SSD 데이터는 유지보수 이벤트로 인해 VM이 중지되면 유지되지 않습니다. VM이 다시 시작할 때 포맷하고 마운트해야 하는 새 로컬 SSD를 만듭니다.

로컬 SSD 데이터가 스토리지 최적화 Z3 VM(프리뷰)에서 유지됩니다. 유지보수 이벤트가 있으면 새 호스트로 마이그레이션되는 대신 Z3 VM이 그대로 다시 시작됩니다. 정기 유지보수가 종료되면 VM이 다시 시작됩니다. Google Cloud는 로컬 SSD 데이터를 그대로 유지하기 위해 최선을 다하고 있습니다. 하지만 시간 초과가 발생하는 경우와 같이 데이터를 복구할 수 없는 경우도 있습니다.

자동으로 다시 시작

유지보수 이벤트가 있을 때 VM이 중지되도록 설정되어 있거나 기본 하드웨어 문제로 VM이 비정상 종료되는 경우 automaticRestart 필드를 true로 설정하여 Compute Engine이 VM을 자동으로 다시 시작하도록 설정할 수 있습니다. 이 설정은 사용자 작업(예: sudo shutdown 호출)을 통해 VM을 오프라인으로 전환한 경우 또는 영역이 중단된 동안에는 적용되지 않습니다.

Compute Engine은 VM을 재시작할 때 시스템 이벤트를 보고하며, 이벤트는 영역 작업 목록에 게시됩니다. 특정 영역의 Compute Engine 작업을 확인하여 이 이벤트를 검토할 수 있습니다. 자동 다시 시작 이벤트의 작업 유형은 다음과 같습니다.

compute.instances.automaticRestart

호스트 오류

호스트 오류(compute.instances.hostError)는 VM을 호스팅하는 실제 머신에서 VM의 비정상 종료를 일으키는 하드웨어 또는 소프트웨어 문제가 발생했음을 의미합니다. 총 하드웨어 오류 또는 기타 하드웨어 문제가 포함된 호스트 오류는 VM의 라이브 마이그레이션을 방해할 수 있습니다. VM이 자동으로 다시 시작하도록 설정된 경우(기본 설정) Google은 일반적으로 오류가 감지된 시간부터 3분 내로 VM을 다시 시작합니다. 문제에 따라 다시 시작하는 데 최대 5.5분이 걸릴 수 있습니다.

로컬 SSD 디스크가 있는 VM

하나 이상의 로컬 SSD 디스크가 연결된 VM에서 호스트 오류가 발생하는 경우 Compute Engine이 VM에 다시 연결하여 로컬 SSD 데이터를 보존하기 위해 가능한 방법을 최대한 시도합니다. Compute Engine에서 VM 및 로컬 SSD 디스크를 복구하는 동안 호스트 시스템과 기본 디스크가 응답하지 않습니다.

로컬 SSD 복구 제한 시간을 설정하여 Compute Engine이 로컬 SSD 데이터를 복구하기 위해 시도하는 시간을 지정할 수 있습니다.

호스트 오류가 발생하는 경우 로컬 SSD 디스크가 작동하는 방식에 대한 자세한 내용은 로컬 SSD 데이터 지속성을 참조하세요.

응답하지 않는 VM

호스트 오류가 감지되기 전에 VM이 응답하지 않는 경우가 있습니다. 호스트 오류 복구 제한 시간(미리보기)을 설정하여 Compute Engine이 VM을 다시 시작하거나 종료하기 위해 대기하는 시간을 줄일 수 있습니다. 자세한 내용은 가용성 정책 설정을 참조하세요.

물리적인 하드웨어 및 소프트웨어 오류가 간혹 발생할 수 있지만 매우 드물게 발생합니다. 이와 같은 시스템 중단 이벤트로부터 애플리케이션과 서비스를 보호하기 위해 다음 리소스를 검토하세요.

Google은 또한 App EngineApp Engine 가변형 환경과 같은 관리형 서비스를 제공합니다.

로컬 SSD 복구 제한 시간

호스트 오류가 발생하면 Compute Engine은 VM에 연결된 모든 로컬 SSD 디스크를 복구하려고 시도합니다. 로컬 SSD 복구 제한 시간을 사용하여 Compute Engine에서 데이터 복구를 시도하는 데 걸리는 시간을 제어할 수 있습니다. 기본적으로 Compute Engine은 데이터를 복구하는 데 1시간 정도 걸리지만 유효한 값은 0~168시간 1시간 단위로 증가합니다. 예외적으로 기본 복구 시간이 최대 6시간인 Z3은 예외입니다.

제한 시간이 만료되어도 데이터를 복구할 수 없는 경우 Compute Engine에서 로컬 SSD 디스크 없이 VM을 다시 시작합니다. Compute Engine이 비어 있는 새 로컬 SSD 디스크를 다시 시작된 VM에 연결합니다.

제한 시간이 1시간 이상인 경우 Compute Engine이 연결된 로컬 SSD 디스크를 복구하는 동안 VM의 상태는 REPAIRING입니다. 복구 중에는 VM 및 로컬 SSD 디스크가 응답하지 않습니다.

제한 시간이 0이면 Compute Engine에서 로컬 SSD 디스크를 복구하려고 시도하지 않으며 데이터는 복구할 수 없습니다. 워크로드 재개가 로컬 SSD 데이터를 복구하는 것보다 중요한 경우 복구 제한 시간을 0으로 설정하면 됩니다.

로컬 SSD 디스크 복구 중지

로컬 SSD 복구 제한 시간이 만료되기 전에 복구 프로세스를 중단할 수 있습니다. 이렇게 하려면 gcloud compute instances stop 명령어를 --discard-local-ssd=True 플래그와 함께 사용하세요.

이렇게 하면 복구 프로세스가 중지되고, VM이 중지되며, 로컬 SSD 데이터가 삭제됩니다. 나중에 VM을 다시 시작할 수 있습니다. 자세한 내용은 로컬 SSD로 VM 중지를 참조하세요.

로컬 SSD 복구 제한 시간을 설정하려면 VM 호스트 유지보수 정책 설정을 참조하세요.

다음 단계