유지보수 이벤트 중 라이브 마이그레이션 프로세스


가상 머신 (VM) 인스턴스 또는 베어 메탈 인스턴스의 기본 하드웨어에 대한 계획된 유지보수 이벤트 중에 호스트 서버를 사용할 수 없습니다. 호스트 이벤트 중에도 인스턴스를 계속 실행하려면 Compute Engine에서 인스턴스를 동일한 영역의 다른 호스트 서버로 라이브 마이그레이션합니다. 호스트 이벤트에 대한 자세한 내용은 호스트 이벤트 정보를 참고하세요.

라이브 마이그레이션을 통해 Google Cloud는 워크로드를 중단하거나 인스턴스를 재부팅하거나 IP 주소, 메타데이터, 블록 스토리지 데이터, 애플리케이션 상태, 네트워크 설정과 같은 인스턴스의 속성을 수정하지 않고도 유지보수를 수행할 수 있습니다.

라이브 마이그레이션은 다음과 같은 상황에서 인스턴스를 실행 중인 상태로 유지합니다.

  • 인프라 유지보수. 인프라 유지보수에는 호스트 하드웨어, 데이터 센터의 네트워크 및 전원 그리드, 호스트 운영체제 (OS) 및 BIOS가 포함됩니다.

  • 보안 관련 업데이트 및 시스템 구성 변경사항 여기에는 보안 패치 설치, 호스트 OS 이미지 및 패키지 스토리지를 위한 호스트 루트 파티션 크기 변경과 같은 이벤트가 포함됩니다.

  • 하드웨어 오류 여기에는 메모리, CPU, 네트워크 인터페이스 카드 및 디스크의 장애가 포함됩니다. 전체 서버 장애가 발생하기 전에 장애가 감지되면 Compute Engine은 인스턴스를 새 호스트 서버로 실시간으로 이전하여 예방 조치를 취합니다. 하드웨어가 완전히 고장나거나 그 밖의 이유로 라이브 마이그레이션이 불가능한 경우 인스턴스가 종료되고 자동으로 다시 시작됩니다.

Compute Engine은 마이그레이션할 호스트 유지보수 정책이 설정된 VM의 라이브 마이그레이션만 수행합니다. 호스트 유지보수 정책을 변경하는 방법에 관한 자세한 내용은 VM 호스트 유지보수 정책 설정을 참고하세요.

라이브 마이그레이션 프로세스 및 로컬 SSD 디스크

Compute Engine은 로컬 SSD 디스크가 연결된 인스턴스를 라이브 마이그레이션할 수 있습니다 (Z3 인스턴스 제외). Compute Engine은 계획된 유지보수 전에 VM 인스턴스와 로컬 SSD 데이터를 새 머신으로 이전합니다.

제한사항

다음 VM 유형에 라이브 마이그레이션이 지원되지 않습니다.

  • 베어메탈 인스턴스 C3 및 X4 베어메탈 인스턴스는 라이브 마이그레이션을 지원하지 않습니다. 이러한 인스턴스의 유지보수 동작은 각각 TERMINATERESTART로 설정됩니다.
  • 대부분의 컨피덴셜 VM 인스턴스. 컨피덴셜 VM 인스턴스의 라이브 마이그레이션은 AMD SEV를 실행하는 AMD EPYC Milan CPU 플랫폼이 있는 N2D 머신 유형에서만 지원됩니다. 다른 모든 컨피덴셜 VM 인스턴스는 라이브 마이그레이션을 지원하지 않으며 호스트 유지보수 이벤트 중에 중지 및 다시 시작(원하는 경우)하도록 설정해야 합니다. 자세한 내용은 라이브 마이그레이션을 참고하세요.
  • GPU가 연결된 VM. GPU가 연결된 VM 인스턴스는 중지 후 원하는 경우 다시 시작되도록 설정해야 합니다. Compute Engine은 GPU가 연결된 VM 인스턴스가 중지되기 60분 전에 알림을 제공합니다. 이러한 유지보수 이벤트 알림에 대해 자세히 알아보려면 라이브 마이그레이션 알림 받기를 읽어보세요.

    GPU와 관련된 호스트 유지보수 처리에 대해 자세히 알아보려면 GPU 문서에서 호스트 유지보수 처리를 읽어보세요.

  • Cloud TPU Cloud TPU는 라이브 마이그레이션을 지원하지 않습니다.
  • 스토리지 최적화 VM Z3 VM은 라이브 마이그레이션을 지원하지 않습니다. Z3 VM의 유지보수 동작은 TERMINATE로 설정됩니다.

라이브 마이그레이션 프로세스의 작동 방식

VM이 라이브 마이그레이션되도록 예약되면 Compute Engine에서 알림을 제공하므로 이 라이브 마이그레이션 중단에 대비하여 워크로드와 애플리케이션을 준비할 수 있습니다. 라이브 마이그레이션 중에 Google Cloud는 중단 시간을 일반적으로 1초 이내로 최소화합니다. VM이 라이브 마이그레이션되도록 설정되지 않으면 Compute Engine이 호스트 유지보수 중에 VM을 종료합니다. 호스트 이벤트 중에 종료되도록 설정된 VM이 중지 및 다시 시작 (원하는 경우)됩니다.

Google Cloud는 실행 중인 VM을 한 호스트에서 다른 호스트로 마이그레이션할 때, 게스트 OS 및 게스트 OS와 통신하는 모든 것에 투명한 방식으로 소스에서 대상으로 VM의 전체 상태를 마이그레이션합니다. 이러한 작업이 매끄럽게 진행되도록 하는 데 많은 구성요소가 관련되어 있지만 다음 이미지에서 이러한 단계를 간단히 보여줍니다.

게스트 운영체제를 재시작할 필요 없이 VM 및 각 리소스를 새 호스트 시스템으로 마이그레이션
라이브 마이그레이션 구성요소

이 프로세스는 VM을 현재 호스트 머신에서 내보내야 한다는 알림으로 시작됩니다. 이러한 알림은 새로운 BIOS 버전을 사용할 수 있음을 알리는 파일 변경, 하드웨어 작업 예약 유지보수 또는 임박한 하드웨어 오류로부터 발생하는 자동 신호로부터 시작될 수 있습니다.

Google Cloud의 클러스터 관리 소프트웨어는 이러한 이벤트를 상시적으로 감시하고 단일 고객이 한 번에 마이그레이션할 수 있는 VM 수 및 용량 사용률과 같이, 데이터 센터를 제어하는 정책에 따라 이벤트를 예약합니다.

마이그레이션할 VM이 선택된 다음에는 Google Cloud가 이전이 임박한 게스트에 알림을 제공합니다. 대기 기간이 지난 후 대상 호스트가 선택되고 해당 호스트에게 마이그레이션되는 '소스' VM을 받아들일 새로운 빈 '대상' VM을 설정하라는 요청이 전송됩니다. 소스와 대상 사이의 연결을 설정하기 위해서는 인증이 사용됩니다.

VM 마이그레이션은 세 단계로 이루어집니다.

  1. 소스 브라운아웃. VM은 계속 소스에서 실행되며 대부분의 상태가 소스에서 대상으로 전송됩니다. 예를 들어 Google Cloud는 모든 게스트 메모리를 대상으로 복사하고 소스에서 변경된 페이지를 추적합니다. 게스트 메모리 크기와 페이지가 변경되는 속도에 따라 소스 브라운아웃에 소요되는 시간이 달라집니다.

  2. 블랙아웃. VM이 어디에서도 실행되지 않는 매우 짧은 순간입니다. 이 단계에서는 소스 VM이 일시 중지되고, 대상에서 VM 실행을 시작하기 위해 필요한 모든 나머지 상태가 전송됩니다. 소스 브라운아웃 단계에서 상태 변경 전송이 수확 체감 지점에 도달하면 VM이 블랙아웃 단계에 진입합니다. 전송되는 메모리의 바이트 수와 게스트 VM이 변경되는 속도를 비교하여 균형을 맞추는 알고리즘이 사용됩니다.

    블랙아웃 이벤트 중에 시스템 시계가 최대 5초 앞으로 건너뛸 수 있습니다. 블랙아웃 이벤트가 5초를 초과하면 Google Cloud는 VM 게스트 패키지의 일부로 포함된 데몬을 사용하여 시계를 중지하고 동기화합니다.

  3. 대상 브라운아웃. VM이 대상 VM에서 실행됩니다. 소스 VM이 있으며 대상 VM에 지원을 제공할 수 있습니다. 예를 들어 네트워크 패브릭에 대상 VM의 새로운 위치가 적용될 때까지 소스 VM은 대상 VM과 주고받는 패킷의 전달 서비스를 제공합니다.

마지막으로 마이그레이션이 완료되고 시스템이 소스 VM을 삭제합니다. VM의 Cloud Logging 로그에서 마이그레이션이 완료되었음을 확인할 수 있습니다.

단독 테넌트 VM의 라이브 마이그레이션

워크로드가 실행될 때 VM을 다른 단독 테넌트 노드 또는 노드 그룹으로 이동해야 할 수 있습니다. VM을 노드 그룹으로 이동하면 Compute Engine이 VM을 배치할 노드를 결정합니다. 단독 테넌시에 대한 자세한 내용은 단독 테넌시 개요를 참조하세요.

단독 테넌트 VM을 다른 노드 또는 노드 그룹으로 이동하려면 라이브 마이그레이션을 수동으로 시작할 수 있습니다. 또한 라이브 마이그레이션을 수동으로 시작하여 멀티 테넌트 호스트의 VM을 단독 테넌트 노드로 이동할 수도 있습니다. 자세한 내용은 수동으로 VM 라이브 마이그레이션을 참고하세요.

다음 단계