유지보수 이벤트 중 라이브 마이그레이션 프로세스

가상 머신(VM) 인스턴스 또는 베어메탈 인스턴스의 기본 하드웨어에 계획된 유지보수 이벤트 중에는 호스트 서버를 사용할 수 없습니다. 호스트 이벤트 중에도 인스턴스를 계속 실행하려면 Compute Engine에서 인스턴스를 같은 영역에 있는 다른 호스트 서버로 라이브 마이그레이션합니다. 호스트 이벤트에 대한 자세한 내용은 호스트 이벤트 정보를 참조하세요.

라이브 마이그레이션을 이용하면 Google Cloud 가 워크로드를 중단하거나, 인스턴스를 재부팅하거나, 인스턴스 속성(예: IP 주소, 메타데이터, 블록 스토리지 데이터, 애플리케이션 상태, 네트워크 설정)을 수정하지 않고 유지보수를 수행할 수 있습니다.

라이브 마이그레이션은 다음 상황 중에도 인스턴스를 계속 실행할 수 있습니다.

인프라 유지보수. 인프라 유지보수에는 호스트 하드웨어, 데이터 센터의 네트워크 및 전원 그리드, 호스트 운영체제(OS) 및 BIOS가 포함됩니다.
보안 관련 업데이트 및 시스템 구성 변경사항. 여기에는 보안 패치 설치, 호스트 OS 이미지 및 패키지 스토리지를 위한 호스트 루트 파티션 크기 변경과 같은 이벤트가 포함됩니다.
하드웨어 오류 여기에는 메모리, CPU, 네트워크 인터페이스 카드 및 디스크의 장애가 포함됩니다. 전체 서버 장애가 발생하기 전에 장애가 감지되면 Compute Engine이 예방 차원에서 새 호스트 서버로 인스턴스 라이브 마이그레이션을 수행합니다. 하드웨어가 완전히 고장나거나 그 밖의 이유로 라이브 마이그레이션이 불가능한 경우 인스턴스가 종료되고 자동으로 다시 시작됩니다.

Compute Engine은 마이그레이션할 호스트 유지보수 정책이 설정된 VM의 라이브 마이그레이션만 수행합니다. 호스트 유지보수 정책을 변경하는 방법은 VM 호스트 유지보수 정책 설정을 참조하세요.

라이브 마이그레이션 프로세스와 로컬 SSD 디스크

Compute Engine은 로컬 SSD 디스크가 연결된 인스턴스에 라이브 마이그레이션을 수행할 수 있습니다(Z3 인스턴스 제외). Compute Engine은 계획된 유지보수가 수행되기 전에 미리 로컬 SSD 데이터와 함께 VM 인스턴스를 새 머신으로 이동합니다.

제한사항

다음 VM 유형에 라이브 마이그레이션이 지원되지 않습니다.

베어메탈 인스턴스. 베어메탈 머신 유형으로 생성된 인스턴스는 라이브 마이그레이션을 지원하지 않습니다. 이러한 인스턴스의 유지보수 동작은 각각 TERMINATE 및 RESTART로 설정됩니다.
대부분의 컨피덴셜 VM 인스턴스. 컨피덴셜 VM 인스턴스의 라이브 마이그레이션은 AMD SEV를 실행하는 AMD EPYC Milan CPU 플랫폼이 있는 N2D 머신 유형에서만 지원됩니다. 다른 모든 컨피덴셜 VM 인스턴스는 라이브 마이그레이션을 지원하지 않으며 호스트 유지보수 이벤트 중에 중지 및 다시 시작(원하는 경우)하도록 설정해야 합니다. 자세한 내용은 라이브 마이그레이션을 참조하세요.
GPU가 연결된 VM. GPU가 연결된 VM 인스턴스는 중지 후 원하는 경우 다시 시작되도록 설정해야 합니다. Compute Engine은 GPU 유형에 따라 연결된 GPU가 있는 VM 인스턴스가 중지되기 전에 알림을 제공합니다.
- 대부분의 GPU의 경우 Compute Engine에서 60분 전 알림을 제공합니다.
- AI 하이퍼컴퓨터 Cluster Director에서 실행되는 GPU 계열의 경우 Compute Engine에서 10분 전 알림을 제공합니다.
이러한 유지보수 이벤트 알림에 대한 자세한 내용은 유지보수 이벤트 알림을 위한 메타데이터 서버 쿼리를 참조하세요.

GPU와 관련된 호스트 유지보수 처리에 대해 자세히 알아보려면 GPU 문서에서 호스트 유지보수 처리를 읽어보세요.
Cloud TPU Cloud TPU는 라이브 마이그레이션을 지원하지 않습니다.
스토리지 최적화 VM. vCPU가 88개 이상 있는 Z3 VM은 라이브 마이그레이션을 지원하지 않습니다. 이러한 VM의 유지보수 동작은 TERMINATE 및 RESTART로 설정됩니다. Compute Engine은 인스턴스 종료 후 디스크 지속성의 설명대로 유지보수 이벤트 중에 티타늄 SSD의 데이터를 보존합니다.

라이브 마이그레이션 프로세스의 작동 방식

VM에 라이브 마이그레이션이 예약되면 Compute Engine이 알림을 제공하므로, 라이브 마이그레이션으로 인한 워크로드 및 애플리케이션 중단을 준비할 수 있습니다. 라이브 마이그레이션 중에 Google Cloud 는 일반적으로 1초 미만의 최소 중단 시간을 모니터링합니다. VM이 라이브 마이그레이션되도록 설정되지 않으면 Compute Engine이 호스트 유지보수 중에 VM을 종료합니다. 호스트 이벤트 중에 종료되도록 설정된 VM이 중지 및 다시 시작(원하는 경우)됩니다.

Google Cloud 는 실행 중인 VM을 한 호스트에서 다른 호스트로 마이그레이션할 때, 게스트 OS 및 게스트 OS와 통신하는 모든 것에 투명한 방식으로 소스에서 대상으로 VM의 전체 상태를 마이그레이션합니다. 이러한 작업이 매끄럽게 진행되도록 하는 데 많은 구성요소가 관련되어 있지만 다음 이미지에서 이러한 단계를 간단히 보여줍니다.

게스트 운영체제를 재시작할 필요 없이 VM 및 각 리소스를 새 호스트 시스템으로 마이그레이션 — *라이브 마이그레이션 구성요소*

이 프로세스는 VM을 현재 호스트 머신에서 내보내야 한다는 알림으로 시작합니다. 이러한 알림은 새로운 BIOS 버전을 사용할 수 있음을 알리는 파일 변경, 하드웨어 작업 예약 유지보수 또는 임박한 하드웨어 오류로부터 발생하는 자동 신호로부터 시작될 수 있습니다.

Google Cloud의 클러스터 관리 소프트웨어는 이러한 이벤트를 상시적으로 감시하고 단일 고객이 한 번에 마이그레이션할 수 있는 VM 수 및 용량 사용률과 같이, 데이터 센터를 제어하는 정책에 따라 이벤트를 예약합니다.

마이그레이션할 VM이 선택된 다음에는 Google Cloud 가 이전이 임박한 게스트에 알림을 제공합니다. 대기 기간이 지난 후 대상 호스트가 선택되고 해당 호스트에게 마이그레이션되는 "소스" VM을 받아들일 새로운 빈 "대상" VM을 설정하라는 요청이 전송됩니다. 소스와 대상 사이의 연결을 설정하기 위해서는 인증이 사용됩니다.

VM 마이그레이션은 세 단계로 이루어집니다.

소스 브라운아웃. VM은 계속 소스에서 실행되며 대부분의 상태가 소스에서 대상으로 전송됩니다. 예를 들어Google Cloud 는 모든 게스트 메모리를 대상으로 복사하고 소스에서 변경된 페이지를 추적합니다. 게스트 메모리 크기와 페이지가 변경되는 속도에 따라 소스 브라운아웃에 소요되는 시간이 달라집니다.
블랙아웃. VM이 어디에서도 실행되지 않는 매우 짧은 순간입니다. 이 단계에서는 소스 VM이 일시 중지되고, 대상에서 VM 실행을 시작하기 위해 필요한 모든 나머지 상태가 전송됩니다. 소스 브라운아웃 단계 중 상태 변경사항을 전송해도 반환 결과가 감소하는 시점에 도달하면 VM이 블랙아웃 단계로 전환됩니다. 전송되는 메모리의 바이트 수와 게스트 VM이 변경되는 속도를 비교하는 알고리즘이 사용됩니다.

블랙아웃 이벤트 중에 시스템 시계가 최대 5초 앞으로 건너뛸 수 있습니다. 블랙아웃 이벤트가 5초를 초과하면 Google Cloud 가 VM 게스트 패키지의 일부로 포함된 데몬을 사용하여 시계를 중지하고 동기화합니다.
대상 브라운아웃 VM이 대상 VM에서 실행됩니다. 소스 VM도 존재하며, 대상 VM에 대한 지원을 제공할 수 있습니다. 예를 들어 네트워크 패브릭에 대상 VM의 새로운 위치가 적용될 때까지 소스 VM은 대상 VM과 주고받는 패킷의 전달 서비스를 제공합니다.

마지막으로 마이그레이션이 완료되고 시스템이 소스 VM을 삭제합니다. 수행된 마이그레이션은 VM의 Cloud Logging 로그에서 확인할 수 있습니다.

단독 테넌트 VM의 라이브 마이그레이션

워크로드가 실행될 때 VM을 다른 단독 테넌트 노드 또는 노드 그룹으로 이동해야 할 수 있습니다. VM을 노드 그룹으로 이동하면 Compute Engine이 VM을 배치할 노드를 결정합니다. 단독 테넌시에 대한 자세한 내용은 단독 테넌시 개요를 참조하세요.

단독 테넌트 VM을 다른 노드 또는 노드 그룹으로 이동하려면 라이브 마이그레이션을 수동으로 시작할 수 있습니다. 또한 라이브 마이그레이션을 수동으로 시작하여 멀티 테넌트 호스트의 VM을 단독 테넌트 노드로 이동할 수 있습니다. 자세한 내용은 수동으로 VM 라이브 마이그레이션을 참조하세요.

다음 단계

인스턴스에 라이브 마이그레이션을 구성하기 위한 VM 호스트 유지보수 정책 옵션 설정
서비스 중단을 처리할 수 있는 강력한 시스템 설계에 대한 팁 읽어보기