Google Cloud는 하드웨어 고장에 영향을 받습니다. 여러 중복 레이어가 있지만 하드웨어 오류가 발생하여 Compute Engine 인스턴스가 종료될 수 있습니다.
호스트 하드웨어 오류는 서버 하드웨어와 관련 구성요소에 오류가 발생할 수 있는 부품이 많기 때문에 여러 가지 원인이 있을 수 있습니다. 특히 메모리 최적화 머신 유형에는 메모리 모듈이 많아 메모리 관련 하드웨어 오류가 발생할 가능성이 높아집니다. 메모리 관련 오류에는 두 가지 유형이 있습니다.
수정 가능한 메모리 오류: 이러한 오류는 오류 정정 코드 (ECC) 메모리와 같은 내장 하드웨어 및 소프트웨어 메커니즘으로 수정할 수 있는 오류입니다. 이러한 오류는 호스트에서 실행 중인 Compute Engine 인스턴스에 영향을 미치지 않습니다. 하드웨어 및 소프트웨어 메커니즘에서 투명하게 처리됩니다.
수정할 수 없는 메모리 오류: 이러한 오류는 수정할 수 없는 오류입니다. 이러한 오류는 드물고 무작위이며 예측할 수 없습니다. 영향을 받는 메모리 영역에 액세스하려고 하면 OS에 신호가 전달되어 Compute Engine 인스턴스가 종료되거나 인스턴스에 전달되는 머신 검사 예외 (MCE)가 발생합니다. Compute Engine 인스턴스의 애플리케이션이 영향을 받은 수정 불가능한 메모리 영역에서 데이터를 읽으려고 하면 애플리케이션이 이 신호를 소비하고 종료됩니다. Compute Engine 인스턴스의 OS가 이 신호를 수신하면 기본적으로 OS는 영향을 받는 메모리 페이지가 다시 할당되지 않도록 하여 추가 사용을 방지합니다.
호스트 오류 감지
호스트 오류를 감지하려면 다음 사전 정의된 Compute Engine 쿼리를 사용하는 로그 기반 알림 정책을 구성합니다.
쿼리/필터 이름 | 설명 |
---|---|
Compute Engine 호스트 오류 (compute.instances.hostError) |
호스트 오류는 Compute Engine 인스턴스를 종료해야 하는 하드웨어 오류가 발생했음을 나타냅니다. |
Compute Engine 호스트 메모리 알림 (compute.instances.hostEventNotify) |
호스트 메모리 알림은 메모리 모듈과 연결된 하드웨어 오류 유형을 나타냅니다. 이러한 오류는 시간이 지남에 따라 영구적인 구성요소 오류가 발생하거나 메모리 페이지를 안전하게 검색하지 못하게 하는 고에너지 입자 또는 우주선으로 인한 일시적인 이벤트로 인해 발생할 수 있습니다. |
호스트 오류로부터 SAP 워크로드 보호
호스트 오류로부터 SAP 워크로드를 보호하려면 다음을 권장합니다.
Compute Engine 인스턴스에 자동 재시작이 설정되어 있는지 확인합니다.
Compute Engine은 기본적으로 모든 인스턴스에 이 옵션을 사용 설정합니다. 이 설정은 사용 중지하지 않는 것이 좋습니다.
단일 인스턴스 장애로부터 SAP HANA 및 SAP NetWeaver 워크로드를 보호하려면 고가용성 (HA) 구성으로 배포하세요.
자세한 내용은 다음 가이드를 참조하세요.
SAP HANA 프로세스 종료의 영향을 받지 않도록 SAP HANA 워크로드를 보호하려면 SAP HANA HA/DR 제공업체 후크를 구현하고 SAP HANA 빠른 다시 시작 옵션을 사용 설정하세요.
이렇게 하는 방법에 관한 자세한 내용은 모든 SAP HANA 가이드에서 SAP HANA 시나리오의 배포 가이드를 참고하세요.
M2, M3 또는 M4 머신 유형의 Compute Engine 호스트 메모리 알림(
compute.instances.host_event_notify
) 이벤트에서 표시된 메모리 오류로부터 SAP HANA 워크로드를 보호하려면 다음 단계를 따르세요.수정할 수 없는 오류를 VM에서 처리할 수 없는 경우 자동 다시 시작 정책으로 인해 VM이 자동으로 다시 시작됩니다. HA 클러스터에서는 보조 노드가 자동으로 역할을 대신합니다. 더 이상 조치를 취하지 않아도 됩니다.
수정할 수 없는 메모리 오류를 VM에서 처리할 수 있고 VM 비정상 종료로 이어지지 않는 경우 다음을 실행합니다.
영향을 받는 인스턴스가 HA 클러스터의 현재 기본 노드인 경우 클러스터의 보조 노드로 수동 장애 조치를 시작합니다.
영향을 받은 인스턴스를 중지하여 호스트 오류 이벤트의 영향을 받은 가상 메모리 페이지를 해제합니다.
이러한 이벤트 중에 Compute Engine은 영향을 받는 VM을 정상적인 호스트로 자동으로 마이그레이션하지만 일부 메모리 페이지에는 계속 액세스할 수 없습니다. SAP HANA 워크로드가 메모리 오류가 발생한 후 처음으로 영향을 받은 메모리 페이지를 읽으려고 하면 워크로드가 실패하고 종료됩니다. 인스턴스를 중지하면 초기 하드웨어 오류로 인해 남아 있을 수 있는 영향을 받는 가상 메모리 페이지가 해제됩니다.
영향을 받는 인스턴스를 시작합니다.
영향을 받는 VM을 중지하고 시작할 수 없는 경우, VM에서 실행 중인 애플리케이션은 영향을 받는 메모리 페이지를 읽을 수 있을 때까지 계속 작동할 수 있으며, 이 과정은 몇 시간이 걸릴 수 있습니다. 영향을 받는 메모리 페이지를 해제하려면 최대한 빨리 영향을 받는 VM을 다시 시작합니다.