이 페이지는 Cloud Translation API를 통해 번역되었습니다.

프라이빗 클라우드 유지보수 및 업데이트

프라이빗 클라우드 환경은 단일 장애점이 없도록 다음과 같은 방식으로 설계되었습니다.

ESXi 클러스터는 vSphere 고가용성(HA)으로 구성됩니다. 복원력을 고려해 한 개 이상의 예비 노드를 보유하도록 클러스터의 크기를 조정합니다.
vSAN은 중복 기본 스토리지를 제공하며 단일 장애를 방지하기 위해 노드가 3개 이상 필요합니다. 큰 클러스터의 경우 더 높은 복원력을 제공하도록 vSAN을 구성할 수 있습니다.
vCenter, PSC, NSX Manager 가상 머신(VM)은 스토리지 장애를 방지하기 위해 RAID-10 스토리지로 구성됩니다. vSphere HA에서 VM의 노드 및 네트워크 장애를 추가로 방지합니다.
ESXi 호스트에는 중복 팬과 NIC가 있습니다.
TOR 및 스파인 스위치는 복원력을 제공하도록 HA 쌍으로 구성됩니다.

VMware Engine은 업타임을 지속적으로 모니터링하고 가용성을 모니터링한 후 다음 유형의 VM에 가용성 SLA를 제공합니다.

ESXi 호스트
vCenter
PSC
NSX Manager

VMware Engine은 다음 항목에 오류가 있는지 지속적으로 모니터링합니다.

하드 디스크
물리적 NIC 포트
서버
팬
전원
스위치
스위치 포트

디스크 또는 노드에 장애가 발생하면 VMware Engine은 영향을 받는 VMware 클러스터에 새 노드를 자동으로 즉시 추가하여 서비스 운영을 복원합니다. 프라이빗 클라우드에서 다음 프로세스가 실행됩니다.

자동 모니터링 및 알림: Google의 모니터링 시스템은 노드의 상태를 지속적으로 추적합니다. 잠재적인 하드웨어 고장을 나타내는 문제가 감지되면 알림이 트리거됩니다.
진단을 위한 사람의 개입: 시스템은 자동 교체를 위해 설계되었지만 YouTube 엔지니어는 이러한 알림을 검토하여 근본 원인을 신속하게 파악합니다. 이렇게 하면 올바른 문제를 해결하고 재부팅과 같은 더 간단한 해결 방법이 권장되는 경우 불필요한 노드 교체를 방지할 수 있습니다. 예를 들어 일시적인 네트워크 문제나 소프트웨어 결함으로 인해 하드웨어 고장과 유사한 알림이 트리거될 수 있으며, 권장되지 않는 조치일 수 있는 노드 교체로 클러스터에 영향을 미치지 않도록 하려는 것입니다. 불필요한 노드 교체는 스토리지 I/O 집약적인 작업인 전체 vSAN 재동기화를 트리거합니다.
하드웨어 고장에 대한 자동 노드 교체: Google 엔지니어가 하드웨어 고장을 확인하면 자동 노드 교체 프로세스가 즉시 시작됩니다. 새 노드가 클러스터에 추가되고 vSAN이 해당 노드에서 데이터 재동기화를 시작합니다.

프라이빗 클라우드의 다음 VMware 요소는 백업, 유지보수, 업데이트됩니다.

ESXi
vCenter 플랫폼 서비스 컨트롤러
vSAN
NSX

백업 및 복원

백업에는 다음이 포함됩니다.

vCenter, PSC, DVS 규칙에 대한 야간 증분 백업
애플리케이션 레이어에서 구성요소를 백업하기 위한 vCenter 기반 API
VMware 관리 소프트웨어를 업데이트하거나 업그레이드하기 전의 자동 백업

유지보수

다음 유형의 계획된 유지보수가 포함됩니다.

백엔드 및 내부 유지보수

백엔드 및 내부 유지보수에는 일반적으로 물리적 애셋 재구성 또는 소프트웨어 패치 설치가 포함됩니다. 서비스 중인 애셋의 일반 소비에는 영향을 주지 않습니다. 각 물리적 랙으로 이동하는 중복 NIC를 사용할 때 일반 네트워크 트래픽 및 프라이빗 클라우드 운영에는 영향을 주지 않습니다. 조직에서 유지보수 간격 중 전체 중복 대역폭 사용이 예상되는 경우에만 성능 영향을 발견할 수 있습니다.

포털 유지보수

제어 영역 또는 인프라를 업데이트할 때는 일부 제한된 서비스 다운타임이 필요합니다. 유지보수 간격은 매월 1회로 빈번하게 수행될 수 있으며 시간 경과에 따라 실행 빈도가 감소할 것으로 예상됩니다. VMware Engine에서는 임박한 포털 유지보수에 대해 알리고 유지보수 간격을 가능한 한 짧게 유지하도록 최선을 다하겠습니다. 포털 유지보수 간격 중에도 다음 서비스는 영향을 받지 않고 계속 작동합니다.

VMware 관리 영역 및 애플리케이션
vCenter 액세스
모든 네트워킹 및 스토리지

VMware 인프라 유지보수

가끔씩 VMware 인프라의 구성을 변경해야 합니다. 1~2개월마다 변경해야 할 수 있지만 시간이 지나면서 빈도가 감소할 것으로 예상됩니다. 이러한 유형의 유지보수는 일반적으로 일반 프라이빗 클라우드 소비를 방해하지 않고 수행될 수 있습니다. VMware 유지보수 기간 중에 다음 서비스는 아무런 영향 없이 계속 작동합니다.

VMware 관리 영역 및 애플리케이션
vCenter 액세스
모든 네트워킹 및 스토리지

업데이트 및 업그레이드

VMware Engine은 프라이빗 클라우드에서 VMware 소프트웨어(ESXi, vCenter, PSC, NSX)의 수명 주기 관리를 담당합니다.

소프트웨어 업데이트에는 다음이 포함됩니다.

패치: VMware에서 출시한 보안 패치 또는 버그 수정
업데이트: VMware 스택 구성요소의 부 버전 변경사항
업그레이드: VMware 스택 구성요소의 주 버전 변경사항

VMware Engine은 중요 보안 패치가 VMware에서 제공되는 즉시 이를 테스트합니다. Google은 제공 후 1주일 이내에 프라이빗 클라우드 환경에 관련 중요 패치 출시를 시작할 예정입니다. 실제 패치 완료 타임라인은 예약 가능 여부와 고객 워크로드의 다운타임을 방지하기 위해 패치 시점을 조정해야 하는 필요성에 따라 달라집니다.

새로운 주 버전의 VMware 소프트웨어가 출시되면 VMware Engine은 고객과 협력하여 업그레이드 적용에 적합한 유지보수 기간을 조정합니다. VMware Engine은 주 버전이 출시되고 최소 6개월 후에 주 버전 업그레이드를 적용하고 주 버전 업그레이드를 적용하기 1개월 전에 고객에게 알립니다.

또한 주 버전 업그레이드를 시작하기 전에 VMware Engine은 주요 업계 공급업체와 협력하여 최신 VMware 소프트웨어 버전을 지원하는지 확인합니다. 특정 공급업체의 지원에 대한 자세한 내용은 Cloud Customer Care에 문의하세요.

인증서 업데이트 책임

인증서 업데이트는 Google에서 담당합니다. 인증서 업데이트 오류가 발생하면 별도의 조치가 필요 없으며 인증서는 만료 전에 갱신됩니다. 하지만 LDAPS가 프라이빗 클라우드에 구성된 경우 해당 오류와 연결된 특정 인증서에 대한 책임은 전적으로 개발자에게 있습니다.

준비

업데이트 또는 업그레이드를 시작하기 전에 다음을 준비하는 것이 좋습니다.

스토리지 용량 확인: SLA를 유지하기 위해 vSphere 클러스터의 스토리지 공간 사용률이 80% 미만인지 확인합니다. 사용률이 80%를 초과하는 경우 업그레이드가 평소보다 오래 걸리거나 완전히 실패할 수 있습니다. 스토리지 사용률이 70%를 초과하는 경우 노드를 추가하여 클러스터를 확장하고 업그레이드 중 다운타임이 발생하지 않도록 합니다.
FTST를 0으로 설정하여 vSAN 스토리지 정책 변경: 허용되는 장애(FTT)가 0인 vSAN 스토리지 정책으로 구성된 VM을 FTT가 1인 vSAN 스토리지 정책으로 변경하여 SLA를 유지합니다.
VM CD 마운트 삭제: vMotion과 호환되지 않는 워크로드 VM에 마운트된 CD를 삭제합니다.
VMware 도구 설치 완료: 예약된 업그레이드가 시작되기 전에 VMware 도구의 설치 또는 업그레이드를 완료합니다.
VM에서 SCSI 버스 공유 삭제: VM을 끄고 싶지 않으면 VM에서 SCSI 버스 공유를 삭제합니다.
액세스되지 않는 VM 및 Datastore 삭제: vCenter 인벤토리에서 사용되지 않고 액세스할 수 없는 VM을 삭제합니다. 액세스할 수 없는 외부 Datastore를 삭제합니다.
Distributed Resource Scheduler(DRS) 규칙 사용 중지: VM을 호스트에 고정하는 DRS 규칙으로 인해 노드가 유지보수 모드로 전환되지 않습니다. 업그레이드 전에 DRS 규칙을 사용 중지하고 업그레이드가 완료된 후 사용 설정할 수 있습니다.
VMware 부가기능 및 서드 파티 솔루션 업데이트: 프라이빗 클라우드 vCenter에 배포된 VMware 부가기능 및 타사 솔루션이 이전에 언급된 업그레이드 후 버전과 호환되는지 확인합니다. 도구 예시로는 백업, 모니터링, 재해 복구 조정, 기타 유사한 기능 등이 있습니다. 솔루션 공급업체에 문의하여 업그레이드 후 호환성을 보장하기 위해 필요한 경우 미리 업데이트하세요.

유지보수 프로세스에 영향을 줄 수 있는 구성

VMware Engine은 VMware의 유지보수 모드를 활용하여 업그레이드, 업데이트, 노드 유지보수를 수행합니다. 이는 프라이빗 클라우드 워크로드를 계속 사용하는 데 도움이 됩니다. 그러나 다음 구성에서는 노드가 유지보수 모드로 전환되기 전에 추가 단계가 필요할 수 있습니다.

DRS 규칙: VM을 특정 노드에 강제로 유지하는 MUST 규칙입니다.
SCSI 버스 공유: SCSI 버스를 공유하도록 구성된 VM입니다.
CD-ROM 마운트: CD-ROM이 연결된 VM입니다(특히 vMotion을 사용하여 CD-ROM을 다른 노드로 이동할 수 없는 경우).
직렬 포트 연결: vMotion을 사용하여 다른 노드로의 이동을 방지하는 직렬 포트 연결을 사용하는 VM입니다.
원시 기기 매핑(RDM): 물리적 스토리지 기기에 직접 액세스하는 VM입니다.

조치가 필요한 경우

이러한 구성이 노드에 있으면 Cloud Customer Care에서 프라이빗 클라우드의 가용성을 유지하는 데 필요한 해결 단계를 수행하기 최소 24시간 전에 알림을 표시합니다. 일부 경우 VM을 끄고 vMotion으로 이동한 다음 전원을 켜거나 CD-ROM을 삭제하는 등의 단계로 잠시 동안 워크로드가 중단될 수 있습니다.

다음 단계

VMware Engine 보안에 대해 알아보기