소프트웨어 알림 액세스
다음 도구에서 플랫폼의 소프트웨어 구성요소에 문제가 표시되는 시점에 관한 알림을 확인하세요.
- 일반 소프트웨어 대시보드: GKE Enterprise 구성요소, 클러스터, 서비스, VM과 같은 시스템 상태 정보에 관한 알림입니다.
- 내 메일함: 오류 코드와 같은 문제에 관한 기본 정보가 포함된 이메일 알림
알림을 클릭하여 문제가 있는 구성요소 페이지를 확인하고 관련 로그에 액세스합니다.
알림 수신자 구성
대시보드에서 연결이 끊어져도 알림을 수신하도록 다음 커뮤니케이션 채널을 구성합니다.
- SMS 메시지
- 이메일 알림
- PagerDuty
알림 유형과 수신자 역할(예: 결제, 소프트웨어, 하드웨어)을 정리합니다.
소프트웨어 오류 이해하기
다음 방법을 따라 소프트웨어 구성요소의 오류에 관한 관련 정보에 액세스하고, 문제를 해결하고, 지원팀과 효과적으로 소통하세요.
- 각 오류의 오류 코드를 찾습니다.
- 오류 코드를 사용하여 로컬 및 온라인 문서를 검색합니다.
- 사용자 인터페이스는 특정 오류에 관한 정보 스니펫을 제공합니다. 오류 코드 위로 포인터를 가져가 스니펫을 확인합니다.
민감한 정보에서 소프트웨어 문제 해결 정보 삭제
모든 민감한 데이터의 구성, 로그, 상태, 측정항목을 포함한 소프트웨어 구성요소의 문제 해결 정보를 정리하고 주권 요구사항을 준수합니다.
Google Distributed Cloud (GDC) 에어 갭은 난독화하고 삭제할 기본 민감한 키워드 목록을 제공합니다. 다음 단계에 따라 문제 해결 정보를 정리하세요.
- 맞춤 키워드를 추가 및 삭제하여 기본 목록을 맞춤설정합니다.
- 난독화된 모든 항목의 보고서를 수신합니다.
- 잠재적으로 남아 있는 민감한 정보에 대한 경고를 받습니다.
난독화해야 하는 중요한 항목은 다음과 같습니다.
- 정규화된 도메인 이름 (FQDN)
- IP 주소
- 사용자 이름
- 호스트 이름
- 워크로드 이름
- 해시
- 인증서
- 고객 이름
소프트웨어 시스템 스냅샷 만들기
소프트웨어 구성요소의 스냅샷을 만들어 문제를 해결하고 지원팀과 효과적으로 소통하는 데 필요한 모든 정보를 패키징하세요.
- 포함할 구성요소를 선택합니다.
- 필요한 모든 구성, 로그, 상태, 측정항목이 포함된 tar 파일을 생성합니다.
- 디버그할 구성요소를 지정합니다.
- 데이터를 정리하는 방법을 지정합니다.
지원팀과 정보 공유
Google은 GDC에 대해 레벨 1 (L1) 및 레벨 2 (L2) 지원을 제공합니다.
스냅샷 공유에 정책 적용
다음 관행에 따라 지원팀과 공유하는 스냅샷 데이터가 안전하고 보호되며 사용자가 관리하는 데이터 보관 정책을 준수하는지 확인하세요.
- 스냅샷에 대한 액세스 제어 정책을 정의하고 적용합니다.
- 스냅샷의 데이터 보관 정책을 정의하고 적용합니다.
- 스냅샷을 지원 포털에 업로드할 보안 채널을 설정합니다.
하드웨어 알림 액세스
플랫폼의 하드웨어 구성요소에 문제가 표시되는 시점에 대한 알림을 확인합니다. 알림은 랙, 서버, 스위치, 스토리지와 같은 하드웨어 구성요소의 시스템 상태 정보와 함께 시스템 관리자에 표시됩니다.
이메일 알림을 받을 수도 있습니다. 여기에는 오류 코드와 같은 문제에 관한 기본 정보가 포함됩니다. 알림을 클릭하여 문제가 있는 구성요소 페이지를 확인하고 관련 로그에 액세스합니다.
용량 업그레이드 요청
워크로드의 상태와 확장성을 보장하기 위해 추가 하드웨어 용량을 모니터링, 예측, 요청합니다.
시스템 스냅샷 처리
시스템 스냅샷을 처리하기 전에 다음 요구사항을 충족해야 합니다.
- 스냅샷 도구가 실행 중인 클러스터에 연결되어 있습니다.
- 클러스터의 구성과 로그를 읽을 수 있는 필수 권한은 다음과 같습니다.
- 애플리케이션 운영자에게는 관리 기능이 있습니다.
- 플랫폼 관리자는 할당된 정보로 제한된 액세스 권한을 갖습니다.
시스템 스냅샷을 처리하려면 스냅샷을 생성할 시스템 구성요소를 선택합니다. 이 도구는 클러스터에 연결하여 선택한 각 구성요소의 정보를 가져옵니다. 데이터가 검색된 후에는 민감한 정보를 필터링하기 위해 후처리가 진행됩니다. 그런 다음 도구는 정보를 zip 파일로 번들링합니다.
원하는 경우 지원팀과 공유하기 전에 ZIP 파일과 콘텐츠를 검사하여 민감한 데이터를 캡처하지 않았는지 확인할 수 있습니다.
지원 문서 액세스
다음 문서와 플레이북에 액세스하여 고객 문제를 해결하세요.
- 지원 플레이북
- 공개 문서, 권장사항, FAQ, 기술 자료
- 사용자 커뮤니티
파트너가 L1 및 L2 지원을 제공할 수 있으므로 이러한 아티팩트는 공개적으로 제공되어야 합니다.
소프트웨어 문제를 L3로 에스컬레이션
소프트웨어 문제를 3단계 (L3) 또는 고급 지원을 위해 Google에 에스컬레이션하려면 다음 단계를 따르세요.
- Google과 스냅샷 데이터를 공유할 권한을 요청합니다.
- Google에 지원 티켓을 엽니다.
- Google에 스냅샷 액세스 권한을 제공합니다.
- Google에서 스냅샷에 대해 실행하는 작업을 모니터링하고 이에 대한 정보를 제공합니다.
하드웨어 문제를 L3로 에스컬레이션
하드웨어 오류로 인해 발생한 문제를 Google에 에스컬레이션하려면 다음 단계를 따르세요.
- 하드웨어 구성요소를 문제 해결하기 위해 최소한의 정보를 추출하고 정리합니다.
- 로그
- 상태 및 구성
- 측정항목
- 랙 번호, 구성요소 유형, 일련번호, 실제 위치와 같은 실제 정보
- Google과 스냅샷 데이터를 공유할 권한을 요청합니다.
- Google에 지원 티켓을 엽니다.
- Google에 스냅샷 액세스 권한을 제공합니다.
- Google에서 스냅샷에 대해 실행하는 작업을 모니터링하고 이에 대한 정보를 제공합니다.
하드웨어 지원 케이스 열기
Google은 고객의 스냅샷을 진단하기 위해 동일한 문제 해결 도구에 액세스할 수 있습니다. 공유 티켓팅 시스템을 통해 하드웨어 지원을 받으려면 하드웨어 서비스 (HWaaS) 파트너에게 지원 케이스를 접수하세요.
지원 티켓에는 다음과 같은 우선순위 수준과 해당 서비스수준계약 (SLA)이 적용됩니다.
- 심각
- 높음
- 보통
HWaaS 파트너와 고객 데이터 공유
다음 단계에 따라 시스템 하드웨어 데이터를 하드웨어 파트너와 공유하고 하드웨어 문제 해결을 사용 설정하세요.
- HWaaS 파트너와 스냅샷 데이터를 공유할 권한을 요청합니다.
- 주권 요구사항(지원 상담사의 국적 및 위치)을 준수해야 합니다.
- 일련번호, 실제 위치, 로그, 측정항목, 구성 파일을 비롯한 고객 하드웨어 스냅샷에 대한 보안 액세스 권한을 HWaaS 파트너에게 부여합니다.
- 액세스 권한을 부여한 사용자에게 알림을 보냅니다.
- 액세스 권한의 자동 만료를 적용합니다.
- 모든 활동을 기록하고 관련 당사자와 공유합니다.
문제 해결 결과를 Google에 알리고 타임라인 수정
Google이 최종 고객과 파트너에게 알릴 수 있도록 문제의 근본 원인을 Google에 보고하고 점진적인 해결 방법을 제공합니다. 티켓팅 시스템을 사용하여 필요한 수정 작업의 세부정보를 제공하고 완료 예상 기간을 제공합니다.
데이터 센터 액세스 조정
데이터 센터에 안전하게 액세스하기 위한 물류 및 권한을 조정하고 필요한 하드웨어 수정 작업을 실행합니다.
HWaaS 파트너는 지원 상담사의 국적과 같은 주권 요구사항을 준수합니다. 다음 정보가 필요합니다.
- 데이터 센터 및 위치의 연락처 세부정보입니다.
- 데이터 센터에서 문제가 있는 랙과 구성요소의 정확한 위치입니다.
- 합의된 시간에 데이터 센터에 액세스할 수 있는 승인 및 권한을 얻는 절차
- 데이터 센터에서 현장 개입을 예약하는 프로세스
SLO 및 SLA에 대한 하드웨어 지원 받기
Google은 하드웨어 OEM 파트너를 통해 지원을 제공합니다. 프로세스는 다음과 같습니다.
- Google은 HWaaS 파트너와 서비스 수준 목표 (SLO) 및 서비스수준계약 (SLA)에 대한 하드웨어 지원을 협상합니다.
- SLO와 SLA는 심각, 높음, 중간일 수 있는 사고 심각도에 따라 달라집니다.
- HWaaS 파트너가 상태와 예상 해결 시간을 포함하여 티켓을 업데이트합니다.
- HWaaS 파트너가 문제가 해결된 시점을 확인합니다.
용량 업그레이드
용량 증가 요청에 응답하려면 사용 가능한 경우 내장된 추가 용량을 사용하세요. 랙에 추가 용량이 없는 경우 현장으로 이동하여 실제 용량을 업그레이드합니다.
Google과 정기 검토 일정 예약하기
HWaaS 파트너와 정기 검토를 설정하여 배포의 현재 상태를 확인하고 예정된 개입을 계획합니다.
정기 검토 중에 다음 작업을 수행합니다.
- 운영체제, 하드웨어, 펌웨어에 필요한 예약 업데이트를 확인합니다.
- 기존 배포의 상태를 검토합니다.
- 새 배포를 계획합니다.
예약된 유지보수 및 업그레이드 알림
예정된 정기 점검 계획에 대해 기존 고객과 소통합니다. 고객과 함께 다음 작업을 진행하세요.
- 업그레이드할 리소스를 선택합니다.
- 업그레이드가 현재 상태로 실행되는 이유를 지정합니다.
- 업그레이드를 수행할 사용자, 시기, 위치, 방법을 결정합니다.
- 가능한 영향 및 다운타임을 계획합니다.
예약된 유지보수 설정
정기적인 예방 유지보수를 예약하고 시스템이 최신 상태이며 성능이 우수한지 확인합니다. HWaaS는 유지보수 완료를 다시 보고합니다. 다음 프로세스가 필요합니다.
- 데이터 센터에 액세스할 수 있는 권한을 얻는 절차
- 데이터 센터에서 현장 개입을 예약하는 절차