노드 문제 감지기로 시스템 상태 모니터링

Milestone 77부터 Container-Optimized OS(COS)에는 노드 문제 감지기 에이전트가 포함되어 있습니다. 이 기능을 사용하여 COS 인스턴스의 시스템 상태를 모니터링할 수 있습니다. 노드 문제 감지기는 인스턴스 상태를 모니터링하고, Google Cloud의 작업 제품군 대시보드로 시각화할 수 있는 용량 및 오류 측정항목을 포함하여 상태 관련 측정항목을 Cloud Monitoring에 보고합니다. 기본 구성에서 수집된 측정항목은 무료입니다. Google은 집계된 측정항목을 사용하여 노드 문제를 이해하고 COS의 안정성을 향상시킵니다.

에이전트는 내보낼 측정항목 세트로 사전 구성되어 있습니다. 현재 내장 에이전트에 대해 보고된 측정항목을 맞춤설정할 수 없습니다. 노드 문제 감지기는 오픈소스 소프트웨어입니다. 해당 소스 저장소에서 소스 코드구성을 검토할 수 있습니다.

상태 모니터링 활성화

이 기능은 부팅 시 기본적으로 사용 중지됩니다. cloud-init 또는 시작 스크립트를 사용하여 이 기능을 사용 설정할 수 있습니다.

cloud-init 예시는 COS 인스턴스 구성의 기본사항을 설명합니다. cloud-init을 사용하여 아래 cloud-config 예시에서 상태 모니터링을 사용 설정할 수 있습니다.

#cloud-config

bootcmd:
- systemctl start node-problem-detector

수집된 측정항목 보기

노드 문제 감지기는 gce_instance 모니터링 리소스에 대한 측정항목 목록을 보고합니다. 측정항목은 Google Cloud의 작업 제품군 측정항목 목록에 문서화되어 있으며, 프리픽스가 compute.googleapis.com/guest/입니다. Google Cloud의 작업 제품군 Metrics Explorer를 사용하여 수집된 측정항목을 볼 수 있습니다.

  1. Stackdriver Monitoring Console로 이동합니다.

  2. '리소스 > 측정항목 탐색기'로 이동합니다.

  3. 측정항목 탐색기 페이지에서 'GCE VM 인스턴스' 리소스 유형을 선택합니다.

  4. 측정항목(예: '문제 수')을 선택합니다.

  5. 오른쪽에 차트와 통계가 표시됩니다. 특정 COS 인스턴스의 결과를 보려면 필터를 'instance_id=[INSTANCE_ID]'로 설정합니다.

상태 모니터링 사용 중지

이 기능은 부팅 시 기본적으로 사용 중지됩니다. 기능을 이미 사용 설정했지만 지금 사용 중지하려면 시작 스크립트cloud-config에서 systemctl start node-problem-detector 단계를 제거한 후 COS 인스턴스를 재부팅하세요.