관측 가능성은 인프라 및 서비스의 상태와 상태를 확인하기 위한 시스템 모니터링, 로깅, 알림, 기타 추적 정보를 의미합니다. 에어 갭이 적용된 Google Distributed Cloud (GDC) 어플라이언스의 관측 가능성 구성요소는 Grafana 대시보드에 표시되는 로그와 측정항목을 수집하며, 이를 쿼리하여 운영 문제를 파악할 수 있습니다.
플랫폼 관리자는 관측 가능성 플랫폼을 사용하여 시스템 및 사용자 클러스터를 모니터링하고 Grafana 사용자 인터페이스(UI)에서 로그와 측정항목을 시각화할 수 있습니다. 애플리케이션 운영자는 애플리케이션의 모니터링 및 운영 데이터를 로그, 측정항목, 이벤트 형식으로 수집할 수 있습니다.
관측 가능성 플랫폼은 관리자 및 사용자 클러스터에 스택 구성요소를 배포합니다. 플랫폼 관리자를 위한 Grafana 인스턴스에는 CPU 사용률, 스토리지 소비와 같은 조직 수준 측정항목과 GDC의 관리자, 시스템, 사용자 클러스터의 작동 가능한 구성요소에서 가져온 알림, 로그, 측정항목이 포함됩니다.
애플리케이션 운영자의 Grafana 인스턴스에는 프로젝트의 기본 대시보드나 로그가 포함되어 있지 않습니다. 대시보드를 만들면 프로젝트의 측정항목 수집을 사용 설정한 경우에만 표시됩니다.
플랫폼 구성요소
GDC 모니터링 및 로깅 스택에는 관측 가능성 플랫폼의 일부로 오픈소스 서비스가 포함됩니다. 이러한 서비스는 Kubernetes 포드, 베어메탈 머신, 네트워크 스위치, 스토리지 어플라이언스에서 로그를 수집합니다.
각 관측 가능성 구성요소에 대한 자세한 내용은 다음 표를 참고하세요.
구성요소 | 유형 | 클러스터 | 설명 |
---|---|---|---|
anthos-prometheus-k8s |
StatefulSet | 시스템만 | Prometheus (https://prometheus.io/docs/introduction/overview ): 측정항목을 수집 및 저장하고 알림을 평가하는 시계열 데이터베이스입니다. 라벨을 키-값 쌍으로 추가하고 Kubernetes 노드, 포드, 베어메탈 머신, 네트워크 스위치, 스토리지 어플라이언스에서 측정항목을 수집합니다. 데이터베이스는 동일한 클러스터에 있는 사용자 클러스터의 측정항목을 저장하고 관리자 클러스터에 있는 모든 클러스터의 측정항목을 집계합니다. |
grafana |
StatefulSet | 시스템만 | Grafana (https://grafana.com/docs/grafana/latest/): 측정항목 및 알림 대시보드를 시각화하는 사용자 인터페이스입니다. Prometheus가 수집하는 측정항목을 보고 Loki에서 로그를 쿼리합니다. 사용자가 측정항목 및 알림의 대시보드를 시각화할 수 있습니다. |
alertmanager |
StatefulSet | 시스템만 | Alertmanager (https://prometheus.io/docs/alerting/latest/alertmanager/): 로그 또는 측정항목이 시스템 구성요소가 실패하거나 정상적으로 작동하지 않음을 나타낼 때 알림을 전송하는 사용자 정의 관리자입니다. Prometheus 알림 라우팅, 무음 처리, 집계를 관리합니다. |
loki |
StatefulSet | 시스템만 | Loki (https://grafana.com/docs/loki/latest/): 다양한 구성요소의 로그를 저장하고 모든 클러스터의 로그를 집계하는 시계열 데이터베이스입니다. |
audit-logs-loki |
StatefulSet | 시스템만 | Loki: 감사 목적으로 필요한 장기 로그를 수집하는 보조 인스턴스입니다. 모든 클러스터의 로그를 집계합니다. |
anthos-log-forwarder |
DaemonSet | 모든 클러스터 | Fluent Bit (https://docs.fluentbit.io/manual): 다양한 구성요소에서 로그를 가져와 Loki에 삽입하는 프로세서입니다. 다양한 위치에서 로그를 수집한 다음 처리하고 전달합니다. 모든 클러스터의 모든 노드에서 실행됩니다. |
anthos-audit-logs-forwarder |
DaemonSet | 모든 클러스터 | Fluent Bit: 감사 목적으로 수명이 긴 로그를 로드하는 보조 인스턴스입니다. |
audit-log-failure-detector |
DaemonSet | 모든 클러스터 | 감사 로그 수집 실패를 감지하고 보고하는 GDC 구성요소입니다. 모든 클러스터의 모든 노드에서 실행됩니다. |
logmon-operator |
배포 | 모든 클러스터 | 관측 가능성 스택 구성요소를 배포하는 GDC Logmon 연산자입니다. |
GDC는 로깅 및 모니터링을 구성하기 위해 GKE Enterprise에서 개발한 커스텀 리소스도 활용합니다. 이러한 커스텀 리소스를 사용하면 Prometheus 스크레이핑 대상 및 알림 규칙, Alertmanager 구성, Grafana 대시보드, 로그 스크레이핑 대상을 구성할 수 있습니다.