Diese Seite wurde von der Cloud Translation API übersetzt.

Richtlinien für das Cluster-Monitoring

Übersicht

In diesem Leitfaden finden Sie Richtlinien zum Monitoring einer Apigee Hybrid-Bereitstellung. Es richtet sich an Hybrid-Cluster-Administratoren und Organisationsadministratoren.

Wenn Sie mit Google Cloud Monitoring nicht vertraut sind, lesen Sie die Google Cloud Monitoring-Dokumentation für Diagramme mit dem Metrics Explorer erstellen und Funktionsweise von Benachrichtigungen.

Apigee Hybrid-Cluster bieten SLI-Messwerte (Service Level Indicator), mit denen Sie die Leistung von Anwendungs- und Systemdiensten zu einem bestimmten Zeitpunkt nachvollziehen können. Eine vollständige Liste der verfügbaren Messwerte finden Sie hier.

Google Cloud Monitoring verwendet Ressourcentyp, um jeden SLI-Messwert zu identifizieren. Für alle Apigee Hybrid-Messwerte werden drei gängige Ressourcentypen verwendet.

k8s_container für Messwerte auf Systemebene.
Proxy für Apigee API-Proxy-Messwerte.
Target für Apigee API-Zielmesswerte

Die Ressourcentypen haben allgemeine Labels, die für alle zugehörigen Messwerte gelten. Zusätzlich zu den Messwertlabels stehen beispielsweise für alle Messwerte mit dem Ressourcentyp k8s_container die Labels cluster_name, pod_name und container_name zur Verfügung. Eine Kombination aus Ressourcentyplabels und Messwertlabels sollte verwendet werden, um den Zustand und die Leistung des Clusters effektiv zu überwachen.

Benachrichtigungsgrenzwert: Optimal wäre es, wenn Grenzwerte für Benachrichtigungen offensichtlich wären und die bereitgestellte Dokumentation die Werte auflisten würde, die Benachrichtigungen auslösen sollen. Tatsächlich ist es für Apigee jedoch weniger offensichtlich zu definieren, was akzeptable Leistung und was eine gefährliche Ressourcennutzung von Diensten und Infrastrukturen ist. Die Grenzwerte für Benachrichtigungen können abhängig von bestimmten Trafficmustern und SLO/SLA-Vereinbarungen stark variieren.

Eine Optimierung und Bestimmung des Grenzwerts für Benachrichtigungen ist ein fortlaufender Prozess, der sich mit der Dienst- und Infrastrukturnutzung ändern kann. Verwenden Sie die Grenzwerte „Warnung“ und „Kritisch“ für Benachrichtigungen.

Fehlerfrei: Der Wert liegt unter dem Grenzwert „Warnung“.
Bedenklich: Der Wert liegt über dem Grenzwert „Warnung“, aber unter dem Grenzwert „Kritisch“.
Kritisch: Der Wert liegt über dem Grenzwert „Kritisch“.

Kunden sollten die bereitgestellten Tools verwenden, um den optimalen Schwellenwert zu ermitteln. Dazu können sie entweder die Cloud Monitoring-Dashboards nutzen, die sie mit dem unten angegebenen PromQL erstellen können, oder die Analysen von Apigee. So können sie ermitteln, was „normal“ ist, und die Benachrichtigungsschwellenwerte entsprechend anpassen.

Das Monitoring von Hybrid-Clustern kann in vier verschiedene allgemeine Gruppen unterteilt werden, z. B. Traffic, Datenbank, Apigee-Steuerungsebene und Infrastruktur. Diese Gruppen werden in den folgenden Abschnitten ausführlich beschrieben:

Traffic

Die Apigee-Proxy- und Ziel-SLI-Messwerte geben die Anzahl der Anfragen/Antworten und Latenzen für den API-Proxy und Ziele an. Der SLI-Messwert für die Apigee-Richtlinienlatenz zeigt Richtlinienantwortlatenzen. Diese SLI-Messwerte ermöglichen ein umfassendes Monitoring des Apigee API-Traffics.

Anfragerate

Anzahl der Proxyanfragen

Anwendungsfall: Verwenden Sie proxy/request_count, um die Anzahl der Proxyanfragen zu überwachen. Das Diagramm proxy/request_count zeigt die Anfragerate für Proxys an. Dieses Diagramm ist nützlich, um zu ermitteln, welcher Proxy eine höhere Anfragerate, Muster für die Anfragerate und ungewöhnliche Anstiege bei den Anfrageaufrufen für einen bestimmten Proxy empfängt. Jeder unerwartete ungewöhnliche Anstieg des API-Traffics kann ein Sicherheitsproblem bei einem Bot oder ein Angriff auf API-Proxys sein. Ein bedeutender Rückgang der allgemeinen Traffic-Cloud weist auf Probleme mit Clients oder der Konnektivität von Upstream-Komponenten von Apigee hin.

Ressourcentypen	Proxy
Messwert	proxy/request_count
Gruppieren nach	method und alle Proxy-Ressourcentyplabels
Aggregator	Summe
Hinweis zur Benachrichtigung	Ereignisse wie Benachrichtigungen zu einem ungewöhnlichen request_count-Anstieg/Rückgang
Benachrichtigungsgrenzwert	Keine
PromQL-Abfrage des Cloud Monitoring-Dashboards: sum by (method) ( rate({"apigee.googleapis.com/proxy/request_count", monitored_resource="apigee.googleapis.com/Proxy"}[1m]) )

Anzahl der Zielanfragen

Anwendungsfall: Verwenden Sie den Wert für target/request_count, um die Anzahl der Apigee-Laufzeitzielanfragen zu überwachen. Das Diagramm „target/request_count“ zeigt die vom Apigee-Ziel empfangene Anfragerate an. Dieses Diagramm kann nützlich sein, um zu sehen, welches Ziel eine höhere Anfragerate, ein Muster der Anfragerate und einen ungewöhnlichen Anstieg der Anfrageaufrufe für ein bestimmtes Ziel erhält.

Ressourcentypen	Ziel-
Messwert	target/request_count
Gruppieren nach	method und alle Ziel-Ressourcentyplabels
Aggregator	Summe
Hinweis zur Benachrichtigung	Ereignisse wie Benachrichtigungen zu einem ungewöhnlichen request_count-Anstieg/Rückgang
Benachrichtigungsgrenzwert	Keine
PromQL-Abfrage des Cloud Monitoring-Dashboards: sum by (method, type, endpoint) ( rate({"apigee.googleapis.com/target/request_count", monitored_resource="apigee.googleapis.com/Target"}[1m]) )

Fehlerrate

Anzahl der Proxy-Fehlerantworten

Anwendungsfall: Verwenden Sie proxy/response_count, um die Antwortrate des Proxys zu überwachen. Das Diagramm proxy/response_count zeigt die Anfragerate für den API-Proxy an. Dieses Diagramm ist hilfreich, um nachzuvollziehen, welcher Proxy eine höhere Anfragefehlerrate oder einen ungewöhnlichen Anstieg bei Anfrageaufrufen für einen bestimmten Proxy erhält.

Ressourcentypen	Proxy
Messwert	proxy/response_count
Filtern nach	`response_code != 200`
Gruppieren nach	method, `response_code`, `fault_code`, `fault_source`, `apigee_fault`, und alle Proxy- Ressourcentyplabels
Aggregator	Summe
Hinweis zur Benachrichtigung	Das Verhältnis der Proxy-Antwortfehler: Gesamtzahl der Antwortfehler ÷ Gesamtzahl der Antworten. Gesamtzahl der Antwortfehler = Summe von proxy/response_count mit Filter-response_code != 200 Gesamtzahl der Antworten = Summe von proxy/response_count
Benachrichtigungsgrenzwert	Hängt vom SLO für die Installation ab. Produktions- und Nicht-Produktionsinstallationen können unterschiedliche Grenzwerte haben. Beispiel: Lösen Sie für die Produktion eine Ereignisbenachrichtigung aus, wenn das 500-Fehlerverhältnis der Proxy-Antwort 5 Minuten lang 5 % beträgt.
PromQL-Abfrage des Cloud Monitoring-Dashboards: sum by (method, response_code, fault_code, fault_source, apigee_fault) ( rate({"apigee.googleapis.com/proxy/response_count", monitored_resource="apigee.googleapis.com/Proxy", response_code!="200"}[1m]) )
Beispiel für eine PromQL-Benachrichtigungsrichtlinie für Google Cloud-Vorgänge: 100 * ( sum by (method, org, apigee_fault, location, resource_container, env, proxy_name, fault_code, fault_source) ({"apigee.googleapis.com/proxy/response_count", monitored_resource="apigee.googleapis.com/Proxy", response_code="500"}) / sum by (method, org, apigee_fault, location, resource_container, env, proxy_name, fault_code, fault_source) ({"apigee.googleapis.com/proxy/response_count", monitored_resource="apigee.googleapis.com/Proxy"}) ) > 5

Anzahl der Zielfehlerantworten

Anwendungsfall: Verwenden Sie den target/response_count, um die Fehlerantwortrate des API-Ziels zu überwachen. Das Diagramm „target/response_count“ zeigt die Anfragerate vom API-Ziel an. Dieses Diagramm kann nützlich sein, um zu ermitteln, welches Ziel eine höhere Anfragerate oder ungewöhnliche Fehlerspitzen bei Anfrageaufrufen aufweist.

Ressourcentypen	Ziel-
Messwert	target/response_count
Filtern nach	`response_code != 200`
Gruppieren nach	method und alle Ziel-Ressourcentyplabels
Aggregator	Summe
Hinweis zur Benachrichtigung	Das Verhältnis der Proxy-Antwortfehler, z. B. Gesamtzahl der Antwortfehler / Gesamtzahl der Antworten. Gesamtzahl der Antwortfehler = Summe von target/response_count mit Filter-response_code != 200 Gesamtzahl der Antworten = Summe von target/response_count
Benachrichtigungsgrenzwert	Hängt vom SLO für die Installation ab. Beispiel: Lösen Sie für die Produktion eine Ereignisbenachrichtigung aus, wenn das Zielantwortverhältnis 3 Minuten lang 5 % beträgt.
PromQL-Abfrage des Cloud Monitoring-Dashboards: sum by (method, type, endpoint, response_code) ( rate({"apigee.googleapis.com/target/response_count", monitored_resource="apigee.googleapis.com/Target", response_code!="200"}[1m]) )

Latenzen

Proxylatenzen

Anwendungsfall: Verwenden Sie proxy/latencies, um die Latenzen aller API-Proxy-Antworten auf eine Anfrage zu überwachen. Das Diagramm „proxy/latencies“ kann nützlich sein, um die Latenz im Apigee API-Proxy zur Gesamtlatenz der API-Proxy-Anfrage zu ermitteln.

Ressourcentypen	Proxy
Messwert	proxy/latencies
Gruppieren nach	method und alle Proxy-Ressourcentyplabels
Aggregator	p99 (99. Perzentil)
Hinweis zur Benachrichtigung	Hoher Wert von p99 latency_percentile.
Benachrichtigungsgrenzwert	Hängt vom SLO für die Installation ab. Beispiel: Lösen Sie für die Produktion eine Ereignisbenachrichtigung aus, wenn der Wert des p99-Latenzperzentils des Proxys 5 Minuten lang 5 Sekunden beträgt.
PromQL-Abfrage des Cloud Monitoring-Dashboards: histogram_quantile( 0.99, sum by (le, method) ( rate({"apigee.googleapis.com/proxy/latencies/bucket", monitored_resource="apigee.googleapis.com/Proxy"}[1m]) ) )

Ziellatenzen

Anwendungsfall: Verwenden Sie target/latencies, um die Latenzen aller API-Proxy-Zielantworten auf eine Anfrage zu überwachen. Das Diagramm „target/latencies“ gibt die Gesamtzeit an, in der das Ziel des Apigee API-Proxys auf eine Anfrage antworten kann. Dieser Wert umfasst nicht den Apigee-API-Proxy-Overhead.

Ressourcentypen	Ziel-
Messwert	target/latencies
Gruppieren nach	method, Perzentil und alle Ziel-Ressourcentyplabels
Aggregator	p99 (99. Perzentil)
Hinweis zur Benachrichtigung	Hoher Wert von p99 latency_percentile.
Benachrichtigungsgrenzwert	Hängt vom SLO für die Installation ab. Beispiel: Lösen Sie für die Produktion eine Ereignisbenachrichtigung aus, wenn der Wert des p99-Latenzperzentils für das Ziel 5 Minuten lang 5 Sekunden beträgt.
PromQL-Abfrage des Cloud Monitoring-Dashboards: histogram_quantile( 0.99, sum by (le, method) ( rate({"apigee.googleapis.com/target/latencies/bucket", monitored_resource="apigee.googleapis.com/Target"}[1m]) ) )

Datenbank

Cassandra

Der Apigee Cassandra-Datenbankdienst hat mehrere Cassandra-SLI-Messwerte. Diese SLI-Messwerte können ein umfassendes Monitoring für den Apigee Cassandra-Dienst ermöglichen. Zusammen mit der Cassandra-Ressourcennutzung (CPU, Speicher und Festplatten-Volume) sollte mindestens die Latenz der Lese- und Schreibanfragen des Clients auf den Zustand des Cassandra-Dienstes überwacht werden.

Cassandra-Leseanfragerate

Anwendungsfall: Die cassandra/clientrequest_rate (mit scope=Read) Der SLI-Messwert bietet Einblicke in die durchschnittliche Leseanfragerate der Cassandra-Dienste zu einem bestimmten Zeitpunkt. Dieser Messwert hilft Ihnen, die Trends der Leseaktivität von Clients zu verstehen.

Ressourcentypen	k8s_container
Messwert	cassandra/clientrequest_rate
Filtern nach	`scope = Read` und `unit = OneMinuteRate`
Gruppieren nach	scope, unit und alle k8s_container-Ressourcentyplabels
Aggregator	Summe
Hinweis zur Benachrichtigung	Bei potenziellen Problemen oder erheblichen Änderungen bei Anfragemustern der Clients; z. B. ein plötzlicher unerwarteter Anstieg oder Rückgang der Leseanfragerate.
Benachrichtigungsgrenzwert	Keine
PromQL-Abfrage des Cloud Monitoring-Dashboards: sum by (scope, unit) ( avg_over_time({"apigee.googleapis.com/cassandra/clientrequest_latency", monitored_resource="k8s_container", scope="Read", unit="OneMinuteRate" }[1m]) )

Cassandra-Schreibanfragerate

Anwendungsfall: Der SLI-Messwert cassandra/clientrequest_rate (mit scope=Write) gibt Einblicke in die durchschnittliche Schreibanfragerate für Cassandra-Dienste zu einem bestimmten Zeitpunkt. Dieser Messwert hilft Ihnen, die Trends der Schreibanfrageaktivität von Clients zu verstehen.

Ressourcentypen	k8s_container
Messwert	cassandra/clientrequest_rate
Filtern nach	`scope = Read` und `unit = OneMinuteRate`
Gruppieren nach	scope, unit und alle k8s_container-Ressourcentyplabels
Aggregator	Summe
Hinweis zur Benachrichtigung	Bei potenziellen Problemen oder erheblichen Änderungen bei Abfragemustern von Clients; z. B. plötzliche unerwartete Anstiege oder Rückgänge bei Schreibanfragen, die untersucht werden sollten.
Benachrichtigungsgrenzwert	Keine
PromQL-Abfrage des Cloud Monitoring-Dashboards: sum by (scope, unit) ( avg_over_time({"apigee.googleapis.com/cassandra/clientrequest_latency", monitored_resource="k8s_container", scope="Write", unit="OneMinuteRate" }[1m]) )

Cassandra-Leseanfragelatenz

Anwendungsfall: Der SLI-Messwert cassandra/clientrequest_latency (mit scope=Read) bietet eine Latenz der Cassandra-Dienste für Leseanfragen (bei 99. Perzentil, 95. Perzentil oder 75. Perzentil). Diese Messwerte helfen bei der Gesamtansicht der Cassandra-Leistung und können auf Änderungen der Nutzungsmuster oder ein Problem hinweisen, das sich im Laufe der Zeit zeigt.

Ressourcentypen	k8s_container
Messwert	cassandra/clientrequest_latency
Filtern nach	`scope = Read` und `unit = 99thPercentile`
Gruppieren nach	scope, unit und alle k8s_container-Ressourcentyplabels
Aggregator	Summe
Hinweis zur Benachrichtigung	Wenn der Latenz-SLI für Leseanfragen konsistent eine kontinuierlich ansteigende Latenz des 99. Perzentils zeigt.
Benachrichtigungsgrenzwert	Hängt von Ihrem SLO für Cassandra-Dienste ab. Beispiel: Lösen Sie in der Produktion eine Ereignisbenachrichtigung aus, wenn der Lesewert clientrequest_latency des 99. Perzentils 3 Minuten lang 5 Sekunden beträgt.
PromQL-Abfrage des Cloud Monitoring-Dashboards: sum by (scope, unit) ( avg_over_time({"apigee.googleapis.com/cassandra/clientrequest_latency", monitored_resource="k8s_container", scope="Read", unit="99thPercentile" }[1m]) )

Cassandra-Schreibanfragelatenz

Anwendungsfall: Der SLI-Messwert cassandra/clientrequest_latency (mit scope=write) zeigt die Schreibanfragelatenz der Cassandra-Dienste (bei 99. Perzentil, 95. Perzentil oder 75. Perzentil). Diese Messwerte helfen bei der Gesamtansicht der Cassandra-Leistung und können auf Änderungen der Nutzungsmuster oder ein Problem hinweisen, das sich im Laufe der Zeit zeigt.

Ressourcentypen	k8s_container
Messwert	cassandra/clientrequest_latency
Filtern nach	`scope = Write` und `unit = 99thPercentile`
Gruppieren nach	scope, unit und alle k8s_container-Ressourcentyplabels
Aggregator	Summe
Hinweis zur Benachrichtigung	Wenn der Latenz-SLI für Schreibanfragen konsistent eine kontinuierlich ansteigende Latenz des 99. Perzentils zeigt.
Benachrichtigungsgrenzwert	Hängt von Ihrem SLO für Cassandra-Dienste ab. Beispiel: Lösen Sie in der Produktion eine Ereignisbenachrichtigung aus, wenn der Schreibwert clientrequest_latency des 99. Perzentils 3 Minuten lang 5 Sekunden beträgt.
PromQL-Abfrage des Cloud Monitoring-Dashboards: sum by (scope, unit) ( avg_over_time({"apigee.googleapis.com/cassandra/clientrequest_latency", monitored_resource="k8s_container", scope="Write", unit="99thPercentile" }[1m]) )

Apigee-Steuerungsebene

Die SLI-Messwerte des Apigee Synchronizer-Dienstes zeigen die Anzahl der Anfragen und Antworten zwischen der Apigee-Steuerungsebene und der Hybrid-Laufzeitebene. Synchronizer-Instanzen, die in der Laufzeitebene ausgeführt werden, sollten regelmäßig die Steuerungsebene abfragen, die Verträge herunterladen und diese den lokalen Laufzeitinstanzen zur Verfügung stellen.

Anfragerate

Anzahl der Upstream-Anfragen

Anwendungsfall: Die upstream/request_count-Messwerte geben die Anzahl der Anfragen an, die vom Synchronizer-Dienst an die Apigee-Steuerungsebene gesendet wurden.

Ressourcentypen	k8s_container
Messwert	upstream/request_count
Filtern nach	`container_name = apigee-synchronizer` und `type = CONTRACT`
Gruppieren nach	method, type, container_name und alle k8s_container-Ressourcentyplabels
Aggregator	Summe
Hinweis zur Benachrichtigung	Verwenden Sie dies bei Trafficanomalien wie einen ungewöhnlichenrequest_count-Anstieg/Rückgang.
Benachrichtigungsgrenzwert	Keine
PromQL-Abfrage des Cloud Monitoring-Dashboards: sum by (method, type, container_name) ( rate({"apigee.googleapis.com/upstream/request_count", monitored_resource="k8s_container", container_name="apigee-synchronizer", type="CONTRACT" }[1m]) )

Fehlerrate

Anzahl der Upstream-Antworten

Anwendungsfall: Der SLI-Messwert upstream/response_count gibt die Anzahl der Antworten an, die die Synchronizer-Dienste von der Apigee-Steuerungsebene erhalten haben. Dieses Diagramm kann nützlich sein, um Verbindungs- oder Konfigurationsprobleme zwischen der Apigee Hybrid-Laufzeitebene und der Steuerungsebene zu identifizieren.

Ressourcentypen	k8s_container
Messwert	upstream/request_count
Filtern nach	method, response_type, container_name und alle k8s_container-Ressourcentyplabels
Gruppieren nach
Aggregator	Summe
Hinweis zur Benachrichtigung	Bei Fehlern in upstream/response_count-Messwerten mit Nicht-200-Antwortcodes, die von der Apigee-Steuerungsebene zurückgegeben werden, sind weitere Untersuchungen dieser Fehler erforderlich.
Benachrichtigungsgrenzwert	Hängt von Ihrem SLO für Cassandra-Dienste ab. Beispiel: Lösen Sie in der Produktion eine Ereignisbenachrichtigung aus, wenn in Synchronizer alle drei Minuten ein response_code-Fehler auftritt.
PromQL-Abfrage des Cloud Monitoring-Dashboards: sum by (method, response_code, type, container_name) ( rate({"apigee.googleapis.com/upstream/response_count", monitored_resource="k8s_container", container_name="apigee-synchronizer", response_code!="200" type="CONTRACT" }[1m]) )

Infrastruktur

GKE und andere Kubernetes-Plattformen bieten SLI-Messwerte auf Systemebene. Die SLI-Messwertlabels können gefiltert und gruppiert werden, um einen bestimmten Container und seine Ressourcennutzung zu überwachen. Zum Monitoring des Zustands und der Verfügbarkeit der Infrastruktur von Apigee-Laufzeitclustern kann ein Clusteradministrator die gemeinsame Ressourcennutzung von Containern und Pods wie CPU, Speicher, Laufwerk und Anzahl der Containerneustarts überwachen. Weitere Informationen zu verfügbaren Messwerten und Labels finden Sie in der GKE-Dokumentation.

In der folgenden Tabelle sind einige Dienste und Container aufgeführt, die Sie für die einzelnen Dienste überwachen können.

Dienstname	Containername
Cassandra	`apigee-cassandra`
Message Processor (MP)	`apigee-runtime`
Synchronizer	`apigee-synchronizer`
Telemetrie	`apigee-prometheus-app` `apigee-prometheus-proxy` `apigee-prometheus-agg` `apigee-stackdriver-exporter`

Container/Pods

Anzahl der Neustarts

Anwendungsfall: Der System-SLI-Messwert kubernetes.io/container/restart_count gibt an, wie oft ein Container neu gestartet wurde. Dieses Diagramm kann hilfreich sein, um zu ermitteln, ob ein Container häufig abstürzt/neu startet. Der spezifische Dienstcontainer kann nach Messwertlabels für das Container-Monitoring eines bestimmten Dienstes herausgefiltert werden.

Im Folgenden wird der Messwert kubernetes.io/container/restart_count für den Cassandra-Container verwendet. Sie können diesen Messwert für jeden Container in der obigen Tabelle verwenden.

Ressourcentypen	k8s_container
Messwert	kubernetes.io/container/restart_count
Filtern nach	`namespace_name = apigee` und `container_name =~ .cassandra.`
Gruppieren nach	cluster_name, namespace_name, pod_name, container_name und alle k8s_container-Ressourcentyplabels
Aggregator	Summe
Hinweis zur Benachrichtigung	Wenn ein Container häufig neu gestartet wird, ist eine weitere Untersuchung der Ursache erforderlich. Es gibt mehrere Gründe für einen Neustart eines Containers, z. B. `OOMKilled`, das Datenlaufwerk ist voll und Konfigurationsprobleme.
Benachrichtigungsgrenzwert	Hängt vom SLO für die Installation ab. Beispiel: Lösen Sie für die Produktion eine Ereignisbenachrichtigung aus, wenn ein Container innerhalb von 30 Minuten mehr als fünfmal neu gestartet wird.
PromQL-Abfrage des Cloud Monitoring-Dashboards: sum by (cluster_name, namespace_name, pod_name, container_name) ( rate({"kubernetes.io/container/restart_count", monitored_resource="k8s_container", container_name=~".cassandra.", namespace_name="apigee" }[1m]) )

Richtlinien für das Cluster-Monitoring Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Übersicht

Traffic

Anfragerate

Fehlerrate

Latenzen

Datenbank

Cassandra

Apigee-Steuerungsebene

Anfragerate

Fehlerrate

Infrastruktur

Container/Pods

Richtlinien für das Cluster-Monitoring