Diese Seite wurde von der Cloud Translation API übersetzt.

Apache Hadoop

Die Apache Hadoop-Integration erfasst Messwerte zu Namenknoten, die sich auf den Speicher beziehen, z. B. Kapazitätsauslastung, Dateizugriffe und Blöcke. Die Integration erfasst auch Hadoop-Logs und parst sie in eine JSON-Nutzlast. Das Ergebnis enthält Felder für Quelle, Ebene und Nachricht.

Weitere Informationen zu Hadoop finden Sie in der Apache Hadoop-Dokumentation.

Vorbereitung

Zum Erfassen von Hadoop-Telemetriedaten müssen Sie den Ops-Agent installieren:

Installieren Sie für Messwerte die Version 2.11.0 oder höher.
Installieren Sie für Logs die Version 2.11.0 oder höher.

Diese Integration unterstützt die Hadoop-Versionen 2.10.x, 3.2.x und 3.3.x.

Hadoop-Instanz konfigurieren

Wenn Sie einen JMX-Endpunkt verfügbar machen möchten, müssen Sie beim Starten der JVM das Systemattribut com.sun.management.jmxremote.port festlegen. Außerdem empfehlen wir, das Systemattribut com.sun.management.jmxremote.rmi.port auf denselben Port festzulegen. Wenn Sie einen JMX-Endpunkt remote verfügbar machen möchten, müssen Sie auch das Systemattribut java.rmi.server.hostname festlegen.

Standardmäßig werden diese Attribute in der Datei hadoop-env.sh einer Hadoop-Bereitstellung festgelegt.

Wenn Sie Systemattribute mithilfe von Befehlszeilenargumenten festlegen möchten, stellen Sie beim Starten der JVM dem Attributnamen -D voran. Wenn Sie beispielsweise com.sun.management.jmxremote.port auf den Port 8004 festlegen möchten, geben Sie beim Starten der JVM Folgendes an:

-Dcom.sun.management.jmxremote.port=8004

Ops-Agent für Hadoop konfigurieren

Fügen Sie die erforderlichen Elemente zum Erfassen von Telemetriedaten von den Hadoop-Instanzen gemäß der Anleitung unter Ops-Agent konfigurieren hinzu und starten Sie den Agent neu.

Konfigurationsbeispiel

Mit den folgenden Befehlen wird die Konfiguration zum Erfassen und Aufnehmen von Telemetriedaten für Hadoop erstellt:

# Configures Ops Agent to collect telemetry from the app. You must restart the agent for the configuration to take effect.

set -e

# Check if the file exists
if [ ! -f /etc/google-cloud-ops-agent/config.yaml ]; then
  # Create the file if it doesn't exist.
  sudo mkdir -p /etc/google-cloud-ops-agent
  sudo touch /etc/google-cloud-ops-agent/config.yaml
fi

# Create a back up of the existing file so existing configurations are not lost.
sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak

# Configure the Ops Agent.
sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF
metrics:
  receivers:
    hadoop:
      type: hadoop
      endpoint: service:jmx:rmi:///jndi/rmi://127.0.0.1:8004/jmxrmi
  service:
    pipelines:
      hadoop:
        receivers:
          - hadoop
logging:
  receivers:
    hadoop:
      type: hadoop
  service:
    pipelines:
      hadoop:
        receivers:
          - hadoop
EOF

Damit diese Änderungen wirksam werden, müssen Sie den Ops-Agent neu starten:

Linux

Führen Sie den folgenden Befehl auf der Instanz aus, um den Agent neu zu starten:
```
sudo systemctl restart google-cloud-ops-agent
```
Führen Sie den folgenden Befehl aus, um zu überprüfen, ob der Agent neu gestartet wurde. Prüfen Sie dann, ob die Komponenten „Metrics-Agent“ und „Logging-Agent“ gestartet wurden:
```
sudo systemctl status "google-cloud-ops-agent*"
```

Windows

Stellen Sie mithilfe von RDP oder einem ähnlichen Tool eine Verbindung zu Ihrer Instanz her und melden Sie sich bei Windows an.
Öffnen Sie ein PowerShell-Terminal mit Administratorberechtigungen. Klicken Sie dazu mit der rechten Maustaste auf das PowerShell-Symbol und wählen Sie Als Administrator ausführen aus.
Führen Sie den folgenden PowerShell-Befehl aus, um den Agent neu zu starten:
```
Restart-Service google-cloud-ops-agent -Force
```
Führen Sie den folgenden Befehl aus, um zu überprüfen, ob der Agent neu gestartet wurde. Prüfen Sie dann, ob die Komponenten „Metrics-Agent“ und „Logging-Agent“ gestartet wurden:
```
Get-Service google-cloud-ops-agent*
```

Logerfassung konfigurieren

Um Logs von Hadoop aufzunehmen, müssen Sie einen Empfänger für die von Hadoop erzeugten Logs erstellen und dann eine Pipeline für den neuen Empfänger erstellen.

Geben Sie die folgenden Felder an, um einen Empfänger für Ihre hadoop-Logs zu konfigurieren:

Feld	Standard	Beschreibung
`exclude_paths`		Eine Liste von Dateisystempfadmustern, die aus dem mit `include_paths` übereinstimmenden Satz ausgeschlossen werden sollen.
`include_paths`	`[/opt/hadoop/logs/hadoop-.log, /opt/hadoop/logs/yarn-.log]`	Eine Liste mit Dateisystempfaden, die durch Tailing jeder Datei gelesen werden sollen. In den Pfaden kann ein Platzhalter (`*`) verwendet werden.
`record_log_file_path`	`false`	Wenn `true` festgelegt ist, wird der Pfad zu der spezifischen Datei, aus der der Logdatensatz abgerufen wurde, im Ausgabelogeintrag als Wert des Labels `agent.googleapis.com/log_file_path` angezeigt. Bei Verwendung eines Platzhalters wird nur der Pfad der Datei aufgezeichnet, aus der der Eintrag abgerufen wurde.
`type`		Dieser Wert muss `hadoop` sein.
`wildcard_refresh_interval`	`60s`	Das Intervall, in dem Platzhalterdateipfade in `include_paths` aktualisiert werden. Wird als Zeitdauer angegeben, z. B. `30s` oder `2m`. Dieses Attribut kann bei hohen Logging-Durchsätzen nützlich sein, wenn Logdateien schneller als das Standardintervall rotiert werden.

Was wird protokolliert?

Der logName wird von den Empfänger-IDs abgeleitet, die in der Konfiguration angegeben sind. Detaillierte Felder in LogEntry sind:

hadoop-Logs enthalten die folgenden Felder in LogEntry:

Feld	Typ	Beschreibung
`jsonPayload.message`	String	Log-Nachricht
`jsonPayload.severity`	String	Logeintragsebene
`jsonPayload.source`	String	Die Java-Quellklasse des Logeintrags
`severity`	String (`LogSeverity`)	Ebene des Logeintrags (übersetzt).

Messwerterfassung konfigurieren

Um Messwerte von Hadoop aufzunehmen, müssen Sie einen Empfänger für die von Hadoop erzeugten Messwerte erstellen und dann eine Pipeline für den neuen Empfänger erstellen.

Dieser Empfänger unterstützt die Verwendung mehrerer Instanzen in der Konfiguration, z. B. zum Überwachen mehrerer Endpunkte, nicht. Alle diese Instanzen schreiben in dieselbe Zeitachse und Cloud Monitoring kann sie nicht unterscheiden.

Um einen Empfänger für Ihre hadoop-Messwerte zu konfigurieren, geben Sie die folgenden Felder an:

Feld	Standard	Beschreibung
`collect_jvm_metrics`	`true`	Konfiguriert den Empfänger so, dass auch die unterstützten JVM-Messwerte erfasst werden.
`collection_interval`	`60s`	Ein Wert für die Zeitdauer, z. B. `30s` oder `5m`.
`endpoint`	`localhost:8004`	Die JMX-Dienst-URL oder der Host und Port, die zum Erstellen der Dienst-URL verwendet werden. Dieser Wert muss das Format `service:jmx:<protocol>:<sap>` oder `host:port` haben. Werte im Format `host:port` werden für das Erstellen der Dienst-URL `service:jmx:rmi:///jndi/rmi://<host>:<port>/jmxrmi` verwendet.
`password`		Das konfigurierte Passwort, wenn JMX für eine erforderliche Authentifizierung konfiguriert ist.
`type`		Dieser Wert muss `hadoop` sein.
`username`		Der konfigurierte Nutzername, wenn JMX für eine erforderliche Authentifizierung konfiguriert ist.

Was wird überwacht?

Die folgende Tabelle enthält die Liste der Messwerte, die der Ops-Agent aus der Hadoop-Instanz erfasst.

Messwerttyp
Art, Typ Überwachte Ressourcen	Labels
`workload.googleapis.com/hadoop.name_node.block.corrupt`
`GAUGE`, `INT64` gce_instance	`node_name`
`workload.googleapis.com/hadoop.name_node.block.count`
`GAUGE`, `INT64` gce_instance	`node_name`
`workload.googleapis.com/hadoop.name_node.block.missing`
`GAUGE`, `INT64` gce_instance	`node_name`
`workload.googleapis.com/hadoop.name_node.capacity.limit`
`GAUGE`, `INT64` gce_instance	`node_name`
`workload.googleapis.com/hadoop.name_node.capacity.usage`
`GAUGE`, `INT64` gce_instance	`node_name`
`workload.googleapis.com/hadoop.name_node.data_node.count`
`GAUGE`, `INT64` gce_instance	`node_name` `state`
`workload.googleapis.com/hadoop.name_node.file.load`
`GAUGE`, `INT64` gce_instance	`node_name`
`workload.googleapis.com/hadoop.name_node.volume.failed`
`GAUGE`, `INT64` gce_instance	`node_name`

Konfiguration prüfen

In diesem Abschnitt wird beschrieben, wie Sie prüfen können, ob Sie den Hadoop-Empfänger richtig konfiguriert haben. Es kann ein oder zwei Minuten dauern, bis der Ops-Agent Telemetriedaten erfasst.

So prüfen Sie, ob Hadoop-Logs an Cloud Logging gesendet werden:

Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf:
Zum Log-Explorer

Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Logging ist.
Geben Sie im Editor die folgende Abfrage ein und klicken Sie dann auf Abfrage ausführen:
```
resource.type="gce_instance"
log_id("hadoop")
```

So prüfen Sie, ob Hadoop-Messwerte an Cloud Monitoring gesendet werden:

Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf:
Zum Metrics Explorer

Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
Klicken Sie in der Symbolleiste des Bereichs "Query Builder" auf die Schaltfläche MQL oder PromQL.
Prüfen Sie, ob PromQL in der Ein-/Aus-Schaltfläche PromQL ausgewählt ist. Die Sprachschaltfläche befindet sich in derselben Symbolleiste, mit der Sie Ihre Abfrage formatieren können.

Geben Sie im Editor die folgende Abfrage ein und klicken Sie dann auf Abfrage ausführen:

{"workload.googleapis.com/hadoop.name_node.capacity.usage", monitored_resource="gce_instance"}

Dashboard aufrufen

Damit Sie Ihre Hadoop-Messwerte aufrufen können, müssen Sie ein Diagramm oder ein Dashboard konfiguriert haben. Die Hadoop-Einbindung enthält ein oder mehrere Dashboards. Alle Dashboards werden automatisch installiert, nachdem Sie die Integration konfiguriert haben und der Ops-Agent mit dem Erfassen von Messwertdaten begonnen hat.

Sie können auch eine statische Vorschau von Dashboards aufrufen, ohne die Integration zu installieren.

So rufen Sie ein installiertes Dashboard auf:

Öffnen Sie in der Google Cloud Console die Seite Dashboards :
Dashboards aufrufen

Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
Wählen Sie den Tab Dashboard-Liste und dann die Kategorie Integrationen aus.
Wählen Sie den Namen des Dashboards aus, das Sie aufrufen möchten.

Wenn Sie eine Integration konfiguriert haben, das Dashboard jedoch nicht installiert ist, prüfen Sie, ob der Ops-Agent ausgeführt wird. Wenn im Dashboard keine Messwertdaten für ein Diagramm vorhanden sind, schlägt die Installation des Dashboards fehl. Nachdem der Ops-Agent mit dem Erfassen von Messwerten begonnen hat, wird das Dashboard für Sie installiert.

So rufen Sie eine statische Vorschau des Dashboards auf:

Rufen Sie in der Google Cloud Console die Seite Einbindungen auf:
Zu „Integrationen“

Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
Klicken Sie auf den Filter für die Deployment-Plattform Compute Engine.
Suchen Sie den Eintrag für Hadoop und klicken Sie auf Details ansehen.
Wählen Sie den Tab Dashboards aus, um eine statische Vorschau aufzurufen. Wenn das Dashboard installiert ist, können Sie es aufrufen. Klicken Sie dazu auf Dashboard aufrufen.

Weitere Informationen zu Dashboards in Cloud Monitoring finden Sie unter Dashboards und Diagramme.

Weitere Informationen zur Verwendung der Seite Integrationen finden Sie unter Integrationen verwalten.

Benachrichtigungsrichtlinien installieren

Durch Benachrichtigungsrichtlinien wird Cloud Monitoring angewiesen, Sie zu benachrichtigen, wenn bestimmte Bedingungen auftreten. Die Hadoop-Integration enthält eine oder mehrere Benachrichtigungsrichtlinien, die Sie verwenden können. Sie können diese Benachrichtigungsrichtlinien auf der Seite Integrationen in Monitoring aufrufen und installieren.

So zeigen Sie die Beschreibungen der verfügbaren Benachrichtigungsrichtlinien an und installieren sie:

Rufen Sie in der Google Cloud Console die Seite Einbindungen auf:
Zu „Integrationen“

Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
Suchen Sie den Eintrag für Hadoop und klicken Sie auf Details ansehen.
Wählen Sie den Tab Benachrichtigungen aus. Dieser Tab enthält Beschreibungen der verfügbaren Benachrichtigungsrichtlinien und eine Oberfläche für deren Installation.
Installieren Sie Benachrichtigungsrichtlinien. Benachrichtigungsrichtlinien müssen wissen, wohin Benachrichtigungen gesendet werden sollen, dass die Benachrichtigung ausgelöst wurde. Daher benötigen sie Informationen von Ihnen für die Installation. So installieren Sie Benachrichtigungsrichtlinien:
1. Wählen Sie aus der Liste der verfügbaren Benachrichtigungsrichtlinien die Richtlinien aus, die Sie installieren möchten.
2. Wählen Sie im Abschnitt Benachrichtigungen konfigurieren einen oder mehrere Benachrichtigungskanäle aus. Sie haben die Möglichkeit, die Verwendung von Benachrichtigungskanälen zu deaktivieren. In diesem Fall werden Ihre Benachrichtigungsrichtlinien jedoch automatisch ausgelöst. Sie können ihren Status in Monitoring prüfen, aber Sie erhalten keine Benachrichtigungen.
  
  Weitere Informationen zu Benachrichtigungskanälen finden Sie unter Benachrichtigungskanäle verwalten.
3. Klicken Sie auf Richtlinien erstellen.

Weitere Informationen zu Benachrichtigungsrichtlinien in Cloud Monitoring finden Sie unter Einführung in Benachrichtigungen.