Apache Hadoop

Questo documento descrive come configurare il deployment di Google Kubernetes Engine in modo da poter utilizzare Google Cloud Managed Service per Prometheus per raccogliere le metriche da Apache Hadoop. Questo documento illustra come:

  • Configura l'esportatore per Hadoop in modo che registri le metriche.
  • Configura una risorsa PodMonitoring per Managed Service per Prometheus per raccogliere le metriche esportate.
  • Accedi a una dashboard in Cloud Monitoring per visualizzare le metriche.
  • Configura regole di avviso per monitorare le metriche.

Queste istruzioni si applicano solo se utilizzi la raccolta gestita con Managed Service per Prometheus. Se utilizzi una raccolta di cui è stato eseguito il deployment autonomo, controlla repository di codice sorgente per l'esportatore JMX per informazioni sull'installazione.

Queste istruzioni sono fornite come esempio e dovrebbero funzionare nella maggior parte degli ambienti Kubernetes. Se hai difficoltà a installare un un'applicazione o un esportatore a causa di criteri organizzativi o di sicurezza restrittivi, ti consigliamo di consultare la documentazione open source per ricevere assistenza.

Per informazioni su Hadoop, consulta Apache Hadoop.

Prerequisiti

Per raccogliere le metriche da Hadoop utilizzando Managed Service per Prometheus e la raccolta gestita, il tuo deployment deve soddisfare i seguenti requisiti:

  • Nel cluster deve essere in esecuzione la versione di Google Kubernetes Engine 1.21.4-gke.300 o versioni successive.
  • Devi eseguire Managed Service per Prometheus con la raccolta gestita abilitata. Per maggiori informazioni, consulta la guida introduttiva alla raccolta gestita.

  • Per utilizzare le dashboard disponibili in Cloud Monitoring per l'integrazione di Hadoop, devi usare jmx-exporter versione 0.17.0 o successiva.

    Per ulteriori informazioni sulle dashboard disponibili, consulta Visualizzare le dashboard.

Assicurati che i valori dei campi port e matchLabels corrispondano a quelli dei pod Hadoop che vuoi monitorare. NameNodes e DataNodes devono essere configurati in modo da accettare connessioni JMX remote. Questa configurazione può essere eseguita impostando le variabili di ambiente NAMENODE_HDFS_OPTS e DATANODE_HDFS_OPTS come descritto nella guida alla shell di Unix di Hadoop.

Installare l'esportatore Hadoop

Ti consigliamo di installare l'esportatore Hadoop, jmx-exporter, come collaterale al carico di lavoro Hadoop. Per informazioni sull'utilizzo dei sidecar, consulta Applicazioni estese su Kubernetes con pod multi-container.

Per installare jmx-exporter come file collaterale di Hadoop, la configurazione di Hadoop come mostrato in esempio:

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

+ apiVersion: v1
+ kind: ConfigMap
+ metadata:
+   name: hadoop-exporter
+ data:
+   config.yaml: |
+     hostPort: localhost:1026
+     lowercaseOutputName: true
+     lowercaseOutputLabelNames: true
---
apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: hadoop-hdfs
spec:
  serviceName: hadoop-hdfs
  selector:
    matchLabels:
+     app.kubernetes.io/name: hadoop
  template:
    metadata:
      labels:
+       app.kubernetes.io/name: hadoop
    spec:
      containers:
      - name: hadoop-hdfs
        image: "farberg/apache-hadoop:3.3.2"
+       env:
+         - name: HDFS_NAMENODE_OPTS
+           value: "-Dcom.sun.management.jmxremote=true -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.port=1026"
        command:
        - "/bin/bash"
        - "/tmp/hadoop-config/bootstrap.sh"
        - "-d"
+       ports:
+       - containerPort: 1026
+         name: jmx
+     - name: exporter
+       image: bitnami/jmx-exporter:0.17.0
+       command:
+         - java
+         - -jar
+         - jmx_prometheus_httpserver.jar
+       args:
+         - "9900"
+         - config.yaml
+       ports:
+       - containerPort: 9900
+         name: prometheus
+       volumeMounts:
+       - mountPath: /opt/bitnami/jmx-exporter/config.yaml
+         subPath: config.yaml
+         name: hadoop-exporter
+     volumes:
+     - name: hadoop-exporter
+       configMap:
+         name: hadoop-exporter
+         items:
+         - key: config.yaml
+           path: config.yaml

Devi aggiungere eventuali righe precedute dal simbolo + alla configurazione.

Queste istruzioni si basano sulle modifiche apportate a un grafico helm. I modelli possono essere scaricati e modificati. L'esempio precedente presuppone che tutto si trovi in un unico file YAML.

Per applicare le modifiche alla configurazione da un file locale, esegui il seguente comando:

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

Puoi anche utilizzare Terraform per gestire le configurazioni.

Definisci una risorsa PodMonitoring

Per il rilevamento dei target, l'operatore Managed Service per Prometheus richiede una risorsa PodMonitoring che corrisponda all'esportatore Hadoop nello stesso spazio dei nomi.

Puoi utilizzare la seguente configurazione di PodMonitoring:

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: hadoop
  labels:
    app.kubernetes.io/name: hadoop
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  endpoints:
  - port: prometheus
    scheme: http
    interval: 30s
    path: /metrics
  selector:
    matchLabels:
      app.kubernetes.io/name: hadoop

Assicurati che i selettori di etichetta e la porta corrispondano ai selettori e alla porta utilizzati in Installare l'esportatore Hadoop.

Per applicare le modifiche alla configurazione da un file locale, esegui questo comando:

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

Puoi anche utilizza Terraform per gestire le configurazioni.

Definisci regole e avvisi

Puoi utilizzare la seguente configurazione di Rules per definire sulle metriche Hadoop:

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: Rules
metadata:
  name: hadoop-rules
  labels:
    app.kubernetes.io/component: rules
    app.kubernetes.io/name: hadoop-rules
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  groups:
  - name: hadoop
    interval: 30s
    rules:
    - alert: HadoopDown
      annotations:
        description: |-
          Hadoop instance is down
            VALUE = {{ $value }}
            LABELS: {{ $labels }}
        summary: Hadoop down (instance {{ $labels.instance }})
      expr: hadoop_namenode_numdeaddatanodes > 0
      for: 5m
      labels:
        severity: critical
    - alert: HadoopLowAvailableCapacity
      annotations:
        description: |-
          Hadoop low available capacity
            VALUE = {{ $value }}
            LABELS: {{ $labels }}
        summary: Hadoop low available capacity (instance {{ $labels.instance }})
      expr: (hadoop_namenode_capacityused/hadoop_namenode_capacitytotal) > 0.8
      for: 5m
      labels:
        severity: critical
    - alert: HadoopVolumeFailure
      annotations:
        description: |-
          Hadoop volume failure
            VALUE = {{ $value }}
            LABELS: {{ $labels }}
        summary: Hadoop volume failure (instance {{ $labels.instance }})
      expr: hadoop_namenode_volumefailurestotal > 0
      for: 5m
      labels:
        severity: critical

Per applicare le modifiche alla configurazione da un file locale, esegui il seguente comando:

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

Puoi anche utilizza Terraform per gestire le configurazioni.

Per ulteriori informazioni sull'applicazione delle regole al cluster, consulta Valutazione e generazione di avvisi delle regole gestite.

Puoi regolare le soglie di avviso in base alla tua applicazione.

Verificare la configurazione

Puoi utilizzare Metrics Explorer per verificare di aver configurato correttamente Esportatore Hadoop. Potrebbero essere necessari uno o due minuti Cloud Monitoring per importare le tue metriche.

Per verificare che le metriche siano importate, segui questi passaggi:

  1. Nella console Google Cloud, vai alla pagina  Esplora metriche:

    Vai a Esplora metriche

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Nella barra degli strumenti del riquadro Query Builder, seleziona il pulsante  MQL o  PromQL.
  3. Verifica che PromQL sia selezionato nel pulsante di attivazione/disattivazione Lingua. Il pulsante di attivazione/disattivazione della lingua si trova nella stessa barra degli strumenti che consente di formattare la query.
  4. Inserisci ed esegui la seguente query:
    up{job="hadoop", cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}

Visualizza dashboard

L'integrazione di Cloud Monitoring include la dashboard Panoramica di Prometheus per Hadoop. Le dashboard vengono installate automaticamente quando configuri l'integrazione. Puoi anche visualizzare anteprime statiche delle dashboard senza installare e integrazione.

Per visualizzare una dashboard installata:

  1. Nella console Google Cloud, vai alla pagina  Dashboard:

    Vai a Dashboard

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Seleziona la scheda Elenco dashboard.
  3. Scegli la categoria Integrations (Integrazioni).
  4. Fai clic sul nome della dashboard, ad esempio Panoramica di Hadoop Prometheus.

Per visualizzare un'anteprima statica della dashboard:

  1. Nella console Google Cloud, vai alla pagina  Integrazioni:

    Vai a Integrazioni

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Fai clic sul filtro della piattaforma di deployment Kubernetes Engine.
  3. Individua l'integrazione di Apache Hadoop e fai clic su Visualizza dettagli.
  4. Seleziona la scheda Dashboard.

Risoluzione dei problemi

Per informazioni sulla risoluzione dei problemi di importazione delle metriche, consulta Problemi di raccolta dagli esportatori in Risoluzione dei problemi relativi all'importazione.