Apache Hadoop

L'integrazione di Apache Hadoop raccoglie metriche relative ai nodi nome relative all'archiviazione, come utilizzo della capacità, accessi ai file e blocchi. L'integrazione raccoglie inoltre i log di Hadoop e li analizza in un payload JSON. Il risultato include campi per origine, livello e messaggio.

Per ulteriori informazioni su Hadoop, consulta Documentazione di Apache Hadoop.

Prerequisiti

Per raccogliere la telemetria di Hadoop, devi installare l'agente operativo:

  • Per le metriche, installa la versione 2.11.0 o successive.
  • Per i log, installa la versione 2.11.0 o successive.

Questa integrazione supporta le versioni Hadoop 2.10.x, 3.2.x e 3.3.x.

Configura l'istanza Hadoop

Per esporre un endpoint JMX, devi impostare la proprietà di sistema com.sun.management.jmxremote.port quando avvii la JVM. Ti consigliamo inoltre di impostare la proprietà di sistema com.sun.management.jmxremote.rmi.port sulla stessa porta. A esporre un endpoint JMX da remoto, devi anche impostare java.rmi.server.hostname proprietà di sistema.

Per impostazione predefinita, queste proprietà vengono impostate nel file hadoop-env.sh di un deployment Hadoop.

Per impostare le proprietà di sistema utilizzando argomenti della riga di comando, anteponi la proprietà nome con -D all'avvio della JVM. Ad esempio, per impostare com.sun.management.jmxremote.port sulla porta 8004, specifica quanto segue quando avvia la JVM:

-Dcom.sun.management.jmxremote.port=8004

Configurare Ops Agent per Hadoop

Seguendo la guida alla configurazione delle operazioni Agent, aggiungi gli elementi richiesti per raccogliere dati di telemetria dalle istanze Hadoop riavvia l'agente.

Configurazione di esempio

I seguenti comandi creano la configurazione per raccogliere e importare la telemetria per Hadoop e riavviare Ops Agent.

# Configures Ops Agent to collect telemetry from the app and restart Ops Agent.

set -e

# Create a back up of the existing file so existing configurations are not lost.
sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak

# Configure the Ops Agent.
sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF
metrics:
  receivers:
    hadoop:
      type: hadoop
      endpoint: service:jmx:rmi:///jndi/rmi://127.0.0.1:8004/jmxrmi
  service:
    pipelines:
      hadoop:
        receivers:
          - hadoop
logging:
  receivers:
    hadoop:
      type: hadoop
  service:
    pipelines:
      hadoop:
        receivers:
          - hadoop
EOF

sudo service google-cloud-ops-agent restart

Configura la raccolta dei log

Per importare i log da Hadoop, devi creare un ricevitore per i log prodotto da Hadoop e quindi crea una pipeline per il nuovo ricevitore.

Per configurare un ricevitore per i log di hadoop, specifica quanto segue campi:

Campo Predefinito Descrizione
exclude_paths Un elenco di pattern di percorso del file system da escludere dal set con corrispondenza in base a include_paths.
include_paths [/opt/hadoop/logs/hadoop-*.log, /opt/hadoop/logs/yarn-*.log] Un elenco di percorsi di file system da leggere eseguendo la coda di ogni file. Nei percorsi è possibile utilizzare un carattere jolly (*).
record_log_file_path false Se impostato su true, il percorso del file specifico da cui è stato ottenuto il record del log viene visualizzato nella voce del log di output come valore dell'etichetta agent.googleapis.com/log_file_path. Quando utilizzi un carattere jolly, viene registrato solo il percorso del file da cui è stato ottenuto il record.
type Questo valore deve essere hadoop.
wildcard_refresh_interval 60s L'intervallo di aggiornamento dei percorsi dei file con caratteri jolly in include_paths. Specificato come durata, ad esempio 30s o 2m. Questa proprietà potrebbe essere utile in caso di flussi di lavoro elevati per la registrazione, in cui i file di log vengono ruotati più velocemente dell'intervallo predefinito.

Che cosa viene registrato nei log

logName deriva da gli ID destinatario specificati nella configurazione. I campi dettagliati all'interno di LogEntry sono i seguenti.

I log hadoop contengono i seguenti campi in LogEntry:

Campo Tipo Descrizione
jsonPayload.message string Messaggio di log
jsonPayload.severity string Livello di voce di log
jsonPayload.source string La classe Java di origine della voce di log
severity stringa (LogSeverity) Livello di voce del log (tradotto).

Configurazione della raccolta di metriche

Per importare le metriche da Hadoop, devi creare un ricevitore per le metriche prodotte da Hadoop e poi una pipeline per il nuovo ricevitore.

Questo ricevitore non supportare l'uso di più istanze nella configurazione, ad esempio per monitorare più endpoint. Tutte queste istanze scrivono nella stessa serie temporale, e Cloud Monitoring non ha modo di distinguerli.

Per configurare un destinatario per le metriche hadoop, specifica i seguenti campi:

Campo Predefinito Descrizione
collect_jvm_metrics true Configura il ricevitore in modo che raccolga anche le metriche JVM supportate.
collection_interval 60s Un valore di durata temporale, ad esempio 30s o 5m.
endpoint localhost:8004 L'URL del servizio JMX o l'host e la porta utilizzati per creare l'URL del servizio. Questo valore deve essere nel formato service:jmx:<protocol>:<sap> o host:port. I valori nel modulo host:port vengono utilizzati per creare un URL del servizio di service:jmx:rmi:///jndi/rmi://<host>:<port>/jmxrmi.
password La password configurata se JMX è configurato per richiedere l'autenticazione.
type Questo valore deve essere hadoop.
username Il nome utente configurato se JMX è configurato per richiedere l'autenticazione.

Che cosa viene monitorato

La tabella seguente fornisce l'elenco delle metriche raccolte da Ops Agent dall'istanza Hadoop.

Tipo di metrica
Tipo, Tipo
Risorse monitorate
Etichette
workload.googleapis.com/hadoop.name_node.block.corrupt
GAUGEINT64
gce_instance
node_name
workload.googleapis.com/hadoop.name_node.block.count
GAUGEINT64
gce_instance
node_name
workload.googleapis.com/hadoop.name_node.block.missing
GAUGEINT64
gce_instance
node_name
workload.googleapis.com/hadoop.name_node.capacity.limit
GAUGEINT64
gce_instance
node_name
workload.googleapis.com/hadoop.name_node.capacity.usage
GAUGEINT64
gce_instance
node_name
workload.googleapis.com/hadoop.name_node.data_node.count
GAUGEINT64
gce_instance
node_name
state
workload.googleapis.com/hadoop.name_node.file.load
GAUGEINT64
gce_instance
node_name
workload.googleapis.com/hadoop.name_node.volume.failed
GAUGEINT64
gce_instance
node_name

Verificare la configurazione

In questa sezione viene descritto come verificare la corretta configurazione del un ricevitore Hadoop. L'inizio della raccolta della telemetria da parte di Ops Agent potrebbe richiedere uno o due minuti.

Per verificare che i log di Hadoop vengano inviati a Cloud Logging:

  1. Nella console Google Cloud, vai alla pagina Esplora log:

    Vai a Esplora log

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Logging.

  2. Inserisci la seguente query nell'editor e poi fai clic su Esegui query:
    resource.type="gce_instance"
    log_id("hadoop")
    

Per verificare che le metriche di Hadoop vengano inviate a Cloud Monitoring, procedi nel seguente modo:

  1. Nella console Google Cloud, vai alla pagina  Esplora metriche:

    Vai a Esplora metriche

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Nella barra degli strumenti della riquadro Query Builder, seleziona il pulsante con  MQL o  PromQL.
  3. Verifica che sia selezionato MQL con l'opzione Lingua. Il pulsante di attivazione/disattivazione della lingua si trova nella stessa barra degli strumenti che consente di formattare la query.
  4. Inserisci la seguente query nell'editor e poi fai clic su Esegui query:
    fetch gce_instance
    | metric 'workload.googleapis.com/hadoop.name_node.capacity.usage'
    | every 1m
    

Visualizza dashboard

Per visualizzare le metriche di Hadoop, devi avere configurato un grafico o una dashboard. L'integrazione di Hadoop include una o più dashboard per te. Le dashboard vengono installate automaticamente dopo aver configurato l'integrazione e dopo che Ops Agent ha iniziato a raccogliere i dati delle metriche.

Puoi anche visualizzare anteprime statiche delle dashboard senza installando l'integrazione.

Per visualizzare una dashboard installata:

  1. Nella console Google Cloud, vai alla pagina  Dashboard:

    Vai a Dashboard

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Seleziona la scheda Elenco dashboard e poi scegli la categoria Integrazioni.
  3. Fai clic sul nome della dashboard che vuoi visualizzare.

Se hai configurato un'integrazione, ma la dashboard non è stata installata, controlla che l'agente operativo sia in esecuzione. Quando non c'è dati delle metriche per un grafico nella dashboard, l'installazione della dashboard non riesce. Una volta che Ops Agent inizia a raccogliere le metriche, la dashboard viene installata per te.

Per visualizzare un'anteprima statica della dashboard:

  1. Nella console Google Cloud, vai alla pagina  Integrazioni:

    Vai a Integrations (Integrazioni).

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Fai clic sul filtro della piattaforma di deployment di Compute Engine.
  3. Individua la voce relativa a Hadoop e fai clic su Visualizza dettagli.
  4. Seleziona la scheda Dashboard per visualizzare un'anteprima statica. Se sia installata, quindi puoi accedervi facendo clic Visualizza dashboard.

Per ulteriori informazioni sulle dashboard in Cloud Monitoring, consulta Dashboard e grafici.

Per ulteriori informazioni sull'utilizzo della pagina Integrazioni, consulta Gestire le integrazioni.

Installa i criteri di avviso

I criteri di avviso chiedono a Cloud Monitoring di inviarti una notifica quando si verificano condizioni specifiche. L'integrazione di Hadoop include uno o più criteri di avviso da utilizzare. Puoi visualizzare e installare questi criteri di avviso dalla pagina Integrations (Integrazioni) in Monitoraggio.

Per visualizzare le descrizioni dei criteri di avviso disponibili e procedi nel seguente modo:

  1. Nella console Google Cloud, vai alla  Integrazioni pagina:

    Vai a Integrations (Integrazioni).

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Individua la voce relativa a Hadoop e fai clic su Visualizza dettagli.
  3. Seleziona la scheda Avvisi. Questa scheda fornisce le descrizioni criteri di avviso disponibili e fornisce un'interfaccia per l'installazione che li rappresentano.
  4. Installa i criteri di avviso. I criteri di avviso richiedono per sapere dove inviare le notifiche relative a un avviso vengono attivati, quindi richiedono informazioni per l'installazione. Per installare i criteri di avviso:
    1. Nell'elenco dei criteri di avviso disponibili, seleziona quelli che vuoi installare.
    2. Nella sezione Configura notifiche, seleziona uno o più canali di notifica. Puoi scegliere di disattivare i canali di notifica, ma se lo fai, la funzione si attivano automaticamente. Puoi verificarne lo stato nella Monitoraggio, ma non riceverai notifiche.

      Per ulteriori informazioni sui canali di notifica, consulta Gestire canali di notifica.

    3. Fai clic su Crea criteri.

Per ulteriori informazioni sui criteri di avviso in Cloud Monitoring, consulta Introduzione agli avvisi.

Per ulteriori informazioni sull'utilizzo della pagina Integrazioni, consulta Gestire le integrazioni.

Passaggi successivi

Per una procedura dettagliata su come utilizzare Ansible per installare l'Ops Agent, configurare un'applicazione di terze parti e installare una dashboard di esempio, guarda il video Installa l'Ops Agent per risolvere i problemi relativi alle applicazioni di terze parti.