Esta página se ha traducido con Cloud Translation API.

Apache Hadoop

La integración de Apache Hadoop recoge métricas de nodos de nombres relacionadas con el almacenamiento, como la utilización de la capacidad, los accesos a archivos y los bloques. La integración también recoge registros de Hadoop y los analiza para convertirlos en una carga útil de JSON. El resultado incluye campos para la fuente, el nivel y el mensaje.

Para obtener más información sobre Hadoop, consulta la documentación de Apache Hadoop.

Requisitos previos

Para recoger la telemetría de Hadoop, debes instalar el agente de operaciones:

Para las métricas, instala la versión 2.11.0 o una posterior.
Para los registros, instala la versión 2.11.0 o una posterior.

Esta integración es compatible con las versiones 2.10.x, 3.2.x y 3.3.x de Hadoop.

Configurar la instancia de Hadoop

Para exponer un endpoint JMX, debes definir la propiedad del sistema com.sun.management.jmxremote.port al iniciar la JVM. También recomendamos asignar el mismo puerto a la propiedad del sistema com.sun.management.jmxremote.rmi.port. Para exponer un endpoint JMX de forma remota, también debe definir la propiedad del sistema java.rmi.server.hostname.

De forma predeterminada, estas propiedades se definen en el archivo hadoop-env.sh de una implementación de Hadoop.

Para definir las propiedades del sistema mediante argumentos de línea de comandos, añade el prefijo -D al nombre de la propiedad al iniciar la JVM. Por ejemplo, para asignar el valor com.sun.management.jmxremote.port al puerto 8004, especifica lo siguiente al iniciar la JVM:

-Dcom.sun.management.jmxremote.port=8004

Configurar el agente de operaciones para Hadoop

Sigue la guía para configurar el agente de operaciones, añade los elementos necesarios para recoger telemetría de las instancias de Hadoop y reinicia el agente.

Configuración de ejemplo

Los siguientes comandos crean la configuración para recoger e ingerir telemetría de Hadoop:

# Configures Ops Agent to collect telemetry from the app. You must restart the agent for the configuration to take effect.

set -e

# Check if the file exists
if [ ! -f /etc/google-cloud-ops-agent/config.yaml ]; then
  # Create the file if it doesn't exist.
  sudo mkdir -p /etc/google-cloud-ops-agent
  sudo touch /etc/google-cloud-ops-agent/config.yaml
fi

# Create a back up of the existing file so existing configurations are not lost.
sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak

# Configure the Ops Agent.
sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF
metrics:
  receivers:
    hadoop:
      type: hadoop
      endpoint: service:jmx:rmi:///jndi/rmi://127.0.0.1:8004/jmxrmi
  service:
    pipelines:
      hadoop:
        receivers:
          - hadoop
logging:
  receivers:
    hadoop:
      type: hadoop
  service:
    pipelines:
      hadoop:
        receivers:
          - hadoop
EOF

Para que estos cambios se apliquen, debes reiniciar el agente de Ops:

Linux

Para reiniciar el agente, ejecuta el siguiente comando en tu instancia:
```
sudo systemctl restart google-cloud-ops-agent
```
Para confirmar que el agente se ha reiniciado, ejecuta el siguiente comando y verifica que los componentes "Metrics Agent" y "Logging Agent" se han iniciado:
```
sudo systemctl status "google-cloud-ops-agent*"
```

Windows

Conéctate a tu instancia mediante RDP o una herramienta similar e inicia sesión en Windows.
Abre un terminal de PowerShell con privilegios de administrador haciendo clic con el botón derecho en el icono de PowerShell y seleccionando Ejecutar como administrador.
Para reiniciar el agente, ejecuta el siguiente comando de PowerShell:
```
Restart-Service google-cloud-ops-agent -Force
```
Para confirmar que el agente se ha reiniciado, ejecuta el siguiente comando y verifica que los componentes "Metrics Agent" y "Logging Agent" se han iniciado:
```
Get-Service google-cloud-ops-agent*
```

Configurar la recogida de registros

Para ingerir registros de Hadoop, debe crear un receptor para los registros que genera Hadoop y, a continuación, crear una canalización para el nuevo receptor.

Para configurar un receptor de tus registros hadoop, especifica los siguientes campos:

Campo	Predeterminado	Descripción
`exclude_paths`		Lista de patrones de rutas del sistema de archivos que se excluirán del conjunto que coincida con `include_paths`.
`include_paths`	`[/opt/hadoop/logs/hadoop-.log, /opt/hadoop/logs/yarn-.log]`	Lista de rutas del sistema de archivos que se van a leer siguiendo cada archivo. Se puede usar un comodín (`*`) en las rutas.
`record_log_file_path`	`false`	Si se asigna el valor `true`, la ruta al archivo específico del que se ha obtenido el registro de log aparece en la entrada de log de salida como valor de la etiqueta `agent.googleapis.com/log_file_path`. Cuando se usa un comodín, solo se registra la ruta del archivo del que se ha obtenido el registro.
`type`		Este valor debe ser `hadoop`.
`wildcard_refresh_interval`	`60s`	Intervalo en el que se actualizan las rutas de archivos con comodines en `include_paths`. Se indica como duración; por ejemplo, `30s` o `2m`. Esta propiedad puede ser útil cuando el volumen de registros es alto y los archivos de registro se rotan más rápido que el intervalo predeterminado.

Qué se registra

El logName se deriva de los IDs de receptor especificados en la configuración. Los campos detallados de LogEntry son los siguientes.

Los registros de hadoop contienen los siguientes campos en LogEntry:

Campo	Tipo	Descripción
`jsonPayload.message`	cadena	Mensaje de registro
`jsonPayload.severity`	cadena	Nivel de entrada de registro
`jsonPayload.source`	cadena	La clase Java de origen de la entrada de registro
`severity`	cadena (`LogSeverity`)	Nivel de entrada de registro (traducido).

Configurar recogida de métricas

Para ingerir métricas de Hadoop, debe crear un receptor para las métricas que genera Hadoop y, a continuación, crear una canalización para el nuevo receptor.

Este receptor no admite el uso de varias instancias en la configuración, por ejemplo, para monitorizar varios endpoints. Todas estas instancias escriben en la misma serie temporal y Cloud Monitoring no tiene forma de distinguirlas.

Para configurar un receptor de sus métricas de hadoop, especifique los siguientes campos:

Campo	Predeterminado	Descripción
`collect_jvm_metrics`	`true`	Configura el receptor para que también recoja las métricas de JVM admitidas.
`collection_interval`	`60s`	Un valor de duración, como `30s` o `5m`.
`endpoint`	`localhost:8004`	La URL del servicio JMX o el host y el puerto que se han usado para crear la URL del servicio. Este valor debe tener el formato `service:jmx:<protocol>:<sap>` o `host:port`. Los valores con el formato `host:port` se usan para crear una URL de servicio `service:jmx:rmi:///jndi/rmi://<host>:<port>/jmxrmi`.
`password`		La contraseña configurada si JMX está configurado para requerir autenticación.
`type`		Este valor debe ser `hadoop`.
`username`		El nombre de usuario configurado si JMX está configurado para requerir autenticación.

Qué se monitoriza

En la siguiente tabla se muestra la lista de métricas que recoge el agente de Ops de la instancia de Hadoop.

Tipo de métrica
Tipo Recursos monitorizados	Etiquetas
`workload.googleapis.com/hadoop.name_node.block.corrupt`
`GAUGE`, `INT64` gce_instance	`node_name`
`workload.googleapis.com/hadoop.name_node.block.count`
`GAUGE`, `INT64` gce_instance	`node_name`
`workload.googleapis.com/hadoop.name_node.block.missing`
`GAUGE`, `INT64` gce_instance	`node_name`
`workload.googleapis.com/hadoop.name_node.capacity.limit`
`GAUGE`, `INT64` gce_instance	`node_name`
`workload.googleapis.com/hadoop.name_node.capacity.usage`
`GAUGE`, `INT64` gce_instance	`node_name`
`workload.googleapis.com/hadoop.name_node.data_node.count`
`GAUGE`, `INT64` gce_instance	`node_name` `state`
`workload.googleapis.com/hadoop.name_node.file.load`
`GAUGE`, `INT64` gce_instance	`node_name`
`workload.googleapis.com/hadoop.name_node.volume.failed`
`GAUGE`, `INT64` gce_instance	`node_name`

Verificar la configuración

En esta sección se describe cómo verificar que ha configurado correctamente el receptor de Hadoop. El agente de Ops puede tardar uno o dos minutos en empezar a recoger datos de telemetría.

Para verificar que los registros de Hadoop se envían a Cloud Logging, haz lo siguiente:

En la Google Cloud consola, ve a la página Explorador de registros:
Ve al Explorador de registros.

Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuya sección sea Registro.
Introduce la siguiente consulta en el editor y haz clic en Ejecutar consulta:
```
resource.type="gce_instance"
log_id("hadoop")
```

Para verificar que las métricas de Hadoop se envían a Cloud Monitoring, haz lo siguiente:

En la Google Cloud consola, ve a la página Explorador de métricas:
Ve al explorador de métricas.

Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuya sección sea Monitorización.
En la barra de herramientas del panel de creación de consultas, selecciona el botón cuyo nombre sea MQL o PromQL.
Verifica que PromQL esté seleccionado en el interruptor Idioma. El interruptor de idioma se encuentra en la misma barra de herramientas que te permite dar formato a tu consulta.

Introduce la siguiente consulta en el editor y haz clic en Ejecutar consulta:

{"workload.googleapis.com/hadoop.name_node.capacity.usage", monitored_resource="gce_instance"}

Ver panel de control

Para ver las métricas de Hadoop, debe tener configurado un gráfico o un panel de control. La integración de Hadoop incluye uno o varios paneles de control. Los paneles de control se instalan automáticamente después de configurar la integración y cuando el agente de Ops ha empezado a recoger datos de métricas.

También puedes ver vistas previas estáticas de los paneles de control sin instalar la integración.

Para ver un panel de control instalado, siga estos pasos:

En la Google Cloud consola, ve a la página Paneles de control:
Ve a Paneles.

Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuya sección sea Monitorización.
Seleccione la pestaña Lista de paneles de control y, a continuación, elija la categoría Integraciones.
Haga clic en el nombre del panel de control que quiera ver.

Si has configurado una integración, pero el panel de control no se ha instalado, comprueba que el agente de operaciones se esté ejecutando. Si no hay datos de métricas para un gráfico del panel de control, no se podrá instalar el panel. Una vez que el agente de Ops empiece a recoger métricas, se instalará el panel de control.

Para ver una vista previa estática del panel de control, siga estos pasos:

En la Google Cloud consola, ve a la página Integraciones:
Ve a Integraciones.

Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuya sección sea Monitorización.
Haz clic en el filtro de plataforma de implementación Compute Engine.
Busca la entrada de Hadoop y haz clic en Ver detalles.
Seleccione la pestaña Paneles para ver una vista previa estática. Si el panel de control está instalado, puedes acceder a él haciendo clic en Ver panel de control.

Para obtener más información sobre los paneles de control de Cloud Monitoring, consulta Paneles de control y gráficos.

Para obtener más información sobre cómo usar la página Integraciones, consulta el artículo Gestionar integraciones.

Instalar políticas de alertas

Las políticas de alertas indican a Cloud Monitoring que te envíe una notificación cuando se produzcan las condiciones especificadas. La integración de Hadoop incluye una o varias políticas de alertas que puedes usar. Puedes ver e instalar estas políticas de alertas desde la página Integraciones de Monitoring.

Para ver las descripciones de las políticas de alertas disponibles e instalarlas, haz lo siguiente:

En la Google Cloud consola, ve a la página Integraciones:
Ve a Integraciones.

Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuya sección sea Monitorización.
Busca la entrada de Hadoop y haz clic en Ver detalles.
Selecciona la pestaña Alertas. En esta pestaña se ofrecen descripciones de las políticas de alertas disponibles y se proporciona una interfaz para instalarlas.
Instala las políticas de alertas. Las políticas de alertas necesitan saber dónde enviar las notificaciones de que se ha activado una alerta, por lo que requieren información para la instalación. Para instalar políticas de alertas, haz lo siguiente:
1. En la lista de políticas de alertas disponibles, selecciona las que quieras instalar.
2. En la sección Configurar notificaciones, selecciona uno o varios canales de notificación. Puedes inhabilitar el uso de canales de notificación, pero si lo haces, tus políticas de alertas se activarán de forma silenciosa. Puedes consultar su estado en Monitorización, pero no recibirás ninguna notificación.
  
  Para obtener más información sobre los canales de notificación, consulta el artículo Gestionar canales de notificación.
3. Haz clic en Crear políticas.

Para obtener más información sobre las políticas de alertas en Cloud Monitoring, consulta la introducción a las alertas.