Apache Hadoop 集成会收集与存储空间相关的名称节点指标,例如容量利用率、文件访问和块。该集成还会收集 Hadoop 日志并将其解析为 JSON 载荷。结果将包含来源、级别和消息字段。
如需详细了解 Hadoop,请参阅 Apache Hadoop 文档。
前提条件
如需收集 Hadoop 遥测数据,您必须安装 Ops Agent:
- 对于指标,请安装 2.11.0 版或更高版本。
 - 对于日志,请安装 2.11.0 版或更高版本。
 
此集成支持 Hadoop 2.10.x、3.2.x 和 3.3.x 版。
配置 Hadoop 实例
如需公开 JMX 端点,您必须在启动 JVM 时设置 com.sun.management.jmxremote.port 系统属性。我们还建议您将 com.sun.management.jmxremote.rmi.port 系统属性设置为同一端口。 如需远程公开 JMX 端点,您还必须设置 java.rmi.server.hostname 系统属性。
默认情况下,这些属性在 Hadoop 部署的 hadoop-env.sh 文件中设置。
如需使用命令行参数设置系统属性,请在启动 JVM 时在属性名称前加上 -D。 例如,如需将 com.sun.management.jmxremote.port 设置为端口 8004,请在启动 JVM 时指定以下内容:
-Dcom.sun.management.jmxremote.port=8004
为 Hadoop 配置 Ops Agent
按照配置 Ops Agent 指南,添加从 Hadoop 实例收集遥测数据所需的元素并重启代理。
配置示例
以下命令会创建相关配置来收集和注入 Hadoop 的遥测数据:
为使这些更改生效,您必须重启 Ops Agent:
Linux
- 要重启代理,请在您的实例上运行以下命令:
sudo systemctl restart google-cloud-ops-agent
 - 如需确认代理已重启,请运行以下命令并验证“Metrics Agent”和“Logging Agent”组件是否已启动:
sudo systemctl status "google-cloud-ops-agent*"
 
Windows
- 使用 RDP 或类似工具连接到您的实例,然后登录到 Windows。
 - 右键点击 PowerShell 图标并选择 Run as Administrator,以管理员权限打开 PowerShell 终端
 - 如需重启代理,请运行以下 PowerShell 命令:
Restart-Service google-cloud-ops-agent -Force
 - 如需确认代理已重启,请运行以下命令并验证“Metrics Agent”和“Logging Agent”组件是否已启动:
Get-Service google-cloud-ops-agent*
 
配置日志收集
如需从 Hadoop 注入日志,您必须为 Hadoop 生成的日志创建接收器,然后为新的接收器创建流水线。
如需为 hadoop 日志配置接收器,请指定以下字段:
| 字段 | 默认值 | 说明 | 
|---|---|---|
exclude_paths | 
要从 include_paths 匹配的集合中排除的文件系统路径模式列表。 | 
|
include_paths | 
[/opt/hadoop/logs/hadoop-*.log, /opt/hadoop/logs/yarn-*.log] | 
要通过对每个文件执行 tail 来读取的文件系统路径列表。路径中可以使用通配符 (*)。 | 
record_log_file_path | 
false | 
如果设置为 true,则从中获取日志记录的特定文件的路径将作为 agent.googleapis.com/log_file_path 标签的值显示在输出日志条目中。使用通配符时,系统只会记录从中获取记录的文件的路径。 | 
type | 
该值必须为 hadoop。 | 
|
wildcard_refresh_interval | 
60s | 
include_paths 中通配符文件路径的刷新间隔。指定为时长,例如 30s 或 2m。该属性在高日志记录吞吐量下可能很有用,因为日志文件的轮替速度快于默认时间间隔。 | 
记录的内容
logName 派生自配置中指定的接收器 ID。LogEntry 中的详细字段如下所示。
hadoop 日志包含 LogEntry 中的以下字段:
| 字段 | 类型 | 说明 | 
|---|---|---|
jsonPayload.message | 
字符串 | 日志消息 | 
jsonPayload.severity | 
字符串 | 日志条目级别 | 
jsonPayload.source | 
字符串 | 日志条目的源 Java 类 | 
severity | 
字符串 (LogSeverity) | 
日志条目级别(已转换)。 | 
配置指标收集
如需从 Hadoop 注入指标,您必须为 Hadoop 生成的指标创建接收器,然后为新的接收器创建流水线。
此接收器不支持在配置中使用多个实例,例如,监控多个端点。所有这些实例都会写入相同的时序,并且 Cloud Monitoring 无法区分它们。
如需为 hadoop 指标配置接收器,请指定以下字段:
| 字段 | 默认值 | 说明 | 
|---|---|---|
collect_jvm_metrics | 
true | 
配置接收器以同时收集支持的 JVM 指标。 | 
collection_interval | 
60s | 
时长值,例如 30s 或 5m。 | 
endpoint | 
localhost:8004 | 
JMX 服务网址或用于构造服务网址的主机和端口。此值必须采用 service:jmx:<protocol>:<sap> 或 host:port 格式。host:port 格式的值用于创建 service:jmx:rmi:///jndi/rmi://<host>:<port>/jmxrmi 的服务网址。 | 
password | 
将 JMX 配置为需要身份验证时配置的密码。 | |
type | 
该值必须为 hadoop。 | 
|
username | 
将 JMX 配置为需要身份验证时配置的用户名。 | 
监控的内容
下表提供了 Ops Agent 从 Hadoop 实例收集的指标列表。
| 指标类型 | |
|---|---|
| 种类、类型 受监控的资源  | 
          标签 | 
            workload.googleapis.com/hadoop.name_node.block.corrupt
           | 
        |
            GAUGE、INT64gce_instance  | 
          
            node_name
           | 
        
            workload.googleapis.com/hadoop.name_node.block.count
           | 
        |
            GAUGE、INT64gce_instance  | 
          
            node_name
           | 
        
            workload.googleapis.com/hadoop.name_node.block.missing
           | 
        |
            GAUGE、INT64gce_instance  | 
          
            node_name
           | 
        
            workload.googleapis.com/hadoop.name_node.capacity.limit
           | 
        |
            GAUGE、INT64gce_instance  | 
          
            node_name
           | 
        
            workload.googleapis.com/hadoop.name_node.capacity.usage
           | 
        |
            GAUGE、INT64gce_instance  | 
          
            node_name
           | 
        
            workload.googleapis.com/hadoop.name_node.data_node.count
           | 
        |
            GAUGE、INT64gce_instance  | 
          
            node_namestate
           | 
        
            workload.googleapis.com/hadoop.name_node.file.load
           | 
        |
            GAUGE、INT64gce_instance  | 
          
            node_name
           | 
        
            workload.googleapis.com/hadoop.name_node.volume.failed
           | 
        |
            GAUGE、INT64gce_instance  | 
          
            node_name
           | 
        
验证配置
本部分介绍如何验证您是否正确配置了 Hadoop 接收器。Ops Agent 可能需要一两分钟才会开始收集遥测数据。
如需验证 Hadoop 日志是否已发送到 Cloud Logging,请执行以下操作:
- 
在 Google Cloud 控制台中,转到 Logs Explorer 页面:
如果您使用搜索栏查找此页面,请选择子标题为 Logging 的结果。
 - 在编辑器中输入以下查询,然后点击运行查询:
      
resource.type="gce_instance" log_id("hadoop") 
如需验证 Hadoop 指标是否已发送到 Cloud Monitoring,请执行以下操作:
- 
在 Google Cloud 控制台中,前往 leaderboard Metrics Explorer 页面:
如果您使用搜索栏查找此页面,请选择子标题为监控的结果。
 - 在查询构建器窗格的工具栏中,选择名为 code MQL 或 code PromQL 的按钮。
 - 验证已在PromQL 切换开关中选择 PromQL。语言切换开关位于同一工具栏中,用于设置查询的格式。
 - 在编辑器中输入以下查询,然后点击运行查询:
      
{"workload.googleapis.com/hadoop.name_node.capacity.usage", monitored_resource="gce_instance"} 
查看信息中心
如需查看 Hadoop 指标,您必须配置一个图表或信息中心。 Hadoop 集成服务可为您提供一个或多个信息中心。在您配置集成并且 Ops Agent 开始收集指标数据后,所有信息中心都会自动安装。
您还可以在不安装集成的情况下查看信息中心的静态预览。
如需查看已安装的信息中心,请执行以下操作:
- 
在 Google Cloud 控制台中,前往
 信息中心页面:
   如果您使用搜索栏查找此页面,请选择子标题为监控的结果。
 - 选择信息中心列表标签页,然后选择集成类别。
 - 点击您要查看的信息中心的名称。
 
如果您已配置集成,但尚未安装信息中心,请检查 Ops Agent 是否正在运行。如果信息中心内没有图表的指标数据,则信息中心的安装将失败。Ops Agent 开始收集指标后,系统会为您安装信息中心。
如需查看信息中心的静态预览,请执行以下操作:
- 
在 Google Cloud 控制台中,前往
 集成页面:
   如果您使用搜索栏查找此页面,请选择子标题为监控的结果。
 - 点击 Compute Engine 部署平台过滤条件。
 - 找到 Hadoop 的条目,然后点击查看详细信息。
 - 选择信息中心标签页以查看静态预览。如果信息中心已安装,您可以通过点击查看信息中心来转到信息中心。
 
如需详细了解 Cloud Monitoring 中的信息中心,请参阅信息中心和图表。
如需详细了解如何使用集成页面,请参阅管理集成。
安装提醒政策
提醒政策会指示 Cloud Monitoring 在满足指定条件时通知您。 Hadoop 集成服务可提供一项或多项提醒政策供您使用。您可以从 Monitoring 中的集成页面查看和安装这些提醒政策。
如需查看可用提醒政策的说明并安装它们,请执行以下操作:
- 
在 Google Cloud 控制台中,前往
 集成页面:
   如果您使用搜索栏查找此页面,请选择子标题为监控的结果。
 - 找到 Hadoop 的条目,然后点击查看详细信息。
 - 选择提醒标签页。此标签页提供可用提醒政策的说明,并提供一个安装政策的界面。
 - 安装提醒政策。提醒政策需要知道将提醒触发的通知发送到何处,因此它们需要您提供信息才能进行安装。如需安装提醒政策,请执行以下操作:
        
- 从可用提醒政策列表中,选择您要安装的提醒政策。
 在配置通知部分中,选择一个或多个通知渠道。您可以选择禁止使用通知渠道,但如果您这样做,则您的提醒政策将以静默方式触发。您可以在 Monitoring 中查看其状态,但不会收到通知。
如需详细了解通知渠道,请参阅管理通知渠道。
- 点击创建政策。
 
 
如需详细了解 Cloud Monitoring 中的提醒政策,请参阅提醒简介。
如需详细了解如何使用集成页面,请参阅管理集成。
后续步骤
如需查看有关如何使用 Ansible 安装 Ops Agent、配置第三方应用和安装示例信息中心的演示,请观看安装 Ops Agent 以排查第三方应用的问题视频。