Apache Kafka

Apache Kafka 集成会收集代理指标，例如主题请求数和失败数。它还会监控代理上的分区。此外，该集成还会收集 Kafka 日志并将其解析为 JSON 载荷。结果将包含日志记录器、级别和消息字段。

如需详细了解 Kafka，请参阅 Apache Kafka 文档。

前提条件

如需收集 Kafka 遥测数据，您必须安装 Ops Agent：

对于指标，请安装 2.10.0 版或更高版本。
对于日志，请安装 2.10.0 版或更高版本。

此集成支持 Kafka 0.8 到 3.0.0 版。

配置 Kafka 实例

如需公开 JMX 端点，您必须在启动 JVM 时设置 com.sun.management.jmxremote.port 系统属性。我们还建议您将 com.sun.management.jmxremote.rmi.port 系统属性设置为同一端口。如需远程公开 JMX 端点，您还必须设置 java.rmi.server.hostname 系统属性。

默认情况下，这些属性在 Kafka 部署的 bin/kafka-run-class.sh 文件中设置。

如需使用命令行参数设置系统属性，请在启动 JVM 时在属性名称前加上 -D。例如，如需将 com.sun.management.jmxremote.port 设置为端口 9999，请在启动 JVM 时指定以下内容：

-Dcom.sun.management.jmxremote.port=9999

为 Kafka 配置 Ops Agent

按照配置 Ops Agent 指南，添加从 Kafka 实例收集遥测数据所需的元素并重启代理。

配置示例

以下命令会创建相关配置来收集和注入 Kafka 的遥测数据：

# Configures Ops Agent to collect telemetry from the app. You must restart the agent for the configuration to take effect.

set -e

# Check if the file exists
if [ ! -f /etc/google-cloud-ops-agent/config.yaml ]; then
  # Create the file if it doesn't exist.
  sudo mkdir -p /etc/google-cloud-ops-agent
  sudo touch /etc/google-cloud-ops-agent/config.yaml
fi

# Create a back up of the existing file so existing configurations are not lost.
sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak

# Configure the Ops Agent.
sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF
metrics:
  receivers:
    kafka:
      type: kafka
  service:
    pipelines:
      kafka:
        receivers:
          - kafka
logging:
  receivers:
    kafka:
      type: kafka
  service:
    pipelines:
      kafka:
        receivers:
          - kafka
EOF

为使这些更改生效，您必须重启 Ops Agent：

Linux

要重启代理，请在您的实例上运行以下命令：
```
sudo systemctl restart google-cloud-ops-agent
```
如需确认代理已重启，请运行以下命令并验证“Metrics Agent”和“Logging Agent”组件是否已启动：
```
sudo systemctl status "google-cloud-ops-agent*"
```

Windows

使用 RDP 或类似工具连接到您的实例，然后登录到 Windows。
右键点击 PowerShell 图标并选择 Run as Administrator，以管理员权限打开 PowerShell 终端
如需重启代理，请运行以下 PowerShell 命令：
```
Restart-Service google-cloud-ops-agent -Force
```
如需确认代理已重启，请运行以下命令并验证“Metrics Agent”和“Logging Agent”组件是否已启动：
```
Get-Service google-cloud-ops-agent*
```

配置日志收集

如需从 Kafka 注入日志，您必须为 Kafka 生成的日志创建接收器，然后为新的接收器创建流水线。

如需为 kafka 日志配置接收器，请指定以下字段：

字段	默认值	说明
`exclude_paths`		要从 `include_paths` 匹配的集合中排除的文件系统路径模式列表。
`include_paths`	`[/var/log/kafka/*.log]`	要通过对每个文件执行 tail 来读取的文件系统路径列表。路径中可以使用通配符 (``)；例如 `/var/log/kafka/*.log`。
`record_log_file_path`	`false`	如果设置为 `true`，则从中获取日志记录的特定文件的路径将作为 `agent.googleapis.com/log_file_path` 标签的值显示在输出日志条目中。使用通配符时，系统只会记录从中获取记录的文件的路径。
`type`		该值必须为 `kafka`。
`wildcard_refresh_interval`	`60s`	`include_paths` 中通配符文件路径的刷新间隔。指定为时长，例如 `30s` 或 `2m`。该属性在高日志记录吞吐量下可能很有用，因为日志文件的轮替速度快于默认时间间隔。

记录的内容

logName 派生自配置中指定的接收器 ID。LogEntry 中的详细字段如下所示。

kafka 日志包含 LogEntry 中的以下字段：

字段	类型	说明
`jsonPayload.level`	字符串	日志条目级别
`jsonPayload.logger`	字符串	发起日志的日志记录器的名称。
`jsonPayload.message`	字符串	日志消息，包括详细的堆栈轨迹（如果提供）
`jsonPayload.source`	字符串	发起日志的模块和/或线程。
`severity`	字符串 (`LogSeverity`)	日志条目级别（已转换）。

配置指标收集

如需从 Kafka 注入指标，您必须为 Kafka 生成的指标创建接收器，然后为新的接收器创建流水线。

此接收器不支持在配置中使用多个实例，例如，监控多个端点。所有这些实例都会写入相同的时序，并且 Cloud Monitoring 无法区分它们。

如需为 kafka 指标配置接收器，请指定以下字段：

字段	默认值	说明
`collect_jvm_metrics`	`true`	配置接收器以同时收集支持的 JVM 指标。
`collection_interval`	`60s`	时长值，例如 `30s` 或 `5m`。
`password`		将 JMX 配置为需要身份验证时配置的密码。
`stub_status_url`	`localhost:9999`	JMX 服务网址或用于构造服务网址的主机和端口。此值必须采用 `service:jmx:<protocol>:<sap>` 或 `host:port` 格式。`host:port` 格式的值用于创建 `service:jmx:rmi:///jndi/rmi://<host>:<port>/jmxrmi` 的服务网址。
`type`		该值必须为 `kafka`。
`username`		将 JMX 配置为需要身份验证时配置的用户名。

监控的内容

下表提供了 Ops Agent 从 Kafka 实例收集的指标列表。

指标类型
种类、类型受监控的资源	标签
`workload.googleapis.com/kafka.isr.operation.count`
`CUMULATIVE`、`INT64` gce_instance	`operation`
`workload.googleapis.com/kafka.message.count`
`CUMULATIVE`、`INT64` gce_instance
`workload.googleapis.com/kafka.network.io`
`CUMULATIVE`、`INT64` gce_instance	`state`
`workload.googleapis.com/kafka.partition.count`
`GAUGE`、`INT64` gce_instance
`workload.googleapis.com/kafka.partition.offline`
`GAUGE`、`INT64` gce_instance
`workload.googleapis.com/kafka.partition.under_replicated`
`GAUGE`、`INT64` gce_instance
`workload.googleapis.com/kafka.purgatory.size`
`GAUGE`、`INT64` gce_instance	`type`
`workload.googleapis.com/kafka.request.count`
`CUMULATIVE`、`INT64` gce_instance	`type`
`workload.googleapis.com/kafka.request.failed`
`CUMULATIVE`、`INT64` gce_instance	`type`
`workload.googleapis.com/kafka.request.time.total`
`CUMULATIVE`、`INT64` gce_instance	`type`

验证配置

本部分介绍如何验证您是否正确配置了 Kafka 接收器。Ops Agent 可能需要一两分钟才会开始收集遥测数据。

如需验证 Kafka 日志是否已发送到 Cloud Logging，请执行以下操作：

在 Google Cloud 控制台中，转到 Logs Explorer 页面：
前往 Logs Explorer

如果您使用搜索栏查找此页面，请选择子标题为 Logging 的结果。
在编辑器中输入以下查询，然后点击运行查询：
```
resource.type="gce_instance"
log_id("kafka")
```

如需验证 Kafka 指标是否已发送到 Cloud Monitoring，请执行以下操作：

在 Google Cloud 控制台中，前往 Metrics Explorer 页面：
进入 Metrics Explorer

如果您使用搜索栏查找此页面，请选择子标题为监控的结果。
在查询构建器窗格的工具栏中，选择名为 MQL 或 PromQL 的按钮。
验证已在PromQL 切换开关中选择 PromQL。语言切换开关位于同一工具栏中，用于设置查询的格式。

在编辑器中输入以下查询，然后点击运行查询：

{"workload.googleapis.com/kafka.message.count", monitored_resource="gce_instance"}

查看信息中心

如需查看 Kafka 指标，您必须配置一个图表或信息中心。 Kafka 集成服务可为您提供一个或多个信息中心。在您配置集成并且 Ops Agent 开始收集指标数据后，所有信息中心都会自动安装。

您还可以在不安装集成的情况下查看信息中心的静态预览。

如需查看已安装的信息中心，请执行以下操作：

在 Google Cloud 控制台中，前往 信息中心页面：
前往信息中心

如果您使用搜索栏查找此页面，请选择子标题为监控的结果。
选择信息中心列表标签页，然后选择集成类别。
点击您要查看的信息中心的名称。

如果您已配置集成，但尚未安装信息中心，请检查 Ops Agent 是否正在运行。如果信息中心内没有图表的指标数据，则信息中心的安装将失败。Ops Agent 开始收集指标后，系统会为您安装信息中心。

如需查看信息中心的静态预览，请执行以下操作：

在 Google Cloud 控制台中，前往集成页面：
前往集成

如果您使用搜索栏查找此页面，请选择子标题为监控的结果。
点击 Compute Engine 部署平台过滤条件。
找到 Kafka 的条目，然后点击查看详细信息。
选择信息中心标签页以查看静态预览。如果信息中心已安装，您可以通过点击查看信息中心来转到信息中心。

如需详细了解 Cloud Monitoring 中的信息中心，请参阅信息中心和图表。

如需详细了解如何使用集成页面，请参阅管理集成。

安装提醒政策

提醒政策会指示 Cloud Monitoring 在满足指定条件时通知您。 Kafka 集成服务可提供一项或多项提醒政策供您使用。您可以从 Monitoring 中的集成页面查看和安装这些提醒政策。

如需查看可用提醒政策的说明并安装它们，请执行以下操作：

在 Google Cloud 控制台中，前往集成页面：
前往集成

如果您使用搜索栏查找此页面，请选择子标题为监控的结果。
找到 Kafka 的条目，然后点击查看详细信息。
选择提醒标签页。此标签页提供可用提醒政策的说明，并提供一个安装政策的界面。
安装提醒政策。提醒政策需要知道将提醒触发的通知发送到何处，因此它们需要您提供信息才能进行安装。如需安装提醒政策，请执行以下操作：
1. 从可用提醒政策列表中，选择您要安装的提醒政策。
2. 在配置通知部分中，选择一个或多个通知渠道。您可以选择禁止使用通知渠道，但如果您这样做，则您的提醒政策将以静默方式触发。您可以在 Monitoring 中查看其状态，但不会收到通知。
  
  如需详细了解通知渠道，请参阅管理通知渠道。
3. 点击创建政策。

如需详细了解 Cloud Monitoring 中的提醒政策，请参阅提醒简介。

如需详细了解如何使用集成页面，请参阅管理集成。

后续步骤

如需查看有关如何使用 Ansible 安装 Ops Agent、配置第三方应用和安装示例信息中心的演示，请观看安装 Ops Agent 以排查第三方应用的问题视频。