本文档介绍如何配置 Google Kubernetes Engine 部署,以便使用 Google Cloud Managed Service for Prometheus 从 Flink 导出器收集指标。本页面介绍如何完成以下任务:
- 设置 Flink 导出器以报告指标。
- 为 Managed Service for Prometheus 配置 PodMonitoring 资源以收集导出的指标。
- 在 Cloud Monitoring 中访问信息中心以查看指标。
- 配置提醒规则以监控指标。
以下说明仅在您将代管式收集功能与 Managed Service for Prometheus 搭配使用时适用。 如果您使用的是自行部署的收集功能,请参阅 Flink 文档了解安装信息。
这些说明仅作为示例提供,应该适用于大多数 Kubernetes 环境。如果您因为限制性安全或组织政策而无法安装应用或导出器,则我们建议您查阅开源文档以获取支持。
如需了解 Flink,请参阅 Apache Flink。
前提条件
如需使用 Managed Service for Prometheus 和代管式收集功能从 Flink 导出器收集指标,您的部署必须满足以下要求:
- 您的集群必须运行 Google Kubernetes Engine 1.21.4-gke.300 或更高版本。
- 您必须运行 Managed Service for Prometheus,并启用代管式收集功能。如需了解详情,请参阅代管式收集功能使用入门。
- 如需使用 Cloud Monitoring 中提供的信息中心进行 Flink 集成,您必须使用
flink
1.17 版或更高版本。如需详细了解可用的信息中心,请参阅查看信息中心。
metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory
进行配置时,Flink 会公开 Prometheus 格式的指标。
如果您是使用官方提供的使用入门清单部署 Flink,请将此新选项添加到 ConfigMap:
apiVersion: v1 kind: ConfigMap metadata: name: flink-config labels: app: flink data: flink-conf.yaml: |+ ... + metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory
如果您是使用官方提供的 Operator 部署 Flink,请将此新选项添加到 FlinkDeployment 的 spec.flinkConfiguration
字段中:
apiVersion: flink.apache.org/v1beta1 kind: FlinkDeployment metadata: name: basic-example spec: image: flink:1.17 flinkVersion: v1_17 flinkConfiguration: taskmanager.numberOfTaskSlots: "2" + metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory
或者,您也可以在 Flink Operator 配置中将 Prometheus 报告器指定为默认选项。
如需验证 Flink 导出器是否在预期的端点上发出指标,请执行以下操作:
使用以下命令设置端口转发:
kubectl -n NAMESPACE_NAME port-forward POD_NAME 9249
使用浏览器或另一个终端会话中的
curl
实用程序访问端点localhost:9249/metrics
。
定义 PodMonitoring 资源
对于目标发现,Managed Service for Prometheus Operator 需要与同一命名空间中的 Flink 导出器对应的 PodMonitoring 资源。
您可以使用以下 PodMonitoring 配置:
确保port
和 matchLabels
字段的值与要监控的 Flink pod 的值相匹配。启用指标后,Flink 默认在端口 9249 上公开指标。如需从本地文件应用配置更改,请运行以下命令:
kubectl apply -n NAMESPACE_NAME -f FILE_NAME
您还可以使用 Terraform 管理您的配置。
定义规则和提醒
您可以使用以下 Rules
配置来定义 Flink 指标提醒:
如需从本地文件应用配置更改,请运行以下命令:
kubectl apply -n NAMESPACE_NAME -f FILE_NAME
您还可以使用 Terraform 管理您的配置。
如需详细了解如何将规则应用于您的集群,请参阅代管式规则评估和提醒。
您可以根据您的应用调整提醒阈值。验证配置
您可以使用 Metrics Explorer 验证您是否正确配置了 Flink 导出器。Cloud Monitoring 可能需要一两分钟时间来注入您的指标。
要验证指标是否已注入,请执行以下操作:
-
在 Google Cloud 控制台中,转到 leaderboard Metrics Explorer 页面:
如果您使用搜索栏查找此页面,请选择子标题为监控的结果。
- 在查询构建器窗格的工具栏中,选择名为 code MQL 或 code MQL 的按钮。
- 验证已在PromQL切换开关中选择 PromQL。语言切换开关位于同一工具栏中,用于设置查询的格式。
- 输入并运行以下查询:
up{job="flink", cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}
查看信息中心
Cloud Monitoring 集成包括“Prometheus”信息中心。当您配置集成时,系统会自动安装信息中心。您还可以在不安装集成的情况下查看信息中心的静态预览。
如需查看已安装的信息中心,请执行以下操作:
-
在 Google Cloud 控制台中,转到 信息中心页面:
如果您使用搜索栏查找此页面,请选择子标题为监控的结果。
- 选择信息中心列表标签页。
- 选择集成类别。
- 点击您要查看的信息中心的名称。
如需查看信息中心的静态预览,请执行以下操作:
-
在 Google Cloud 控制台中,转到 集成页面:
如果您使用搜索栏查找此页面,请选择子标题为监控的结果。
- 点击 Kubernetes Engine 部署平台过滤条件。
- 找到 Apache Flink 集成,然后点击查看详情。
- 选择信息中心标签页。
问题排查
如需了解如何排查指标注入问题,请参阅排查注入端问题中的从导出器收集的问题。