Apache Flink

本文說明如何設定 Google Kubernetes Engine 部署作業,以便使用 Google Cloud Managed Service for Prometheus 收集 Apache Flink 的指標。本文將說明如何執行下列操作:

  • 設定 Flink 回報指標。
  • 設定 Managed Service for Prometheus 的 PodMonitoring 資源,以收集匯出的指標。
  • 在 Cloud Monitoring 中存取資訊主頁,即可查看指標。
  • 設定快訊規則來監控指標。

只有在使用 Managed Service for Prometheus 的 代管收集作業時,才適用這些操作說明。如果您使用自行部署的收集作業,請參閱 Flink 說明文件,瞭解安裝資訊。

這些操作說明僅供參考,適用於大多數 Kubernetes 環境。 如果因安全或機構政策限制而無法安裝應用程式或匯出工具,建議您參閱開放原始碼文件尋求支援。

如要瞭解 Apache Flink,請參閱 Apache Flink

必要條件

如要使用 Managed Service for Prometheus 和代管收集作業,從 Flink 匯出工具收集指標,部署作業必須符合下列規定:

  • 叢集必須執行 Google Kubernetes Engine 1.21.4-gke.300 以上版本。
  • 您必須執行 Managed Service for Prometheus,並啟用代管收集作業。詳情請參閱「 開始使用代管集合」一文。

  • 如要使用 Cloud Monitoring 提供的資訊主頁進行 Flink 整合,您必須使用 flink 1.17 以上版本。

    如要進一步瞭解可用的資訊主頁,請參閱「查看資訊主頁」。

設定 metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory 時,Flink 會公開 Prometheus 格式的指標。

如果您使用官方新手上路資訊清單部署 Flink,請將這個新選項新增至 ConfigMap:

  apiVersion: v1
  kind: ConfigMap
  metadata:
    name: flink-config
    labels:
      app: flink
  data:
    flink-conf.yaml: |+
      ...
  +   metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory
  

如果您使用官方 operator 部署 Flink,請將這個新選項新增至 FlinkDeployment 的 spec.flinkConfiguration 欄位:

  apiVersion: flink.apache.org/v1beta1
  kind: FlinkDeployment
  metadata:
    name: basic-example
  spec:
    image: flink:1.17
    flinkVersion: v1_17
    flinkConfiguration:
      taskmanager.numberOfTaskSlots: "2"
  +   metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory
  

或者,您也可以在 Flink 運算子設定中,將 Prometheus 報告工具指定為預設選項。

如要確認 Flink 匯出工具是否在預期端點上發出指標,請按照下列步驟操作:

  1. 使用下列指令設定通訊埠轉送:

    kubectl -n NAMESPACE_NAME port-forward POD_NAME 9249
    
  2. 在另一個終端機工作階段中,使用瀏覽器或 curl 公用程式存取端點 localhost:9249/metrics

定義 PodMonitoring 資源

如要探索目標,Managed Service for Prometheus Operator 需要與相同命名空間中的 Flink 匯出工具對應的 PodMonitoring 資源。

您可以使用下列 PodMonitoring 設定:

# Copyright 2024 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: flink
  labels:
    app.kubernetes.io/name: flink
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  endpoints:
  - port: 9249
    scheme: http
    interval: 30s
    path: /metrics
  selector:
    matchLabels:
      app.kubernetes.io/name: flink
確認 portmatchLabels 欄位的值與要監控的 Flink Pod 相符。 啟用指標後,Flink 預設會在 9249 連接埠公開指標。

如要套用本機檔案的設定變更,請執行下列指令:

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

您也可以使用 Terraform 管理設定。

定義規則和快訊

您可以使用下列 Rules 設定,針對 Flink 指標定義快訊:

# Copyright 2024 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: Rules
metadata:
  name: flink-rules
  labels:
    app.kubernetes.io/component: rules
    app.kubernetes.io/name: flink-rules
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  groups:
  - name: flink
    interval: 30s
    rules:
    - alert: FlinkHighJVMMemoryNonHeapUsage
      annotations:
        description: |-
          Flink high jvm memory non-heap usage
            VALUE = {{ $value }}
            LABELS: {{ $labels }}
        summary: Flink high jvm memory non-heap usage (instance {{ $labels.instance }})
      expr: (flink_jobmanager_Status_JVM_Memory_NonHeap_Used/flink_jobmanager_Status_JVM_Memory_NonHeap_Max) >= 0.9
      for: 5m
      labels:
        severity: critical
    - alert: FlinkHighJVMMemoryHeapUsage
      annotations:
        description: |-
          Flink high jvm memory heap usage
            VALUE = {{ $value }}
            LABELS: {{ $labels }}
        summary: Flink high jvm memory heap usage (instance {{ $labels.instance }})
      expr: (flink_jobmanager_Status_JVM_Memory_Heap_Used/flink_jobmanager_Status_JVM_Memory_Heap_Max) >= 0.9
      for: 5m
      labels:
        severity: warning

如要套用本機檔案的設定變更,請執行下列指令:

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

您也可以使用 Terraform 管理設定。

如要進一步瞭解如何將規則套用至叢集,請參閱「受管理規則評估和快訊」。

您可以根據應用程式調整快訊閾值。

驗證設定

您可以使用 Metrics Explorer 確認 Flink 匯出工具設定正確無誤。Cloud Monitoring 可能需要一到兩分鐘才能擷取指標。

如要確認指標已擷取,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的 「Metrics Explorer」頁面:

    前往 Metrics Explorer

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

  2. 在查詢建構工具窗格的工具列中,選取名稱為  MQL PromQL 的按鈕。
  3. 確認已在「Language」(語言) 切換按鈕中選取「PromQL」。語言切換按鈕位於同一工具列,可供你設定查詢格式。
  4. 輸入並執行下列查詢:
    up{job="flink", cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}

查看資訊主頁

Cloud Monitoring 整合功能包含「Prometheus」資訊主頁。設定整合作業後,系統會自動安裝資訊主頁。 您也可以查看資訊主頁的靜態預覽畫面,不需安裝整合服務。

如要查看已安裝的資訊主頁,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中,前往「Dashboards」(資訊主頁) 頁面:

    前往「Dashboards」(資訊主頁)

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

  2. 選取「資訊主頁清單」分頁標籤。
  3. 選擇「整合」類別。
  4. 按一下要查看的資訊主頁名稱。

如要查看資訊主頁的靜態預覽畫面,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的 「Integrations」(整合) 頁面

    前往「整合」

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

  2. 按一下「Kubernetes Engine」部署平台篩選器。
  3. 找出 Apache Flink 整合項目,然後按一下「查看詳細資料」
  4. 選取「資訊主頁」分頁標籤。

疑難排解

如要瞭解如何排解指標擷取問題,請參閱「 排解擷取端問題」一文中的「 收集匯出工具資料時發生問題」一節。