Apache Flink

Ce document explique comment configurer le déploiement de Google Kubernetes Engine afin de pouvoir collecter des métriques à partir de l'exportateur Apache Flink en utilisant Google Cloud Managed Service pour Prometheus. Ce document vous explique comment :

  • configurer l'exportateur Flink afin de générer des rapports sur les métriques ;
  • configurer une ressource PodMonitoring pour Managed Service pour Prometheus afin de collecter les métriques exportées ;
  • accéder à un tableau de bord dans Cloud Monitoring pour consulter les métriques ;
  • configurer des règles d'alerte pour surveiller les métriques.

Ces instructions ne s'appliquent que si vous utilisez une collecte gérée avec Managed Service pour Prometheus. Si vous utilisez une collecte auto-déployée, consultez la documentation de Flink pour obtenir des informations sur l'installation.

Ces instructions sont fournies à titre d'exemple et devraient fonctionner dans la plupart des environnements Kubernetes. Si vous rencontrez des difficultés pour installer une application ou un exportateur en raison de règles de sécurité ou d'organisation restrictives, nous vous recommandons de consulter la documentation Open Source pour obtenir de l'aide.

Pour en savoir plus sur Flink, consultez la page Apache Flink.

Prérequis

Pour collecter des métriques à partir de l'exportateur Flink en utilisant Managed Service pour Prometheus et la collecte gérée, votre déploiement doit répondre aux exigences suivantes :

  • Votre cluster doit exécuter Google Kubernetes Engine version 1.21.4-gke.300 ou ultérieure.
  • Vous devez exécuter Managed Service pour Prometheus en ayant activé la collecte gérée. Pour en savoir plus, consultez la page Premiers pas avec la collecte gérée.

  • Pour utiliser les tableaux de bord disponibles dans Cloud Monitoring pour l'intégration de Flink, vous devez utiliser flink version 1.17 ou ultérieure.

    Pour en savoir plus sur les tableaux de bord disponibles, consultez Afficher les tableaux de bord.

Flink expose les métriques au format Prometheus lorsqu'il est configuré avec metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory.

Si vous avez déployé Flink avec les fichiers manifestes de démarrage officiels, ajoutez cette nouvelle option au ConfigMap :

  apiVersion: v1
  kind: ConfigMap
  metadata:
    name: flink-config
    labels:
      app: flink
  data:
    flink-conf.yaml: |+
      ...
  +   metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory
  

Si vous avez déployé Flink avec l'opérateur officiel, ajoutez cette nouvelle option au champ spec.flinkConfiguration de FlinkDeployment :

  apiVersion: flink.apache.org/v1beta1
  kind: FlinkDeployment
  metadata:
    name: basic-example
  spec:
    image: flink:1.17
    flinkVersion: v1_17
    flinkConfiguration:
      taskmanager.numberOfTaskSlots: "2"
  +   metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory
  

Vous pouvez également spécifier l'émetteur Prometheus en tant qu'option par défaut dans la configuration de l'opérateur Flink.

Pour vérifier que l'exportateur Flink émet des métriques sur les points de terminaison attendus, procédez comme suit :

  1. Configurez le transfert de port à l'aide de la commande suivante :

    kubectl -n NAMESPACE_NAME port-forward POD_NAME 9249
    
  2. Accédez au point de terminaison localhost:9249/metrics à l'aide du navigateur ou de l'utilitaire curl dans une autre session de terminal.

Définir une ressource PodMonitoring

Pour la découverte des cibles, l'opérateur Managed Service pour Prometheus doit disposer d'une ressource PodMonitoring correspondant à l'exportateur Flink dans le même espace de noms.

Vous pouvez utiliser la configuration PodMonitoring suivante :

# Copyright 2024 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: flink
  labels:
    app.kubernetes.io/name: flink
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  endpoints:
  - port: 9249
    scheme: http
    interval: 30s
    path: /metrics
  selector:
    matchLabels:
      app.kubernetes.io/name: flink
Vérifiez que les valeurs des champs port et matchLabels correspondent à celles des pods Flink que vous souhaitez surveiller. Flink expose les métriques sur le port 9249 par défaut lorsqu'elles sont activées.

Pour appliquer les modifications de configuration à partir d'un fichier local, exécutez la commande suivante :

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

Vous pouvez également utiliser Terraform pour gérer vos configurations.

Définir des règles et des alertes

Vous pouvez utiliser la configuration Rules suivante pour définir des alertes sur vos métriques Flink :

# Copyright 2024 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: Rules
metadata:
  name: flink-rules
  labels:
    app.kubernetes.io/component: rules
    app.kubernetes.io/name: flink-rules
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  groups:
  - name: flink
    interval: 30s
    rules:
    - alert: FlinkHighJVMMemoryNonHeapUsage
      annotations:
        description: |-
          Flink high jvm memory non-heap usage
            VALUE = {{ $value }}
            LABELS: {{ $labels }}
        summary: Flink high jvm memory non-heap usage (instance {{ $labels.instance }})
      expr: (flink_jobmanager_Status_JVM_Memory_NonHeap_Used/flink_jobmanager_Status_JVM_Memory_NonHeap_Max) >= 0.9
      for: 5m
      labels:
        severity: critical
    - alert: FlinkHighJVMMemoryHeapUsage
      annotations:
        description: |-
          Flink high jvm memory heap usage
            VALUE = {{ $value }}
            LABELS: {{ $labels }}
        summary: Flink high jvm memory heap usage (instance {{ $labels.instance }})
      expr: (flink_jobmanager_Status_JVM_Memory_Heap_Used/flink_jobmanager_Status_JVM_Memory_Heap_Max) >= 0.9
      for: 5m
      labels:
        severity: warning

Pour appliquer les modifications de configuration à partir d'un fichier local, exécutez la commande suivante :

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

Vous pouvez également utiliser Terraform pour gérer vos configurations.

Pour en savoir plus sur l'application de règles à votre cluster, consultez Évaluation des règles et alertes gérées.

Vous pouvez ajuster les seuils d'alerte en fonction de votre application.

Vérifier la configuration

Vous pouvez utiliser l'explorateur de métriques pour vérifier que vous avez correctement configuré l'exportateur Flink. L'ingestion de vos métriques par Cloud Monitoring peut prendre une ou deux minutes.

Procédez comme suit pour vérifier que les métriques ont bien été ingérées :

  1. Dans la console Google Cloud, accédez à la page  Explorateur de métriques :

    Accéder à l'explorateur de métriques

    Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.

  2. Dans la barre d'outils du volet de création de requêtes, sélectionnez le bouton nommé  MQL ou  PromQL.
  3. Vérifiez que PromQL est sélectionné dans le bouton d'activation Langage. Le bouton de langage se trouve dans la barre d'outils qui vous permet de mettre en forme votre requête.
  4. Saisissez et exécutez la requête suivante :
    up{job="flink", cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}

Afficher les tableaux de bord

L'intégration de Cloud Monitoring inclut les tableaux de bord "Prometheus". Les tableaux de bord sont installés automatiquement lorsque vous configurez l'intégration. Vous pouvez également afficher des aperçus statiques de tableaux de bord sans installer l'intégration.

Pour afficher un tableau de bord installé, procédez comme suit :

  1. Dans la console Google Cloud, accédez à la page Tableaux de bord .

    Accéder à la page Tableaux de bord

    Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.

  2. Sélectionnez l'onglet Liste des tableaux de bord.
  3. Choisissez la catégorie Intégrations.
  4. Cliquez sur le nom du tableau de bord que vous souhaitez afficher.

Pour afficher un aperçu statique du tableau de bord, procédez comme suit :

  1. Dans la console Google Cloud, accédez à la page Intégrations  :

    Accéder à la page Intégrations

    Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.

  2. Cliquez sur le filtre de plate-forme de déploiement Kubernetes Engine.
  3. Recherchez l'intégration Apache Flink et cliquez sur Afficher les détails.
  4. Sélectionnez l'onglet Tableaux de bord.

Dépannage

Pour en savoir plus sur la résolution des problèmes d'ingestion de métriques, consultez la section Problèmes liés à la collecte par les exportateurs dans la section Résoudre les problèmes côté ingestion.