L'intégration Apache Flink collecte les journaux des clients, des gestionnaires de jobs et des gestionnaires de tâches, et les analyse dans une charge utile JSON. Le résultat inclut des champs pour la source, le niveau et le message.
Pour en savoir plus sur Flink, consultez la documentation Apache Flink.
Prérequis
Pour collecter les données de télémétrie Flink, vous devez installer l'agent Ops :
- Pour les métriques, installez la version 2.18.1 ou ultérieure.
- Pour les journaux, installez la version 2.17.0 ou ultérieure.
Cette intégration est compatible avec les versions 1.12.5, 1.13.6 et 1.14.4 de Flink.
Configurer l'agent Ops pour Flink
Suivez le guide Configurer l'agent un agent, ajoutez les éléments requis ; pour collecter la télémétrie des instances Flink redémarrez l'agent.
Exemple de configuration
Les commandes suivantes créent la configuration permettant de collecter et d'ingérer la télémétrie pour Flink, et redémarre l'agent Ops.
Configurer la collecte de journaux
Pour ingérer des journaux à partir de Flink, vous devez créer un récepteur pour les journaux généré par Flink, puis crée un pipeline pour le nouveau récepteur.
Pour configurer un récepteur pour vos journaux flink
, spécifiez les champs suivants :
Champ | Par défaut | Description |
---|---|---|
exclude_paths |
Liste des formats de chemin d'accès au système de fichiers à exclure de l'ensemble correspondant à include_paths . |
|
include_paths |
[/opt/flink/log/flink-*-standalonesession-*.log, /opt/flink/log/flink-*-taskexecutor-*.log, /opt/flink/log/flink-*-client-*.log] |
Liste des chemins d'accès du système de fichiers à lire en affichant chaque fichier. Un caractère générique (* ) peut être utilisé dans les chemins d'accès. |
record_log_file_path |
false |
Si cette valeur est définie sur true , le chemin d'accès au fichier spécifique à partir duquel l'enregistrement de journal a été obtenu apparaît dans l'entrée de journal de sortie en tant que valeur du libellé agent.googleapis.com/log_file_path . Lorsque vous utilisez un caractère générique, seul le chemin du fichier à partir duquel l'enregistrement a été obtenu est enregistré. |
type |
Cette valeur doit être flink . |
|
wildcard_refresh_interval |
60s |
Intervalle d'actualisation pour les chemins d'accès de fichiers utilisant des caractères génériques dans include_paths . Renseigné sous la forme d'une durée, par exemple, 30s ou 2m . Cette propriété peut s'avérer utile lorsque le débit de journalisation est élevé et que les fichiers journaux sont alternés plus rapidement que l'intervalle par défaut. |
Contenu consigné
Le champ logName
est dérivé des ID de récepteur spécifiés dans la configuration. Les champs détaillés dans l'entrée de journal (LogEntry
) sont les suivants.
Les journaux flink
contiennent les champs suivants dans LogEntry
:
Champ | Type | Description |
---|---|---|
jsonPayload.level |
chaîne | Niveau de l'entrée de journal |
jsonPayload.message |
chaîne | Message de journal, y compris la trace détaillée de la pile, le cas échéant |
jsonPayload.source |
chaîne | Classe Java source de l'entrée de journal |
severity |
chaîne (LogSeverity ) |
Niveau d'entrée de journal (traduit). |
Configurer la collecte de métriques
Pour ingérer des métriques à partir de Flink, vous devez créer un récepteur pour les métriques produites par Flink, puis créer un pipeline pour le nouveau récepteur.
Ce récepteur ne permet pas d'utiliser plusieurs instances dans la configuration, par exemple pour surveiller plusieurs points de terminaison. Toutes ces instances écrivent dans la même série temporelle, et Cloud Monitoring n'a aucun moyen de les distinguer.
Pour configurer un récepteur pour vos métriques flink
, spécifiez les champs suivants :
Champ | Par défaut | Description |
---|---|---|
collection_interval |
60s |
Une valeur time duration, telle que 30s ou 5m . |
endpoint |
http://localhost:8081 |
URL exposée par Flink. |
type |
Cette valeur doit être flink . |
Métriques surveillées
Le tableau suivant fournit la liste des métriques que l'agent Ops collecte à partir de l'instance Flink.
Type de métrique | |
---|---|
Genre, type Ressources surveillées |
Étiquettes |
workload.googleapis.com/flink.job.checkpoint.count
|
|
CUMULATIVE , INT64 gce_instance |
checkpoint host_name job_name
|
workload.googleapis.com/flink.job.checkpoint.in_progress
|
|
GAUGE , INT64 gce_instance |
host_name job_name
|
workload.googleapis.com/flink.job.last_checkpoint.size
|
|
GAUGE , INT64 gce_instance |
host_name job_name
|
workload.googleapis.com/flink.job.last_checkpoint.time
|
|
GAUGE , INT64 gce_instance |
host_name job_name
|
workload.googleapis.com/flink.job.restart.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name job_name
|
workload.googleapis.com/flink.jvm.class_loader.classes_loaded
|
|
CUMULATIVE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.cpu.load
|
|
GAUGE , DOUBLE gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.cpu.time
|
|
CUMULATIVE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.gc.collections.count
|
|
CUMULATIVE , INT64 gce_instance |
garbage_collector_name host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.gc.collections.time
|
|
CUMULATIVE , INT64 gce_instance |
garbage_collector_name host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.direct.total_capacity
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.direct.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.heap.committed
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.heap.max
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.heap.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.mapped.total_capacity
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.mapped.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.metaspace.committed
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.metaspace.max
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.metaspace.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.nonheap.committed
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.nonheap.max
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.nonheap.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.threads.count
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.memory.managed.total
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.memory.managed.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.operator.record.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name job_name operator_name record subtask_index task_name taskmanager_id
|
workload.googleapis.com/flink.operator.watermark.output
|
|
GAUGE , INT64 gce_instance |
host_name job_name operator_name subtask_index task_name taskmanager_id
|
workload.googleapis.com/flink.task.record.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name job_name record subtask_index task_name taskmanager_id
|
Vérifier la configuration
Cette section explique comment vérifier que vous avez bien configuré le récepteur Flink. La collecte de la télémétrie par l'agent Ops peut prendre une ou deux minutes.
Pour vérifier que les journaux Flink sont envoyés à Cloud Logging, procédez comme suit:
-
Dans la console Google Cloud, accédez à la page Explorateur de journaux :
Accéder à l'explorateur de journaux
Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Logging.
- Saisissez la requête suivante dans l'éditeur, puis cliquez sur Exécuter la requête :
resource.type="gce_instance" log_id("flink")
Pour vérifier que les métriques Flink sont envoyées à Cloud Monitoring, procédez comme suit:
-
Dans la console Google Cloud, accédez à la page leaderboard Explorateur de métriques :
Accéder à l'explorateur de métriques
Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Surveillance.
- Dans la barre d'outils du volet de création de requêtes, sélectionnez le bouton nommé code MQL ou code PromQL.
- Vérifiez que MQL est sélectionné dans le bouton d'activation Langage. Le bouton de langage se trouve dans la barre d'outils qui vous permet de mettre en forme votre requête.
- Saisissez la requête suivante dans l'éditeur, puis cliquez sur Exécuter la requête :
fetch gce_instance | metric 'workload.googleapis.com/flink.jvm.memory.heap.used' | every 1m
Afficher le tableau de bord
Pour afficher vos métriques Flink, vous devez configurer un graphique ou un tableau de bord. L'intégration Flink inclut un ou plusieurs tableaux de bord. Tous les tableaux de bord sont automatiquement installés après la configuration de l'intégration et que l'agent Ops a commencé à collecter des données de métriques.
Vous pouvez également afficher des aperçus statiques de tableaux de bord sans installer l'intégration.
Pour afficher un tableau de bord installé, procédez comme suit :
-
Dans la console Google Cloud, accédez à la page Tableaux de bord .
Accéder à la page Tableaux de bord
Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Surveillance.
- Sélectionnez l'onglet Liste des tableaux de bord, puis choisissez la catégorie Intégrations.
- Cliquez sur le nom du tableau de bord que vous souhaitez afficher.
Si vous avez configuré une intégration, mais que le tableau de bord n'a pas été installé, vérifiez que l'agent Ops est en cours d'exécution. Lorsqu'un graphique ne contient aucune donnée de métrique, l'installation du tableau de bord échoue. Une fois que l'agent Ops a commencé à collecter des métriques, le tableau de bord est installé.
Pour afficher un aperçu statique du tableau de bord, procédez comme suit :
-
Dans la console Google Cloud, accédez à la page Intégrations :
Accéder à la page Intégrations
Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Surveillance.
- Cliquez sur le filtre de plate-forme de déploiement Compute Engine.
- Recherchez l'entrée pour Flink, puis cliquez sur Afficher les détails.
- Cliquez sur l'onglet Tableaux de bord pour afficher un aperçu statique. Si le tableau de bord est installé, vous pouvez y accéder en cliquant sur Afficher le tableau de bord.
Pour en savoir plus sur les tableaux de bord dans Cloud Monitoring, consultez la page Tableaux de bord et graphiques.
Pour en savoir plus sur l'utilisation de la page Intégrations, consultez la page Gérer les intégrations.
Installer des règles d'alerte
Les règles d'alerte indiquent à Cloud Monitoring de vous avertir lorsque des conditions spécifiées se produisent. L'intégration Flink inclut une ou plusieurs règles d'alerte à utiliser. Vous pouvez afficher et installer ces règles d'alerte à partir de la page Intégrations dans Monitoring.
Pour afficher la description des règles d'alerte disponibles et les installer, procédez comme suit :
-
Dans la console Google Cloud, accédez à la page Intégrations :
Accéder à la page Intégrations
Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Surveillance.
- Recherchez l'entrée pour Flink, puis cliquez sur Afficher les détails.
- Sélectionnez l'onglet Alertes. Cet onglet fournit une description des règles d'alerte disponibles et fournit une interface pour les installer.
- Installez les règles d'alerte. Les règles d'alerte doivent savoir où envoyer des notifications indiquant que l'alerte a été déclenchée. Elles nécessitent donc des informations de votre part pour l'installation.
Pour installer des règles d'alerte, procédez comme suit :
- Dans la liste des règles d'alerte disponibles, sélectionnez celles que vous souhaitez installer.
Dans la section Configurer les notifications, sélectionnez un ou plusieurs canaux de notification. Vous avez la possibilité de désactiver l'utilisation des canaux de notification. Toutefois, si vous le faites, vos règles d'alerte se déclenchent en mode silencieux. Vous pouvez vérifier leur état dans Monitoring, mais vous ne recevez aucune notification.
Pour plus d'informations sur les canaux de notification, consultez la section Gérer les canaux de notification.
- Cliquez sur Créer des règles.
Pour plus d'informations sur les règles d'alerte dans Cloud Monitoring, consultez la section Présentation des alertes.
Pour en savoir plus sur l'utilisation de la page Intégrations, consultez la page Gérer les intégrations.
Étape suivante
Pour accéder à un tutoriel pas à pas expliquant comment utiliser Ansible pour installer l'agent Ops, configurer une application tierce et installer un exemple de tableau de bord, consultez la vidéo Install the Ops Agent to troubleshoot third-party applications (Installer l'agent Ops pour résoudre les problèmes liés à des applications tierces).