La integración de Apache Flink recopila registros de clientes, jobmanager y taskmanager, y los analiza en una carga útil de JSON. El resultado incluye campos para el registrador, el nivel y el mensaje.
Para obtener más información sobre Flink, consulta la documentación de Apache Flink.
Requisitos previos
Para recopilar la telemetría de Flink, debes instalar el Agente de operaciones:
- Para los registros, instala la versión 2.17.0 o una posterior.
- Para las métricas, instala la versión 2.18.1 o una posterior.
Esta integración es compatible con las versiones 1.12.5, 1.13.6 y 1.14.4. de Flink.
Configura el agente de operaciones para Flink
Sigue la guía para configurar el agente de operaciones y agrega los elementos necesarios a fin de recopilar telemetría de instancias de Flink y reiniciar el agente.
Configuración de ejemplo
El siguiente comando crea la configuración para recopilar y transferir la telemetría de transferencia y reinicia el agente de operaciones.
Configura la recopilación de registros
A fin de transferir registros desde Flink, debes crear receptores para los registros que produce Flink y, luego, crear una canalización para los receptores nuevos.
A fin de configurar un receptor para tus registros flink
, especifica los siguientes campos:
Campo | Predeterminada | Descripción |
---|---|---|
exclude_paths |
Una lista de patrones de ruta de acceso del sistema de archivos que se excluirán del conjunto que coincide con include_paths . |
|
include_paths |
[/opt/flink/log/flink-*-standalonesession-*.log, /opt/flink/log/flink-*-taskexecutor-*.log, /opt/flink/log/flink-*-client-*.log] |
Una lista de rutas de acceso del sistema de archivos que se leerán a través de la visualización del final de cada archivo. Se puede usar un comodín (* ) en las rutas. |
record_log_file_path |
false |
Si se configura como true , la ruta al archivo específico desde el que se obtuvo el registro aparece en la entrada de registro de salida como el valor de la etiqueta agent.googleapis.com/log_file_path . Cuando se usa un comodín, solo se registra la ruta de acceso del archivo del que se obtuvo el registro. |
type |
El valor debe ser flink . |
|
wildcard_refresh_interval |
60s |
El intervalo en el que se actualizan las rutas de acceso de archivos comodín en include_paths . Se proporciona como una duración, por ejemplo, 30s o 2m . Esta propiedad puede ser útil en el caso de una capacidad de procesamiento de registro alta en la que los archivos de registro se rotan más rápido que el intervalo predeterminado. |
¿Qué se registra?
logName
se deriva de los ID de receptor especificados en la configuración. Los campos detallados dentro de LogEntry
son los siguientes.
Los registros flink
contienen los siguientes campos en LogEntry
:
Campo | Tipo | Descripción |
---|---|---|
jsonPayload.level |
string | Nivel de entrada de registro |
jsonPayload.message |
string | Mensaje de registro, incluido el seguimiento de pila detallado cuando se proporciona |
jsonPayload.source |
string | La clase de Java de origen de la entrada de registro. |
severity |
string (LogSeverity ) |
Nivel de entrada de registro (traducido). |
Configura la recopilación de métricas
Para transferir métricas desde Flink, debes crear un receptor para las métricas que produce Flink y, luego, crear una canalización destinada al receptor nuevo.
Este receptor no admite el uso de varias instancias en la configuración, por ejemplo, para supervisar varios extremos. Todas estas instancias escriben en las mismas series temporales, y Cloud Monitoring no tiene forma de distinguirlas.
Para configurar un receptor para las métricas de flink
, especifica los siguientes campos:
Campo | Predeterminada | Descripción |
---|---|---|
collection_interval |
60s |
Un valor time.Duration, como 30s o 5m . |
endpoint |
http://localhost:8081 |
La URL que expone Flink. |
type |
El valor debe ser flink . |
Qué se supervisa
En la siguiente tabla, se proporciona una lista de métricas que el Agente de operaciones recopila de la instancia Flink.
Tipo de métrica | |
---|---|
Categoría, tipo Recursos supervisados |
Etiquetas |
workload.googleapis.com/flink.job.checkpoint.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name
job_name
checkpoint
|
workload.googleapis.com/flink.job.checkpoint.in_progress
|
|
GAUGE , INT64 gce_instance |
host_name
job_name
|
workload.googleapis.com/flink.job.last_checkpoint.size
|
|
GAUGE , INT64 gce_instance |
host_name
job_name
|
workload.googleapis.com/flink.job.last_checkpoint.time
|
|
GAUGE , INT64 gce_instance |
host_name
job_name
|
workload.googleapis.com/flink.job.restart.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name
job_name
|
workload.googleapis.com/flink.jvm.class_loader.classes_loaded
|
|
CUMULATIVE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.cpu.load
|
|
GAUGE , DOUBLE gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.cpu.time
|
|
CUMULATIVE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.gc.collections.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
garbage_collector_name
|
workload.googleapis.com/flink.jvm.gc.collections.time
|
|
CUMULATIVE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
garbage_collector_name
|
workload.googleapis.com/flink.jvm.memory.direct.total_capacity
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.direct.used
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.heap.committed
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.heap.max
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.heap.used
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.mapped.total_capacity
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.mapped.used
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.metaspace.committed
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.metaspace.max
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.metaspace.used
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.nonheap.committed
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.nonheap.max
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.nonheap.used
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.jvm.threads.count
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.memory.managed.total
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.memory.managed.used
|
|
GAUGE , INT64 gce_instance |
host_name
resource_type
taskmanager_id
|
workload.googleapis.com/flink.operator.record.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name
taskmanager_id
job_name
operator_name
task_name
subtask_index
record
|
workload.googleapis.com/flink.operator.watermark.output
|
|
GAUGE , INT64 gce_instance |
host_name
job_name
operator_name
subtask_index
task_name
taskmanager_id
|
workload.googleapis.com/flink.task.record.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name
taskmanager_id
job_name
task_name
subtask_index
record
|
Verifica la configuración
En esta sección, se describe cómo verificar que hayas configurado correctamente el receptor de Flink. El agente de operaciones puede tardar uno o dos minutos en comenzar a recopilar telemetría.
Para verificar que los registros de Flink se envíen a Cloud Logging, haz lo siguiente:
-
En el panel de navegación de la consola de Google Cloud, selecciona Logging y, luego, Explorador de registros:
- Ingresa la siguiente consulta en el editor y, luego, haz clic en Ejecutar consulta:
resource.type="gce_instance" log_id("flink")
Para verificar que las métricas de Flink se envíen a Cloud Monitoring, haz lo siguiente:
-
En el panel de navegación de la consola de Google Cloud, elige Monitoring y, luego, leaderboard Explorador de métricas:
- En la barra de herramientas del panel del compilador de consultas, selecciona el botón cuyo nombre sea code MQL o code PromQL.
- Verifica que MQL esté seleccionado en el botón de activación Lenguaje. El botón de activación de lenguaje se encuentra en la misma barra de herramientas que te permite dar formato a tu consulta.
- Ingresa la siguiente consulta en el editor y, luego, haz clic en Ejecutar consulta:
fetch gce_instance | metric 'workload.googleapis.com/flink.jvm.memory.heap.used' | every 1m
Ver panel
Para ver tus métricas de Flink, debes tener configurado un gráfico o un panel. La integración de Flink incluye uno o más paneles. Cualquier panel se instala de forma automática después de que configuras la integración y de que el agente de operaciones comienza a recopilar datos de métricas.
También puedes ver vistas previas estáticas de los paneles sin instalar la integración.
Para ver un panel instalado, haz lo siguiente:
-
En el panel de navegación de la consola de Google Cloud, elige Monitoring y, luego, Paneles:
- Selecciona la pestaña Lista de paneles y, luego, la categoría Integraciones.
- Haz clic en el nombre del panel que quiera ver.
Si configuraste una integración, pero el panel no se instaló, verifica que el agente de operaciones se esté ejecutando. Cuando no hay datos de métricas para un gráfico en el panel, la instalación del panel falla. Una vez que el agente de operaciones comienza a recopilar métricas, el panel se instalará por ti.
Para obtener una vista previa estática del panel, haz lo siguiente:
-
En el panel de navegación de la consola de Google Cloud, elige Monitoring y, luego, Integraciones:
- Haz clic en el filtro de la plataforma de implementación Compute Engine.
- Ubica la entrada de Flink y haz clic en Vista de detalles.
- Selecciona la pestaña Paneles para ver una vista previa estática. Si el panel está instalado, haz clic en Ver panel para navegar a él.
Para obtener más información de los paneles en Cloud Monitoring, consulta Paneles y gráficos.
Para obtener más información del uso de la página Integraciones, consulta Administra integraciones.
Instala políticas de alertas
Las políticas de alertas le indican a Cloud Monitoring que te notifique cuando ocurren condiciones especificadas. La integración de Flink incluye una o más políticas de alertas para que uses. Puedes ver e instalar estas políticas de alertas desde la página Integraciones en Monitoring.
Para ver las descripciones de las políticas de alertas disponibles y, luego, instalarlas, haz lo siguiente:
-
En el panel de navegación de la consola de Google Cloud, elige Monitoring y, luego, Integraciones:
- Ubica la entrada de Flink y haz clic en Vista de detalles.
- Selecciona la pestaña Alertas. En esta pestaña, se proporcionan descripciones de las políticas de alertas disponibles y una interfaz para instalarlas.
- Instala las políticas de alertas. Las políticas de alertas deben saber a dónde enviar notificaciones que la alerta se activó, por lo que requieren información de ti para la instalación.
Para instalar las políticas de alertas, haz lo siguiente:
- En la lista de políticas de alertas disponibles, elige las que deseas instalar.
En la sección Configura notificaciones, elige uno o más canales de notificaciones. Tienes la opción de inhabilitar el uso de los canales de notificación, pero si lo haces, las políticas de alertas se activarán de forma silenciosa. Puedes verificar su estado en Monitoring, pero no recibirás notificaciones.
Para obtener más información de los canales de notificaciones, consulta Administra canales de notificaciones.
- Haz clic en Crear políticas.
Para obtener más información de las políticas de alertas en Cloud Monitoring, consulta Introducción a las alertas.
Para obtener más información del uso de la página Integraciones, consulta Administra integraciones.
¿Qué sigue?
Para obtener una explicación sobre cómo usar Ansible para instalar el agente de operaciones, configurar una aplicación de terceros y, luego, instalar un panel de muestra, consulta el video Instala el agente de operaciones para solucionar problemas de apps de terceros.