Apache Flink

La integración de Apache Flink recoge los registros de cliente, gestor de trabajos y gestor de tareas, y los analiza para convertirlos en una carga útil JSON. El resultado incluye campos de origen, nivel y mensaje.

Para obtener más información sobre Flink, consulta la documentación de Apache Flink.

Requisitos previos

Para recoger la telemetría de Flink, debes instalar el Agente de operaciones:

  • En el caso de las métricas, instala la versión 2.18.1 o una posterior.
  • Para los registros, instala la versión 2.17.0 o una posterior.

Esta integración es compatible con las versiones 1.12.5, 1.13.6 y 1.14.4 de Flink.

Configurar el agente de operaciones para Flink

Sigue la guía para configurar el agente de operaciones, añade los elementos necesarios para recoger telemetría de las instancias de Flink y reinicia el agente.

Configuración de ejemplo

Los siguientes comandos crean la configuración para recoger e ingerir telemetría de Flink:

# Configures Ops Agent to collect telemetry from the app. You must restart the agent for the configuration to take effect.

set -e

# Check if the file exists
if [ ! -f /etc/google-cloud-ops-agent/config.yaml ]; then
  # Create the file if it doesn't exist.
  sudo mkdir -p /etc/google-cloud-ops-agent
  sudo touch /etc/google-cloud-ops-agent/config.yaml
fi

# Create a back up of the existing file so existing configurations are not lost.
sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak

# Configure the Ops Agent.
sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF
metrics:
  receivers:
    flink:
      type: flink
  service:
    pipelines:
      flink:
        receivers:
          - flink
logging:
  receivers:
    flink:
      type: flink
  service:
    pipelines:
      flink:
        receivers:
          - flink
EOF

Para que estos cambios se apliquen, debes reiniciar el agente de Ops:

Linux

  1. Para reiniciar el agente, ejecuta el siguiente comando en tu instancia:
    sudo systemctl restart google-cloud-ops-agent
    
  2. Para confirmar que el agente se ha reiniciado, ejecuta el siguiente comando y verifica que los componentes "Metrics Agent" y "Logging Agent" se han iniciado:
    sudo systemctl status "google-cloud-ops-agent*"
    

Windows

  1. Conéctate a tu instancia mediante RDP o una herramienta similar e inicia sesión en Windows.
  2. Abre un terminal de PowerShell con privilegios de administrador haciendo clic con el botón derecho en el icono de PowerShell y seleccionando Ejecutar como administrador.
  3. Para reiniciar el agente, ejecuta el siguiente comando de PowerShell:
    Restart-Service google-cloud-ops-agent -Force
    
  4. Para confirmar que el agente se ha reiniciado, ejecuta el siguiente comando y verifica que los componentes "Metrics Agent" y "Logging Agent" se han iniciado:
    Get-Service google-cloud-ops-agent*
    

Para ingerir registros de Flink, debe crear un receptor para los registros que genere Flink y, a continuación, crear una canalización para el nuevo receptor.

Para configurar un receptor de tus registros flink, especifica los siguientes campos:

Campo Predeterminado Descripción
exclude_paths Lista de patrones de rutas del sistema de archivos que se excluirán del conjunto que coincida con include_paths.
include_paths [/opt/flink/log/flink-*-standalonesession-*.log, /opt/flink/log/flink-*-taskexecutor-*.log, /opt/flink/log/flink-*-client-*.log] Lista de rutas del sistema de archivos que se van a leer siguiendo cada archivo. Se puede usar un comodín (*) en las rutas.
record_log_file_path false Si se asigna el valor true, la ruta al archivo específico del que se ha obtenido el registro de log aparece en la entrada de log de salida como valor de la etiqueta agent.googleapis.com/log_file_path. Cuando se usa un comodín, solo se registra la ruta del archivo del que se ha obtenido el registro.
type Este valor debe ser flink.
wildcard_refresh_interval 60s Intervalo en el que se actualizan las rutas de archivos con comodines en include_paths. Se indica como duración; por ejemplo, 30s o 2m. Esta propiedad puede ser útil cuando el volumen de registros es alto y los archivos de registro se rotan más rápido que el intervalo predeterminado.

Qué se registra

El logName se deriva de los IDs de receptor especificados en la configuración. Los campos detallados de LogEntry son los siguientes.

Los registros de flink contienen los siguientes campos en LogEntry:

Campo Tipo Descripción
jsonPayload.level cadena Nivel de entrada de registro
jsonPayload.message cadena Mensaje de registro, incluida la traza de pila detallada cuando se proporcione
jsonPayload.source cadena La clase Java de origen de la entrada de registro
severity cadena (LogSeverity) Nivel de entrada de registro (traducido).

Para ingerir métricas de Flink, debe crear un receptor para las métricas que genera Flink y, a continuación, crear una canalización para el nuevo receptor.

Este receptor no admite el uso de varias instancias en la configuración, por ejemplo, para monitorizar varios endpoints. Todas estas instancias escriben en la misma serie temporal y Cloud Monitoring no tiene forma de distinguirlas.

Para configurar un receptor de sus métricas de flink, especifique los siguientes campos:

Campo Predeterminado Descripción
collection_interval 60s Un valor de duración, como 30s o 5m.
endpoint http://localhost:8081 La URL expuesta por Flink.
type Este valor debe ser flink.

Qué se monitoriza

En la siguiente tabla se muestra la lista de métricas que recoge el agente de Ops de la instancia de Flink.

Tipo de métrica 
Tipo
Recursos monitorizados
Etiquetas
workload.googleapis.com/flink.job.checkpoint.count
CUMULATIVEINT64
gce_instance
checkpoint
host_name
job_name
workload.googleapis.com/flink.job.checkpoint.in_progress
GAUGEINT64
gce_instance
host_name
job_name
workload.googleapis.com/flink.job.last_checkpoint.size
GAUGEINT64
gce_instance
host_name
job_name
workload.googleapis.com/flink.job.last_checkpoint.time
GAUGEINT64
gce_instance
host_name
job_name
workload.googleapis.com/flink.job.restart.count
CUMULATIVEINT64
gce_instance
host_name
job_name
workload.googleapis.com/flink.jvm.class_loader.classes_loaded
CUMULATIVEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.cpu.load
GAUGEDOUBLE
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.cpu.time
CUMULATIVEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.gc.collections.count
CUMULATIVEINT64
gce_instance
garbage_collector_name
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.gc.collections.time
CUMULATIVEINT64
gce_instance
garbage_collector_name
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.memory.direct.total_capacity
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.memory.direct.used
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.memory.heap.committed
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.memory.heap.max
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.memory.heap.used
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.memory.mapped.total_capacity
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.memory.mapped.used
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.memory.metaspace.committed
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.memory.metaspace.max
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.memory.metaspace.used
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.memory.nonheap.committed
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.memory.nonheap.max
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.memory.nonheap.used
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.jvm.threads.count
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.memory.managed.total
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.memory.managed.used
GAUGEINT64
gce_instance
host_name
resource_type
taskmanager_id
workload.googleapis.com/flink.operator.record.count
CUMULATIVEINT64
gce_instance
host_name
job_name
operator_name
record
subtask_index
task_name
taskmanager_id
workload.googleapis.com/flink.operator.watermark.output
GAUGEINT64
gce_instance
host_name
job_name
operator_name
subtask_index
task_name
taskmanager_id
workload.googleapis.com/flink.task.record.count
CUMULATIVEINT64
gce_instance
host_name
job_name
record
subtask_index
task_name
taskmanager_id

Verificar la configuración

En esta sección se describe cómo verificar que ha configurado correctamente el receptor de Flink. El agente de Ops puede tardar uno o dos minutos en empezar a recoger datos de telemetría.

Para verificar que los registros de Flink se envían a Cloud Logging, haz lo siguiente:

  1. En la Google Cloud consola, ve a la página Explorador de registros:

    Ve al Explorador de registros.

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuya sección sea Registro.

  2. Introduce la siguiente consulta en el editor y haz clic en Ejecutar consulta:
    resource.type="gce_instance"
    log_id("flink")
    

Para verificar que las métricas de Flink se envían a Cloud Monitoring, haz lo siguiente:

  1. En la Google Cloud consola, ve a la página  Explorador de métricas:

    Ve al explorador de métricas.

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuya sección sea Monitorización.

  2. En la barra de herramientas del panel de creación de consultas, selecciona el botón cuyo nombre sea  MQL o  PromQL.
  3. Verifica que PromQL esté seleccionado en el interruptor Idioma. El interruptor de idioma se encuentra en la misma barra de herramientas que te permite dar formato a tu consulta.
  4. Introduce la siguiente consulta en el editor y haz clic en Ejecutar consulta:
    {"workload.googleapis.com/flink.jvm.memory.heap.used", monitored_resource="gce_instance"}
    

Ver panel de control

Para ver las métricas de Flink, debe tener configurado un gráfico o un panel de control. La integración de Flink incluye uno o varios paneles de control. Los paneles de control se instalan automáticamente después de configurar la integración y cuando el agente de Ops ha empezado a recoger datos de métricas.

También puedes ver vistas previas estáticas de los paneles de control sin instalar la integración.

Para ver un panel de control instalado, siga estos pasos:

  1. En la Google Cloud consola, ve a la página  Paneles de control:

    Ve a Paneles.

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuya sección sea Monitorización.

  2. Seleccione la pestaña Lista de paneles de control y, a continuación, elija la categoría Integraciones.
  3. Haga clic en el nombre del panel de control que quiera ver.

Si has configurado una integración, pero el panel de control no se ha instalado, comprueba que el agente de operaciones se esté ejecutando. Si no hay datos de métricas para un gráfico del panel de control, no se podrá instalar el panel. Una vez que el agente de Ops empiece a recoger métricas, se instalará el panel de control.

Para ver una vista previa estática del panel de control, siga estos pasos:

  1. En la Google Cloud consola, ve a la página  Integraciones:

    Ve a Integraciones.

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuya sección sea Monitorización.

  2. Haz clic en el filtro de plataforma de implementación Compute Engine.
  3. Busca la entrada de Flink y haz clic en Ver detalles.
  4. Seleccione la pestaña Paneles para ver una vista previa estática. Si el panel de control está instalado, puedes acceder a él haciendo clic en Ver panel de control.

Para obtener más información sobre los paneles de control de Cloud Monitoring, consulta Paneles de control y gráficos.

Para obtener más información sobre cómo usar la página Integraciones, consulta el artículo Gestionar integraciones.

Instalar políticas de alertas

Las políticas de alertas indican a Cloud Monitoring que te envíe una notificación cuando se produzcan las condiciones especificadas. La integración de Flink incluye una o varias políticas de alertas que puedes usar. Puedes ver e instalar estas políticas de alertas desde la página Integraciones de Monitoring.

Para ver las descripciones de las políticas de alertas disponibles e instalarlas, haz lo siguiente:

  1. En la Google Cloud consola, ve a la página  Integraciones:

    Ve a Integraciones.

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuya sección sea Monitorización.

  2. Busca la entrada de Flink y haz clic en Ver detalles.
  3. Selecciona la pestaña Alertas. En esta pestaña se ofrecen descripciones de las políticas de alertas disponibles y se proporciona una interfaz para instalarlas.
  4. Instala las políticas de alertas. Las políticas de alertas necesitan saber dónde enviar las notificaciones de que se ha activado una alerta, por lo que requieren información para la instalación. Para instalar políticas de alertas, haz lo siguiente:
    1. En la lista de políticas de alertas disponibles, selecciona las que quieras instalar.
    2. En la sección Configurar notificaciones, selecciona uno o varios canales de notificación. Puedes inhabilitar el uso de canales de notificación, pero si lo haces, tus políticas de alertas se activarán de forma silenciosa. Puedes consultar su estado en Monitorización, pero no recibirás ninguna notificación.

      Para obtener más información sobre los canales de notificación, consulta el artículo Gestionar canales de notificación.

    3. Haz clic en Crear políticas.

Para obtener más información sobre las políticas de alertas en Cloud Monitoring, consulta la introducción a las alertas.

Para obtener más información sobre cómo usar la página Integraciones, consulta el artículo Gestionar integraciones.

Siguientes pasos

Para ver una guía sobre cómo usar Ansible para instalar el Agente de operaciones, configurar una aplicación de terceros e instalar un panel de control de ejemplo, consulta el vídeo Instalar el Agente de operaciones para solucionar problemas con aplicaciones de terceros.