A integração do Apache Flink coleta registros do cliente, do gerenciador de jobs e do gerenciador de tarefas e os analisa em um payload JSON. O resultado inclui campos para origem, nível e mensagem.
Para mais informações sobre o Flink, consulte a documentação do Apache Flink.
Prerequisites
Para coletar a telemetria do Fink, instale o Agente de operações:
- Para métricas, instale a versão 2.18.1 ou mais recente.
- Para registros, instale a versão 2.17.0 ou posterior.
Essa integração é compatível com as versões 1.12.5, 1.13.6 e 1.14.4 do Flink.
Configurar o Agente de operações para o Flink
Seguindo o guia para configurar o Agente de operações, adicione os elementos necessários para coletar a telemetria das instâncias do Flink e reinicie o agente.
Exemplo de configuração
Os comandos a seguir criam a configuração para coletar e ingerir a telemetria para o Flink e reiniciam o Agente de operações.
Configurar a coleta de registros
Para ingerir registros do Flink, é preciso criar um receptor para os registros produzidos pelo Flink e, em seguida, criar um pipeline para o novo receptor.
flink
Para configurar um receptor para os registros , especifique os seguintes campos:
Campo | Padrão | Descrição |
---|---|---|
exclude_paths |
Uma lista de padrões de caminho do sistema de arquivos a serem excluídos do conjunto correspondente a include_paths . |
|
include_paths |
[/opt/flink/log/flink-*-standalonesession-*.log, /opt/flink/log/flink-*-taskexecutor-*.log, /opt/flink/log/flink-*-client-*.log] |
Uma lista de caminhos do sistema de arquivos a serem lidos acompanhando cada
arquivo. Um caractere curinga (* ) pode ser usado nos caminhos. |
record_log_file_path |
false |
Se definido como true , o caminho para o arquivo específico de que a gravação de registro foi recebida aparecerá na entrada de registro de saída como o valor do identificador agent.googleapis.com/log_file_path . Ao usar um caractere curinga, apenas o caminho do arquivo de que o registro foi recebido é gravado. |
type |
Este valor precisa ser flink . |
|
wildcard_refresh_interval |
60s |
O intervalo em que os caminhos de arquivos curinga no include_paths são atualizados. Dado como uma duração de tempo, por exemplo, 30s ou 2m . Essa propriedade pode ser útil com capacidades de registro altas em que os arquivos de registro são alternados mais rapidamente do que o intervalo padrão. |
O que é registrado
O logName
é derivado dos
IDs do receptor especificados na configuração. Os campos
detalhados dentro de LogEntry
são os seguintes.
Os registros flink
contêm os seguintes campos no LogEntry
:
Campo | Tipo | Descrição |
---|---|---|
jsonPayload.level |
string | Nível de entrada de registro |
jsonPayload.message |
string | Mensagem de registro, incluindo stacktrace detalhado, quando fornecido |
jsonPayload.source |
string | A classe Java de origem da entrada de registro. |
severity |
string (LogSeverity ) |
Nível de entrada de registro (traduzido). |
Configurar a coleta de métricas
Para ingerir métricas do Flink, crie um receptor para as métricas produzidas pelo Flink e, em seguida, crie um pipeline para o novo receptor.
Esse receptor não aceita o uso de várias instâncias na configuração, por exemplo, para monitorar vários endpoints. Todas essas instâncias gravam na mesma série temporal, e o Cloud Monitoring não tem como diferenciá-las.
Para configurar um receptor para suas
métricas do flink
, especifique os campos
a seguir:
Campo | Padrão | Descrição |
---|---|---|
collection_interval |
60s |
Um valor de time.Duration, como 30s ou 5m . |
endpoint |
http://localhost:8081 |
O URL exposto pelo Flink. |
type |
Este valor precisa ser flink . |
O que é monitorado?
A tabela a seguir fornece a lista de métricas que o agente de operações coleta da instância do Flink.
Tipo de métrica | |
---|---|
Tipo, tipo Recursos monitorados |
Rótulos |
workload.googleapis.com/flink.job.checkpoint.count
|
|
CUMULATIVE , INT64 gce_instance |
checkpoint host_name job_name
|
workload.googleapis.com/flink.job.checkpoint.in_progress
|
|
GAUGE , INT64 gce_instance |
host_name job_name
|
workload.googleapis.com/flink.job.last_checkpoint.size
|
|
GAUGE , INT64 gce_instance |
host_name job_name
|
workload.googleapis.com/flink.job.last_checkpoint.time
|
|
GAUGE , INT64 gce_instance |
host_name job_name
|
workload.googleapis.com/flink.job.restart.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name job_name
|
workload.googleapis.com/flink.jvm.class_loader.classes_loaded
|
|
CUMULATIVE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.cpu.load
|
|
GAUGE , DOUBLE gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.cpu.time
|
|
CUMULATIVE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.gc.collections.count
|
|
CUMULATIVE , INT64 gce_instance |
garbage_collector_name host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.gc.collections.time
|
|
CUMULATIVE , INT64 gce_instance |
garbage_collector_name host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.direct.total_capacity
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.direct.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.heap.committed
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.heap.max
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.heap.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.mapped.total_capacity
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.mapped.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.metaspace.committed
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.metaspace.max
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.metaspace.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.nonheap.committed
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.nonheap.max
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.nonheap.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.threads.count
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.memory.managed.total
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.memory.managed.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.operator.record.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name job_name operator_name record subtask_index task_name taskmanager_id
|
workload.googleapis.com/flink.operator.watermark.output
|
|
GAUGE , INT64 gce_instance |
host_name job_name operator_name subtask_index task_name taskmanager_id
|
workload.googleapis.com/flink.task.record.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name job_name record subtask_index task_name taskmanager_id
|
Verificar a configuração
Nesta seção, descrevemos como verificar se você configurou corretamente o receptor do Flink. Pode levar um ou dois minutos para que o agente de operações comece a coletar telemetria.
Para verificar se os registros do Flink estão sendo enviados para o Cloud Logging, faça o seguinte:
-
No console do Google Cloud, acesse a página do Análise de registros.
Acessar a Análise de registros
Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Geração de registros.
- Digite a consulta a seguir no Editor e clique em Executar consulta:
resource.type="gce_instance" log_id("flink")
Para verificar se as métricas do Flink estão sendo enviadas para o Cloud Monitoring, faça o seguinte:
-
No Console do Google Cloud, acesse a página do leaderboard Metrics Explorer:
Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.
- Na barra de ferramentas do painel do criador de consultas, selecione o botão code MQL ou code PromQL.
- Verifique se MQL está selecionado na opção de ativar/desativar MQL. A alternância de idiomas está na mesma barra de ferramentas que permite formatar sua consulta.
- Digite a consulta a seguir no Editor e clique em Executar consulta:
fetch gce_instance | metric 'workload.googleapis.com/flink.jvm.memory.heap.used' | every 1m
Ver painel
Para visualizar as métricas do Flink, é necessário ter um gráfico ou um painel configurado. A integração do Flink inclui um ou mais painéis para você. Todos os painéis são instalados automaticamente depois que você configura a integração e o Agente de operações começa a coletar dados de métricas.
Também é possível ver visualizações estáticas de painéis sem instalar a integração.
Para ver um painel instalado, faça o seguinte:
-
No console do Google Cloud, acesse a página Painéis:
Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.
- Selecione a guia Lista de painéis e escolha a categoria Integrações.
- Clique no nome do painel que você quer visualizar.
Se você configurou uma integração, mas o painel não foi instalado, verifique se o agente de operações está em execução. Quando não há dados de métricas para um gráfico no painel, a instalação do painel falha. Depois que o Agente de operações começar a coletar métricas, o painel será instalado para você.
Para acessar uma visualização estática do painel, faça o seguinte:
-
No console do Google Cloud, acesse a página Integrações:
Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.
- Clique no filtro de plataforma de implantação do Compute Engine.
- Localize a entrada do Flink e clique em Ver detalhes.
- Selecione a guia Painéis para uma visualização estática. Se o painel estiver instalado, navegue até ele clicando em Ver painel.
Para mais informações sobre painéis no Cloud Monitoring, consulte Painéis e gráficos.
Para mais informações sobre como usar a página Integrações, consulte Gerenciar integrações.
Instalar políticas de alertas
As políticas de alertas orientam o Cloud Monitoring a notificar você quando ocorrerem condições especificadas. A integração do Flink inclui uma ou mais políticas de alertas para você usar. É possível ver e instalar essas políticas de alertas na página Integrações no Monitoring.
Para visualizar e descrever as descrições de políticas de alertas disponíveis, faça o seguinte:
-
No console do Google Cloud, acesse a página Integrações:
Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoramento.
- Localize a entrada do Flink e clique em Ver detalhes.
- Selecione a guia Alertas. Essa guia apresenta descrições das políticas de alertas disponíveis e mostra uma interface para instalá-las.
- Instalar políticas de alertas. As políticas de alertas precisam
saber para onde enviar as notificações de que o alerta foi
acionado. Portanto, elas exigem informações para instalação.
Para instalar políticas de alertas, faça o seguinte:
- Na lista de políticas de alertas disponíveis, selecione aquelas que você quer instalar.
Na seção Configurar notificações, selecione um ou mais canais de notificação. Você pode desativar o uso dos canais de notificação, mas, se isso acontecer, as políticas de alertas vão ser disparadas silenciosamente. É possível verificar o status no Monitoring, mas não receber notificações.
Para saber mais sobre canais de notificação, consulte Gerenciar canais de notificação.
- Clique em Criar políticas.
Para mais informações sobre políticas de alertas no Cloud Monitoring, consulte Introdução a alertas.
Para mais informações sobre como usar a página Integrações, consulte Gerenciar integrações.
A seguir
Para ver um tutorial sobre como usar o Ansible para instalar o agente de operações, configurar um aplicativo de terceiros e instalar um painel de amostra, consulte o vídeo Instalação do agente de operações para resolver problemas de aplicativos de terceiros.