Esta página foi traduzida pela API Cloud Translation.

Geração de registros e monitoramento

O Google Distributed Cloud (somente software) para VMware inclui várias opções de geração de registros e monitoramento de clusters, incluindo serviços gerenciados baseados na nuvem, ferramentas de código aberto e compatibilidade validada com soluções comerciais de terceiros. Neste documento, explicamos essas opções e fornecemos algumas orientações básicas sobre como selecionar a solução adequada para seu ambiente.

Opções para o Google Distributed Cloud

Há várias opções de geração de registros e monitoramento para o Google Distributed Cloud:

Cloud Logging e Cloud Monitoring
Google Cloud Managed Service para Prometheus (pré-lançamento)
Configurações validadas com soluções de terceiros

Cloud Logging e Cloud Monitoring

O Google Cloud Observability (antigo Stackdriver) é a solução de observabilidade integrada do Google Cloud. Ele oferece uma solução de geração de registros totalmente gerenciada, coleta de métricas, monitoramento, uso de painéis e emissão de alertas. O Cloud Monitoring monitora clusters do Google Distributed Cloud de maneira semelhante aos clusters do GKE baseados na nuvem.

É possível configurar os agentes no cluster para o escopo de monitoramento e geração de registros, bem como o nível de métricas coletadas:

O escopo de geração de registros e monitoramento só pode ser definido como componentes do sistema (padrão) ou para componentes e aplicativos do sistema.
O nível das métricas coletadas pode ser configurado para um conjunto otimizado de métricas ou para métricas completas.

Consulte Como configurar agentes de geração de registros e monitoramento para o Google Distributed Cloud neste documento para mais informações.

O Cloud Logging e o Cloud Monitoring são ideais para os clientes que querem uma solução de observabilidade única, eficiente, fácil de configurar e baseada na nuvem. Recomendamos o Logging e o Monitoring ao executar cargas de trabalho somente no Google Distributed Cloud ou no GKE e no Google Distributed Cloud. Em aplicativos com componentes em execução no Google Distributed Cloud e na infraestrutura local tradicional, considere outras soluções para uma visão completa desses aplicativos.

Para detalhes sobre arquitetura, configuração e quais dados são replicados para seu projeto do Google Cloud por padrão no Google Distributed Cloud, consulte a seção Como funcionam o Logging e o Monitoring para o Google Distributed Cloud.
Para mais informações sobre o Cloud Logging, consulte a documentação do Cloud Logging.
Para mais informações sobre o Cloud Monitoring, consulte a documentação do Cloud Monitoring.

Soluções de terceiros

O Google trabalhou com vários provedores de solução de monitoramento e geração de registros de terceiros para ajudar os produtos a funcionarem bem com o Google Distributed Cloud. Entre eles, Datadog, Elastic e Splunk. Outros terceiros validados serão adicionados no futuro.

Para mais informações sobre como usar soluções de terceiros com o Google Distributed Cloud, consulte:

Como funcionam o Logging e o Monitoring para o Google Distributed Cloud

Os agentes do Logging e de métricas são instalados e ativados em cada cluster quando você cria um novo cluster de administrador ou usuário. Os agentes coletam dados sobre os componentes do sistema, ou seja, o escopo dos quais você pode configurar.

Para ver os dados coletados no console Google Cloud , configure o projeto Google Cloud que armazena os registros e as métricas que você quer visualizar.

Os agentes do Logging e do Monitoring em cada cluster incluem:

Agente de métricas do GKE (gke-metrics-agent). Um DaemonSet que envia métricas para a API Cloud Monitoring.
Encaminhamento de registros (stackdriver-log-forwarder). Um DaemonSet do Fluent Bit que encaminha os registros de cada máquina para o Cloud Logging. O encaminhador de registros armazena em buffer as entradas de registro no nó localmente e as reenvia por até quatro horas. Se o buffer ficar cheio ou se o encaminhador de registros não conseguir acessar a API Cloud Logging por mais de quatro horas, os registros serão descartados.
Agente de métricas globais do GKE (gke-metrics-agent-global). Uma implantação que envia métricas para a API Cloud Monitoring.
Agente de metadados (stackdriver-metadata-agent). Uma implantação que envia metadados de recursos do Kubernetes, como pods, implantações ou nós, para a API Stackdriver Resource Metadata. Esses dados são usados para enriquecer consultas de métricas ao permitir que você consulte por nome da implantação, nome do nó ou até pelo nome do serviço do Kubernetes.
kube-state-metrics: uma implantação que detecta o servidor da API e gera métricas sobre os estados dos objetos.
node-exporter: um DaemonSet que gera métricas de hardware e de SO.

É possível conferir todos os agentes de implantação executando o comando:

  kubectl --kubeconfig CLUSTER_KUBECONFIG get deployments -l "managed-by=stackdriver" --all-namespaces

CLUSTER_KUBECONFIG é o caminho para o arquivo kubeconfig do cluster.

A saída deste comando é semelhante a:

gke-metrics-agent-global                      1/1     Running   0   4h31m
stackdriver-metadata-agent-cluster-level      1/1     Running   0   4h31m

É possível ver todos os agentes DaemonSet executando o comando:

  kubectl --kubeconfig CLUSTER_KUBECONFIG get daemonsets -l "managed-by=stackdriver" --all-namespaces

A saída deste comando é semelhante a:

gke-metrics-agent                             1/1     Running   0   4h31m
stackdriver-log-forwarder                     1/1     Running   0   4h31m

Como configurar agentes de geração de registros e monitoramento para o Google Distributed Cloud

Os agentes instalados com o Google Distributed Cloud coletam dados sobre componentes do sistema, sujeitos às suas definições e configurações, para fins de manutenção e solução de problemas com os clusters.

Somente componentes do sistema (escopo padrão)

Após a instalação, os agentes coletam registros e métricas, incluindo detalhes de desempenho (por exemplo, uso da CPU e da memória) e metadados semelhantes, para os componentes do sistema fornecidos pelo Google. Isso inclui todas as cargas de trabalho no cluster de administrador e, para clusters de usuário, as cargas de trabalho nos namespaces kube-system, gke-system, gke-connect, istio-system e config-management-system. É possível configurar ou desativar os agentes conforme descrito nas seções a seguir.

O escopo dos registros e das métricas coletadas também pode ser expandido para incluir aplicativos. Para instruções sobre como ativar a geração de registros e o monitoramento de aplicativos, consulte Como ativar a geração de registros e o monitoramento para aplicativos do usuário.

Métricas otimizadas (métricas padrão)

Por padrão, os agentes de métricas em execução no cluster coletam e informam um conjunto otimizado de métricas de contêiner, kubelet e kube-state-metrics ao Google Cloud Observability (antigo Stackdriver).

Menos recursos são necessários para coletar esse conjunto otimizado de métricas, o que melhora o desempenho e a escalonabilidade geral. Isso é especialmente importante para métricas no nível do contêiner e do kube, devido à grande quantidade de objetos a serem monitorados.

Métricas do contêiner excluídas

As seguintes métricas do contêiner são excluídas das métricas otimizadas:

container_cpu_cfs_periods_total
container_cpu_cfs_throttled_periods_total
container_cpu_load_average_10s
container_cpu_system_seconds_total
container_cpu_user_seconds_total
container_fs_io_current
container_fs_io_time_seconds_total
container_fs_io_time_weighted_seconds_total
container_fs_read_seconds_total
container_fs_reads_bytes_total
container_fs_reads_merged_total
container_fs_reads_total
container_fs_sector_reads_total
container_fs_sector_writes_total
container_fs_write_seconds_total
container_fs_writes_bytes_total
container_fs_writes_merged_total
container_fs_writes_total
container_last_seen
container_memory_cache
container_memory_failcnt
container_memory_mapped_file
container_memory_max_usage_bytes
container_memory_swap
container_network_receive_packets_dropped_total
container_network_receive_packets_total
container_network_transmit_packets_dropped_total
container_network_transmit_packets_total
container_start_time_seconds
container_spec_cpu_period
container_spec_cpu_quota
container_spec_cpu_shares
container_spec_memory_limit_bytes
container_spec_memory_reservation_limit_bytes
container_spec_memory_swap_limit_bytes
container_start_time_seconds
container_tasks_state

O conjunto completo de métricas do Google Distributed Cloud está documentado em Métricas do Google Distributed Cloud.

Métricas do kubelet excluídas

As seguintes métricas do kubelet são excluídas das métricas otimizadas:

kubelet_runtime_operations_duration_seconds
kubelet_runtime_operations_errors
kubelet_runtime_operations_duration_seconds
kubelet_runtime_operations_latency_microseconds
kubelet_runtime_operations_latency_microseconds_count
kubelet_runtime_operations_latency_microseconds_sum
rest_client_request_duration_seconds
rest_client_request_latency_seconds

O conjunto completo de métricas do Google Distributed Cloud está documentado em Métricas do Google Distributed Cloud.

Métricas do kube-state-metrics excluídas

As seguintes métricas do kube-state-metrics são excluídas das métricas otimizadas:

kube_certificatesigningrequest_cert_length
kube_certificatesigningrequest_condition
kube_certificatesigningrequest_created
kube_certificatesigningrequest_labels
kube_configmap_annotations
kube_configmap_info
kube_configmap_labels
kube_configmap_metadata_resource_version
kube_daemonset_annotations
kube_daemonset_created
kube_daemonset_labels
kube_daemonset_metadata_generation
kube_daemonset_status_observed_generation
kube_deployment_annotations
kube_deployment_created
kube_deployment_labels
kube_deployment_spec_paused
kube_deployment_spec_strategy_rollingupdate_max_surge
kube_deployment_spec_strategy_rollingupdate_max_unavailable
kube_deployment_status_condition
kube_deployment_status_replicas_ready
kube_endpoint_annotations
kube_endpoint_created
kube_endpoint_info
kube_endpoint_labels
kube_endpoint_ports
kube_horizontalpodautoscaler_annotations
kube_horizontalpodautoscaler_info
kube_horizontalpodautoscaler_labels
kube_horizontalpodautoscaler_metadata_generation
kube_horizontalpodautoscaler_status_condition
kube_job_annotations
kube_job_complete
kube_job_created
kube_job_info
kube_job_labels
kube_job_owner
kube_job_spec_completions
kube_job_spec_parallelism
kube_job_status_completion_time
kube_job_status_start_time
kube_job_status_succeeded
kube_lease_owner
kube_lease_renew_time
kube_limitrange
kube_limitrange_created
kube_mutatingwebhookconfiguration_info
kube_namespace_labels
kube_networkpolicy_annotations
kube_networkpolicy_labels
kube_networkpolicy_spec_egress_rules
kube_networkpolicy_spec_ingress_rules
kube_node_annotations
kube_node_role
kube_persistentvolume_annotations
kube_persistentvolume_labels
kube_persistentvolumeclaim_access_mode
kube_persistentvolumeclaim_annotations
kube_persistentvolumeclaim_labels
kube_pod_annotations
kube_pod_completion_time
kube_pod_container_resource_limits
kube_pod_container_resource_requests
kube_pod_container_state_started
kube_pod_created
kube_pod_init_container_info
kube_pod_init_container_resource_limits
kube_pod_init_container_resource_requests
kube_pod_init_container_status_last_terminated_reason
kube_pod_init_container_status_ready
kube_pod_init_container_status_restarts_total
kube_pod_init_container_status_running
kube_pod_init_container_status_terminated
kube_pod_init_container_status_terminated_reason
kube_pod_init_container_status_waiting
kube_pod_init_container_status_waiting_reason
kube_pod_labels
kube_pod_owner
kube_pod_restart_policy
kube_pod_spec_volumes_persistentvolumeclaims_readonly
kube_pod_start_time
kube_poddisruptionbudget_annotations
kube_poddisruptionbudget_created
kube_poddisruptionbudget_labels
kube_poddisruptionbudget_status_expected_pods
kube_poddisruptionbudget_status_observed_generation
kube_poddisruptionbudget_status_pod_disruptions_allowed
kube_replicaset_annotations
kube_replicaset_created
kube_replicaset_labels
kube_replicaset_metadata_generation
kube_replicaset_owner
kube_replicaset_status_observed_generation
kube_resourcequota_created
kube_secret_annotations
kube_secret_info
kube_secret_labels
kube_secret_metadata_resource_version
kube_secret_type
kube_service_annotations
kube_service_created
kube_service_info
kube_service_labels
kube_service_spec_type
kube_statefulset_annotations
kube_statefulset_created
kube_statefulset_labels
kube_statefulset_status_current_revision
kube_statefulset_status_update_revision
kube_storageclass_annotations
kube_storageclass_created
kube_storageclass_info
kube_storageclass_labels
kube_validatingwebhookconfiguration_info
kube_validatingwebhookconfiguration_metadata_resource_version
kube_volumeattachment_created
kube_volumeattachment_info
kube_volumeattachment_labels
kube_volumeattachment_spec_source_persistentvolume
kube_volumeattachment_status_attached
kube_volumeattachment_status_attachment_metadata

O conjunto completo de métricas do Google Distributed Cloud está documentado em Métricas do Google Distributed Cloud.

Para desativar as métricas otimizadas do kube-state-metrics (não recomendado), defina o campo optimizedMetrics como false no recurso personalizado do Stackdriver. Para mais informações sobre como alterar o recurso personalizado do Stackdriver, consulte Como configurar recursos de componentes do Stackdriver. Todas as métricas do Google Distributed Cloud, incluindo as excluídas por padrão, são descritas em Métricas do Google Distributed Cloud.

Ativar e desativar o Stackdriver

É possível ativar ou desativar completamente os agentes de geração de registros e monitoramento ativando ou desativando o recurso personalizado do Stackdriver. Esse recurso está na visualização.

Antes de desativar os agentes do Logging e do Monitoring, consulte a página de suporte para detalhes sobre como isso afeta os SLAs do Google Cloud Support.

Os agentes do Logging e Monitoring capturam dados armazenados localmente, dependendo da configuração de armazenamento e retenção. A replicação dos dados no projeto Google Cloud especificado na instalação é feita com uma conta de serviço autorizada a gravar dados nesse projeto. É possível desativar esses agentes a qualquer momento, conforme descrito anteriormente.

Também é possível gerenciar e excluir dados que os agentes do Logging e do Monitoring enviaram para o Cloud Logging e o Cloud Monitoring. Para mais informações, consulte a documentação do Cloud Monitoring.

Requisitos de configuração do Logging e do Monitoring

Para visualizar os dados do Cloud Logging e do Cloud Monitoring, configure o projeto Google Cloud que armazena os registros e as métricas que você quer visualizar. Esse projeto do Google Cloud é chamado de projeto de geração de registros e monitoramento.

Ative as seguintes APIs em seu projeto de monitoramento de registros:
Conceda os papéis do IAM à sua conta de serviço de monitoramento de registros no projeto de monitoramento de registros.
- logging.logWriter
- monitoring.metricWriter
- stackdriver.resourceMetadata.writer
- monitoring.dashboardEditor
- opsconfigmonitoring.resourceMetadata.writer

Tags de registro

Muitos registros do Google Distributed Cloud têm uma tag F:

logtag: "F"

Essa tag significa que a entrada de registro está completa ou cheia. Para saber mais sobre essa tag, consulte Formato de registro nas propostas de design do Kubernetes no GitHub.

A seguir

Como usar a geração de registros e o monitoramento