观察集群

本页面介绍如何使用在断开连接模式下运行的 Anthos 可用的日志记录和监控选项。

本页面适用于平台管理员

监控信息中心

您可以从 Anthos Management Center 查看集群和节点指标监控的示例信息中心。

“监控”标签页

点击 Grafana Monitoring 信息中心按钮可打开管理员集群上托管的 Grafana 应用。Grafana 访问权限通过 Management Center 控制。如果您已登录 Management Center,则无需额外登录。

登录后,系统会提供一系列示例演示

Grafana 信息中心

查询日志

点击 Grafana Loki 日志按钮可打开 Grafana Explorer,在其中可以查询 Kubernetes 系统日志。日志将按照以下部分中的说明进行标记。

日志标签

日志类型 标签
容器日志
  • cluster=CLUSTER_NAME
  • resources=k8s_container
  • namespace=NAMESPACE_NAME
  • node=NODE_NAME
  • pod=POD_NAME
  • container=CONTAINER_NAME
  • 其他 Kubernetes 标签
节点 Journald 日志
  • cluster=CLUSTER_NAME
  • resources=k8s_node
  • node=NODE_NAME
  • identifier=SYSLOG_IDENTIFIER
  • machine=MACHINE_ID
审核日志
  • cluster=CLUSTER_NAME
  • resource=k8s_audit
  • level=LEVEL
  • vert=VERB

所有 Kubernetes 标签和集群标签均包括为日志标签。

查询示例

  • 以下查询会选择容器日志:

    {cluster="admin", namespace="kube-system", resources="k8s_container", container="kube-apiserver"}
    
  • 以下查询会选择 cluster-operator 日志:

    {cluster="admin", namespace="kube-system", resources="k8s_container", control_plane="anthos-cluster-operator"}
    

    cluster-operator 是 Anthos on Bare Metal 提供的资源,用于在管理员集群上管理用户集群及相关资源。

  • 以下查询会选择节点 Journald 日志:

    {cluster="admin", resources="k8s_node"}
    
  • 以下查询会选择审核日志:

    {cluster="admin", resources="k8s_audit"}
    
  • 以下查询会选择用户集群引导日志:

    {cluster="admin", namespace="cluster-user-1"}
    

    要引导的用户集群为“user-1”。

管理中心日志

  • 以下查询会选择 acm-controller-manager 日志:

    {cluster="admin", namespace="anthos-management-center", resources="k8s_container", control_plane="acm-controller-manager"}
    
  • 以下查询会选择 asm-controller-manager 日志:

    {cluster="admin", namespace="anthos-management-center", resources="k8s_container", control_plane="asm-controller-manager"}
    
  • 以下查询会选择 bootstrap-service-controller-manager 日志:

    {cluster="admin", namespace="anthos-management-center", resources="k8s_container", control_plane="bootstrap-service-controller-manager"}
    
  • 以下查询会选择 Billing-controller-manager 日志:

    {cluster="admin", namespace="anthos-management-center", resources="k8s_container", control_plane="billing-controller-manager"}
    
  • 以下查询会选择 anthos-admin-controller-manager 日志:

    {cluster="admin", namespace="anthos-management-center", resources="k8s_container", control_plane="anthos-admin-controller-manager"}
    
  • 以下查询会选择 iam-controller-manager 日志:

    {cluster="admin", namespace="anthos-management-center", resources="k8s_container", control_plane="iam-controller-manager"}
    

配置自定义 StorageClass

在断开连接模式下运行的 Anthos 使用 PersistentVolumeClaims 来预配空间以存储指标、日志、信息中心和提醒。创建集群时,集群会自动创建 LogMon 自定义资源。如需替换默认的 StorageClass,请完成以下步骤:

  1. 运行以下命令,在命令行编辑器中打开 LogMon 自定义资源:

    kubectl --kubeconfig=ADMIN_OIDC_KUBECONFIG -n kube-system edit logmon logmon-default
    
  2. LogMon 自定义资源中,更新 spec 字段下的 storageClassName

    apiVersion: addons.gke.io/v1alpha1
    kind: Logmon
    metadata:
      # Don't change the name
      name: logmon-default
      # Don't change the namespace
      namespace: kube-system
    spec:
      system_logs:
        outputs:
          default_loki:
            deployment:
              storageClassName: anthos-system # configure the new storage class here 
      system_metrics:
        outputs:
          default_prometheus:
            deployment:
              storageClassName: anthos-system # configure the new storage class here
    
  3. 如需保存对 LogMon 自定义资源所做的更改,请保存并退出命令行编辑器。

配置存储空间大小

创建集群时,集群会自动创建 LogMon 自定义资源。如需替换指标、日志、信息中心和提醒的存储空间大小,请完成以下步骤:

  1. 运行以下命令,在命令行编辑器中打开您的 LogMon 自定义资源:

    kubectl --kubeconfig=ADMIN_OIDC_KUBECONFIG -n kube-system edit logmon logmon-default
    
  2. LogMon 自定义资源中,更新 spec 字段下的 storageSize

    apiVersion: addons.gke.io/v1alpha1
    kind: Logmon
    metadata:
      # Don't change the name
      name: logmon-default
      # Don't change the namespace
      namespace: kube-system
    spec:
      system_logs:
        outputs:
          default_loki:
            deployment:
              components:
                loki:
                   storageSize: 20Gi # configure the new storage size for logs here
      system_metrics:
        outputs:
          default_prometheus:
            deployment:
              components:
                alertmanager:
                   storageSize: 1Gi # configure the new storage size for alerts here
                grafana:
                   storageSize: 1Gi # configure the new storage size for dashboards here
                prometheus:
                   storageSize: 20Gi # configure the new storage size for metrics here
    ````
    
  3. 如需保存对 LogMon 自定义资源所做的更改,请保存并退出命令行编辑器。

配置保留时间

如需为在集群中运行的 Prometheus 和 Loki 代理中的日志配置保留时间,请完成以下步骤:

  1. 运行以下命令,在命令行编辑器中打开您的 LogMon 自定义资源:

    kubectl --kubeconfig=ADMIN_OIDC_KUBECONFIG -n kube-system edit logmon logmon-default
    
  2. LogMon 自定义资源中,更新 spec 字段下的 retentionTime

    apiVersion: addons.gke.io/v1alpha1
    kind: Logmon
    metadata:
      # Don't change the name
      name: logmon-default
      # Don't change the namespace
      namespace: kube-system
    spec:
      system_logs:
        outputs:
          default_loki:
            deployment:
              retentionPolicy:
                retentionTime: 720h # configure the new retention time for logs here
      system_metrics:
        outputs:
          default_prometheus:
            deployment:
              retentionPolicy:
                retentionTime: 720h # configure the new retention time for metrics here
    
  3. 如需保存对 LogMon 自定义资源所做的更改,请保存并退出命令行编辑器。

后续步骤