本页面介绍如何使用在断开连接模式下运行的 Anthos 可用的日志记录和监控选项。
本页面适用于平台管理员。
监控信息中心
您可以从 Anthos Management Center 查看集群和节点指标监控的示例信息中心。
点击 Grafana Monitoring 信息中心按钮可打开管理员集群上托管的 Grafana 应用。Grafana 访问权限通过 Management Center 控制。如果您已登录 Management Center,则无需额外登录。
登录后,系统会提供一系列示例演示
查询日志
点击 Grafana Loki 日志按钮可打开 Grafana Explorer,在其中可以查询 Kubernetes 系统日志。日志将按照以下部分中的说明进行标记。
日志标签
日志类型 | 标签 |
---|---|
容器日志 |
|
节点 Journald 日志 |
|
审核日志 |
|
所有 Kubernetes 标签和集群标签均包括为日志标签。
查询示例
以下查询会选择容器日志:
{cluster="admin", namespace="kube-system", resources="k8s_container", container="kube-apiserver"}
以下查询会选择 cluster-operator 日志:
{cluster="admin", namespace="kube-system", resources="k8s_container", control_plane="anthos-cluster-operator"}
cluster-operator 是 Anthos on Bare Metal 提供的资源,用于在管理员集群上管理用户集群及相关资源。
以下查询会选择节点 Journald 日志:
{cluster="admin", resources="k8s_node"}
以下查询会选择审核日志:
{cluster="admin", resources="k8s_audit"}
以下查询会选择用户集群引导日志:
{cluster="admin", namespace="cluster-user-1"}
要引导的用户集群为“user-1”。
管理中心日志
以下查询会选择 acm-controller-manager 日志:
{cluster="admin", namespace="anthos-management-center", resources="k8s_container", control_plane="acm-controller-manager"}
以下查询会选择 asm-controller-manager 日志:
{cluster="admin", namespace="anthos-management-center", resources="k8s_container", control_plane="asm-controller-manager"}
以下查询会选择 bootstrap-service-controller-manager 日志:
{cluster="admin", namespace="anthos-management-center", resources="k8s_container", control_plane="bootstrap-service-controller-manager"}
以下查询会选择 Billing-controller-manager 日志:
{cluster="admin", namespace="anthos-management-center", resources="k8s_container", control_plane="billing-controller-manager"}
以下查询会选择 anthos-admin-controller-manager 日志:
{cluster="admin", namespace="anthos-management-center", resources="k8s_container", control_plane="anthos-admin-controller-manager"}
以下查询会选择 iam-controller-manager 日志:
{cluster="admin", namespace="anthos-management-center", resources="k8s_container", control_plane="iam-controller-manager"}
配置自定义 StorageClass
在断开连接模式下运行的 Anthos 使用 PersistentVolumeClaims
来预配空间以存储指标、日志、信息中心和提醒。创建集群时,集群会自动创建 LogMon
自定义资源。如需替换默认的 StorageClass
,请完成以下步骤:
运行以下命令,在命令行编辑器中打开
LogMon
自定义资源:kubectl --kubeconfig=ADMIN_OIDC_KUBECONFIG -n kube-system edit logmon logmon-default
在
LogMon
自定义资源中,更新spec
字段下的storageClassName
:apiVersion: addons.gke.io/v1alpha1 kind: Logmon metadata: # Don't change the name name: logmon-default # Don't change the namespace namespace: kube-system spec: system_logs: outputs: default_loki: deployment: storageClassName: anthos-system # configure the new storage class here system_metrics: outputs: default_prometheus: deployment: storageClassName: anthos-system # configure the new storage class here
如需保存对
LogMon
自定义资源所做的更改,请保存并退出命令行编辑器。
配置存储空间大小
创建集群时,集群会自动创建 LogMon
自定义资源。如需替换指标、日志、信息中心和提醒的存储空间大小,请完成以下步骤:
运行以下命令,在命令行编辑器中打开您的
LogMon
自定义资源:kubectl --kubeconfig=ADMIN_OIDC_KUBECONFIG -n kube-system edit logmon logmon-default
在
LogMon
自定义资源中,更新spec
字段下的storageSize
:apiVersion: addons.gke.io/v1alpha1 kind: Logmon metadata: # Don't change the name name: logmon-default # Don't change the namespace namespace: kube-system spec: system_logs: outputs: default_loki: deployment: components: loki: storageSize: 20Gi # configure the new storage size for logs here system_metrics: outputs: default_prometheus: deployment: components: alertmanager: storageSize: 1Gi # configure the new storage size for alerts here grafana: storageSize: 1Gi # configure the new storage size for dashboards here prometheus: storageSize: 20Gi # configure the new storage size for metrics here ````
如需保存对
LogMon
自定义资源所做的更改,请保存并退出命令行编辑器。
配置保留时间
如需为在集群中运行的 Prometheus 和 Loki 代理中的日志配置保留时间,请完成以下步骤:
运行以下命令,在命令行编辑器中打开您的
LogMon
自定义资源:kubectl --kubeconfig=ADMIN_OIDC_KUBECONFIG -n kube-system edit logmon logmon-default
在
LogMon
自定义资源中,更新spec
字段下的retentionTime
:apiVersion: addons.gke.io/v1alpha1 kind: Logmon metadata: # Don't change the name name: logmon-default # Don't change the namespace namespace: kube-system spec: system_logs: outputs: default_loki: deployment: retentionPolicy: retentionTime: 720h # configure the new retention time for logs here system_metrics: outputs: default_prometheus: deployment: retentionPolicy: retentionTime: 720h # configure the new retention time for metrics here
如需保存对
LogMon
自定义资源所做的更改,请保存并退出命令行编辑器。
后续步骤
- 了解如何设置提醒。