Hashicorp Vault

Vault 是基于身份的密钥和加密管理系统。此集成会收集 Vault 的审核日志,还会收集令牌、内存和存储指标。

如需详细了解 Vault,请参阅 Hashicorp Vault 文档

前提条件

如需收集 Vault 遥测数据,您必须安装 Ops Agent

  • 对于指标,请安装 2.18.2 版或更高版本。
  • 对于日志,请安装 2.18.1 版或更高版本。

此集成支持 Vault 1.6+ 版。

配置 Vault 实例

如需从 Vault 实例收集遥测数据,您必须将 HCL 或 JSON Vault 配置文件中的 prometheus_retention_time 字段设置为非零值。

Full configuration options can be found at https://www.vaultproject.io/docs/configuration
telemetry {
  prometheus_retention_time = "10m"
  disable_hostname = false
}

此外,必须具有根用户身份才能启用审核日志收集和创建 prometheus-metrics ACL 政策。根令牌用于添加具有 /sys/metrics 端点的读取权限的政策。此政策用于创建具有足够权限的 Vault 令牌,以收集 Vault 指标。

如果您是首次初始化 Vault,则可以使用以下脚本生成根令牌。否则,请参阅使用解封密钥生成根令牌,了解如何生成根令牌。

export VAULT_ADDR=http://localhost:8200
# Create simple Vault initialization with 1 key share and a key threshold of 1.
vault operator init -key-shares=1 -key-threshold=1 | head -n3 | cat > .vault-init
VAULT_KEY=$(grep 'Unseal Key 1'  .vault-init | awk '{print $NF}')
VAULT_TOKEN=$(grep 'Initial Root Token:' .vault-init | awk '{print $NF}')
export VAULT_TOKEN
vault operator unseal $VAULT_KEY

# Enable audit logs.
vault audit enable file file_path=/var/log/vault_audit.log

# Create Prometheus ACL policy to access metrics endpoint.
vault policy write prometheus-metrics - << EOF
path "/sys/metrics" {
  capabilities = ["read"]
}
EOF

# Create an example token with the prometheus-metrics policy to access Vault metrics.
# This token is used as `$VAULT_TOKEN` in your Ops Agent configuration for Vault.
vault token create -field=token -policy prometheus-metrics > prometheus-token

为 Vault 配置 Ops Agent

按照配置 Ops Agent 指南,添加从 Vault 实例收集遥测数据所需的元素并重启代理

配置示例

以下命令会创建相关配置来收集和注入 Vault 的遥测数据,并重启 Ops Agent。

# Configures Ops Agent to collect telemetry from the app and restart Ops Agent.

set -e

# Create a back up of the existing file so existing configurations are not lost.
sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak

# Create a Vault token that has read capabilities to /sys/metrics policy.
# For more information see: https://developer.hashicorp.com/vault/tutorials/monitoring/monitor-telemetry-grafana-prometheus?in=vault%2Fmonitoring#define-prometheus-acl-policy
VAULT_TOKEN=$(cat prometheus-token)

sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF
metrics:
  receivers:
    vault:
      type: vault
      token: $VAULT_TOKEN
      endpoint: 127.0.0.1:8200
  service:
    pipelines:
      vault:
        receivers:
          - vault
logging:
  receivers:
    vault_audit:
      type: vault_audit
      include_paths: [/var/log/vault_audit.log]
  service:
    pipelines:
      vault:
        receivers:
          - vault_audit
EOF

sudo service google-cloud-ops-agent restart

配置日志收集

如需从 Vault 注入日志,您必须为 Vault 生成的日志创建接收器,然后为新的接收器创建流水线。

如需为 vault_audit 日志配置接收器,请指定以下字段:

字段 默认 说明
exclude_paths 要从 include_paths 匹配的集合中排除的文件系统路径模式列表。
include_paths 要通过跟踪每个文件读取的文件系统路径列表。路径中可以使用通配符 (*)。
record_log_file_path false 如果设置为 true,则从中获取日志记录的特定文件的路径将作为 agent.googleapis.com/log_file_path 标签的值显示在输出日志条目中。使用通配符时,系统只会记录从中获取记录的文件的路径。
type 该值必须为 vault_audit
wildcard_refresh_interval 60s include_paths 中通配符文件路径的刷新间隔。指定为时长,例如 30s2m。该属性在高日志记录吞吐量下可能很有用,因为日志文件的轮替速度快于默认时间间隔。

记录的内容

logName 派生自配置中指定的接收器 ID。LogEntry 中的详细字段如下所示。

vault_audit 日志包含 LogEntry 中的以下字段:

字段 类型 说明
jsonPayload.auth 结构体
jsonPayload.auth.accessor 字符串 客户端令牌访问器的 HMAC。
jsonPayload.auth.client_token 字符串 客户端令牌 ID 的 HMAC。
jsonPayload.auth.display_name 字符串 身份验证方法角色设置的显示名称,或创建密文时明确设置的显示名称。
jsonPayload.auth.entity_id 字符串 令牌实体标识符。
jsonPayload.auth.metadata 对象 包含与 client_token 关联的元数据键值对列表。
jsonPayload.auth.policies 对象 包含与 client_token 关联的政策列表。
jsonPayload.auth.token_type 字符串
jsonPayload.error 字符串 如果请求发生错误,则错误消息会包含在此字段的值中。
jsonPayload.request 结构体
jsonPayload.request.client_token 字符串 客户端令牌 ID 的 HMAC。
jsonPayload.request.client_token_accessor 字符串 客户端令牌访问器的 HMAC。
jsonPayload.request.data 对象 数据对象包含键值对中的密文数据。
jsonPayload.request.headers 对象 客户端在请求中指定的额外 HTTP 标头。
jsonPayload.request.id 字符串 唯一请求标识符。
jsonPayload.request.namespace.id 字符串
jsonPayload.request.operation 字符串 与路径功能相对应的操作类型,应为 createreadupdatedeletelist 之一。
jsonPayload.request.path 字符串 操作请求的 Vault 路径。
jsonPayload.request.policy_override 布尔值 当请求软强制政策替换时,此值为 true
jsonPayload.request.remote_address 字符串 发出请求的客户端的 IP 地址。
jsonPayload.request.wrap_ttl 字符串 如果令牌已封装,这会将配置的封装 TTL 值显示为数字字符串。
jsonPayload.response 结构体
jsonPayload.response.data.accessor 字符串 客户端令牌访问器的 HMAC。
jsonPayload.response.data.creation_time 字符串 创建令牌的 RFC 3339 格式时间戳。
jsonPayload.response.data.creation_ttl 字符串 令牌创建 TTL(以秒为单位)。
jsonPayload.response.data.display_name 字符串 身份验证方法角色设置的显示名称,或创建密文时明确设置的显示名称。
jsonPayload.response.data.entity_id 字符串 令牌实体标识符。
jsonPayload.response.data.expire_time 字符串 表示令牌到期时间的 RFC 3339 格式时间戳。
jsonPayload.response.data.explicit_max_ttl 字符串 显式令牌最大 TTL 值,以秒为单位(如果未设置,则为“0”)。
jsonPayload.response.data.id 字符串 唯一响应标识符。
jsonPayload.response.data.issue_time 字符串 RFC 3339 格式时间戳。
jsonPayload.response.data.num_uses 数字 如果令牌的使用次数有限,则将在此处表示该值。
jsonPayload.response.data.orphan 布尔值 表示令牌是否孤立的布尔值。
jsonPayload.response.data.path 字符串 操作请求的 Vault 路径。
jsonPayload.response.data.policies 对象 包含与 client_token 关联的政策列表。
jsonPayload.response.data.renewable 布尔值 表示令牌是否孤立的布尔值。
jsonPayload.type 字符串 审核日志的类型。
severity 字符串
timestamp 字符串 (Timestamp) 收到请求的时间

配置指标收集

如需从保险柜注入指标,您必须为保险柜生成的指标创建接收器,然后为新的接收器创建流水线。

此接收器不支持在配置中使用多个实例,例如,监控多个端点。所有这些实例都会写入相同的时序,并且 Cloud Monitoring 无法区分它们。

如需为 vault 指标配置接收器,请指定以下字段:

字段 默认 说明
ca_file CA 证书的路径。作为客户端,此字段会验证服务器证书。如果为空,则接收器使用系统根 CA。
cert_file 用于要求 mTLS 的连接的 TLS 证书的路径。
collection_interval 60s time.Duration 值,例如 30s5m
endpoint localhost:8200 Vault 使用的“hostname:port”
insecure true 设置是否使用安全 TLS 连接。如果设置为 false,则启用 TLS。
insecure_skip_verify false 设置是否跳过证书验证。如果 insecure 设置为 true,则不使用“insecure_skip_verify”值。
key_file 用于要求 mTLS 的连接的 TLS 密钥的路径。
metrics_path /v1/sys/metrics 指标收集的路径。
token localhost:8200 用于身份验证的令牌。
type 该值必须为 vault

监控的内容

下表提供了 Ops Agent 从 Vault 实例收集的指标列表。

指标类型
种类、类型
受监控的资源
标签
workload.googleapis.com/vault.audit.request.failed
CUMULATIVEINT64
gce_instance
 
workload.googleapis.com/vault.audit.response.failed
CUMULATIVEINT64
gce_instance
 
workload.googleapis.com/vault.core.leader.duration
GAUGEDOUBLE
gce_instance
 
workload.googleapis.com/vault.core.request.count
GAUGEINT64
gce_instance
cluster
workload.googleapis.com/vault.memory.usage
GAUGEDOUBLE
gce_instance
 
workload.googleapis.com/vault.storage.operation.delete.count
CUMULATIVEINT64
gce_instance
storage
workload.googleapis.com/vault.storage.operation.delete.time
CUMULATIVEDOUBLE
gce_instance
storage
workload.googleapis.com/vault.storage.operation.get.count
CUMULATIVEINT64
gce_instance
storage
workload.googleapis.com/vault.storage.operation.get.time
CUMULATIVEDOUBLE
gce_instance
storage
workload.googleapis.com/vault.storage.operation.list.count
CUMULATIVEINT64
gce_instance
storage
workload.googleapis.com/vault.storage.operation.list.time
CUMULATIVEDOUBLE
gce_instance
storage
workload.googleapis.com/vault.storage.operation.put.count
CUMULATIVEINT64
gce_instance
storage
workload.googleapis.com/vault.storage.operation.put.time
CUMULATIVEDOUBLE
gce_instance
storage
workload.googleapis.com/vault.token.count
GAUGEINT64
gce_instance
namespace
cluster
workload.googleapis.com/vault.token.lease.count
GAUGEINT64
gce_instance
 
workload.googleapis.com/vault.token.renew.time
GAUGEINT64
gce_instance
 
workload.googleapis.com/vault.token.revoke.time
GAUGEINT64
gce_instance
 

验证配置

本部分介绍如何验证您是否正确配置了 Vault 接收器。Ops Agent 可能需要一两分钟才会开始收集遥测数据。

如需验证 Vault 日志是否已发送到 Cloud Logging,请执行以下操作:

  1. 在 Google Cloud 控制台的导航面板中,选择日志记录功能,然后选择日志浏览器:

    前往 Logs Explorer

  2. 在编辑器中输入以下查询,然后点击运行查询
    resource.type="gce_instance"
    log_id("vault_audit")
    

如需验证 Vault 指标是否已发送到 Cloud Monitoring,请执行以下操作:

  1. 在 Google Cloud 控制台的导航面板中,选择 Monitoring,然后选择  Metrics Explorer

    进入 Metrics Explorer

  2. 在查询构建器窗格的工具栏中,选择名为  MQL PromQL 的按钮。
  3. 验证已在语言切换开关中选择 MQL。语言切换开关位于同一工具栏中,用于设置查询的格式。
  4. 在编辑器中输入以下查询,然后点击运行查询
    fetch gce_instance
    | metric 'workload.googleapis.com/vault.memory.usage'
    | every 1m
    

查看信息中心

如需查看保险柜指标,您必须配置一个图表或信息中心。 保险柜集成服务可为您提供一个或多个信息中心。在您配置集成并且 Ops Agent 开始收集指标数据后,所有信息中心都会自动安装。

您还可以在不安装集成的情况下查看信息中心的静态预览。

如需查看已安装的信息中心,请执行以下操作:

  1. 在 Google Cloud 控制台的导航面板中,选择 Monitoring,然后选择  信息中心

    前往信息中心

  2. 选择信息中心列表标签页,然后选择集成类别。
  3. 点击您要查看的信息中心的名称。

如果您已配置集成,但尚未安装信息中心,请检查 Ops Agent 是否正在运行。如果信息中心内没有图表的指标数据,则信息中心的安装将失败。Ops Agent 开始收集指标后,系统会为您安装信息中心。

如需查看信息中心的静态预览,请执行以下操作:

  1. 在 Google Cloud 控制台的导航面板中,选择 Monitoring,然后选择  集成

    前往集成

  2. 点击 Compute Engine 部署平台过滤条件。
  3. 找到保险柜的条目,然后点击查看详细信息
  4. 选择信息中心标签页以查看静态预览。如果信息中心已安装,您可以通过点击查看信息中心来转到信息中心。

如需详细了解 Cloud Monitoring 中的信息中心,请参阅信息中心和图表

如需详细了解如何使用集成页面,请参阅管理集成

安装提醒政策

提醒政策会指示 Cloud Monitoring 在满足指定条件时通知您。 保险柜集成服务可提供一项或多项提醒政策供您使用。您可以从 Monitoring 中的集成页面查看和安装这些提醒政策。

如需查看可用提醒政策的说明并安装它们,请执行以下操作:

  1. 在 Google Cloud 控制台的导航面板中,选择 Monitoring,然后选择  集成

    前往集成

  2. 找到保险柜的条目,然后点击查看详细信息
  3. 选择提醒标签页。此标签页提供可用提醒政策的说明,并提供一个安装政策的界面。
  4. 安装提醒政策。提醒政策需要知道将提醒触发的通知发送到何处,因此它们需要您提供信息才能进行安装。如需安装提醒政策,请执行以下操作:
    1. 从可用提醒政策列表中,选择您要安装的提醒政策。
    2. 配置通知部分中,选择一个或多个通知渠道。您可以选择禁止使用通知渠道,但如果您这样做,则您的提醒政策将以静默方式触发。您可以在 Monitoring 中查看其状态,但不会收到通知。

      如需详细了解通知渠道,请参阅管理通知渠道

    3. 点击创建政策

如需详细了解 Cloud Monitoring 中的提醒政策,请参阅提醒简介

如需详细了解如何使用集成页面,请参阅管理集成

后续步骤

如需查看如何使用 Ansible 安装 Ops Agent、配置第三方应用和安装示例信息中心的演示,请参阅安装 Ops Agent 以排查第三方应用的问题视频。