插桩和可观测性

插桩是指生成或收集有关应用运行时行为的数据的特定代码。在应用内部，插桩（例如 OpenTelemetry 提供的插桩）可以收集有关语言运行时、框架或应用逻辑的领域特定信息，然后将该数据发送到 Google Cloud 项目或其他目标位置。这些数据（也称为遥测数据）包括指标、日志和跟踪记录。

系统级指标（如 CPU 使用率、内存用量和磁盘使用率）对于检测应用的问题非常有用，但它们无法提供关于应用级问题的详细分析洞见。插桩可帮助您的应用生成诊断问题根本原因所需的数据，因为生成的遥测数据会显示应用内部发生的情况。例如，日志通常包含有关程序的上下文，例如特定错误消息或堆栈轨迹，以及源代码中的位置。同样，分布式跟踪记录可帮助您了解多个服务在处理请求时如何进行交互。通过指标，您可以在应用行为不正常时收到通知。

对应用进行插桩涉及生成遥测数据并将其发送到可存储和查询数据的位置。例如，您的插桩可能会将遥测数据发送到 Google Cloud 项目。Google Cloud Observability 中的服务可帮助您收集、分析和关联遥测数据。它们还提供了内置默认设置，可帮助您更快地开始使用，例如默认信息中心和提醒政策。如需详细了解 Google Cloud Observability，请参阅 Google Cloud中的可观测性。

下图说明了应用如何使用插桩生成遥测数据并将其发送到存储系统：

此图演示进行中插桩的架构。

如上图所示，插桩代码存在于应用的进程中，并与应用进行交互以生成遥测数据。然后，插桩框架将遥测数据导出到已配置的存储系统。在该图中，存储系统是您的 Google Cloud 项目。

不受制于供应商的插桩框架简介

即使您打算仅将遥测数据发送到 Google Cloud，我们也建议您使用不受制于供应商的开源插桩框架来对应用进行插桩。这类框架具有以下主要优势：

不受制于特定供应商: 与供应商无关的框架不依赖于任何特定的供应商，它们为生成的遥测提供自己的数据模型。因此，您可以向多个供应商发送数据，并且通常可以更改所使用的供应商，而无需修改代码。
收集遥测数据的标准化流程: OpenTelemetry 等精心设计的框架提供了一种标准化方法来从应用中收集遥测数据。您可以对采用受支持语言编写的应用使用相同的框架。由于该框架已标准化，因此您可以收集并比较来自所有服务的遥测数据。
可互操作的库: 插桩框架包含一个丰富的库生态系统，用于收集遥测信号，并且这些库可互操作。例如，OpenTelemetry 提供了用于收集跟踪记录数据和指标数据的库。您可以使用任一库，也可以同时使用这两个库。

一般建议

本部分包含有关如何对应用进行插桩的一般建议。如需查看 Google Cloud特有的指导，请参阅选择插桩方法。

如需收集指标，我们建议您使用 OpenTelemetry 或 Prometheus：

OpenTelemetry 是一个开源项目，用于为应用插桩提供统一框架。它还为常用库提供了插桩库。OpenTelemetry 提供了一个独立的代理 OpenTelemetry 收集器，可接收、转换和导出遥测数据。OpenTelemetry 收集器配置文件决定了 OpenTelemetry 收集器的行为。如需将遥测数据发送到代理或直接发送到存储系统，请使用 OpenTelemetry 协议 (OTLP)。
Prometheus 是一种常用的开源监控系统。您可以使用 Prometheus 客户端库从应用生成指标，并且有一个第三方生态系统，其中包含用于常用框架的插桩库。Prometheus 客户端会将其指标公开为 HTTP 端点，代理可抓取该端点。

如需收集跟踪记录，我们建议您使用 OpenTelemetry。

如需收集日志，我们建议您使用可配置为输出 Cloud Logging 的 JSON 结构日志的框架。对于写入日志数据，我们给出以下建议：

Go：slog。
Python：logging。
JavaScript：Pino。
Java：采用 Log4j2 的 SLF4J。

Google Cloud 解决方案

Google Cloud Observability 为收集遥测数据提供了灵活的选项：

如需查看演示如何对应用进行插桩以将遥测数据发送到 Google Cloud的代码示例，请参阅以下内容：
- 示例概览。
- Go 插桩示例。
- Java 插桩示例。
- Node.js 插桩示例。
- Python 插桩示例。
如需了解如何从应用中收集和查看延迟时间数据，请参阅查看应用请求的延迟时间。
如需了解 Google Cloud针对 Prometheus 的全托管式多云跨项目解决方案，请参阅 Google Cloud Managed Service for Prometheus。
如需了解如何配置 Ops Agent，请参阅以下文档：
- 收集 OTLP 指标和跟踪记录。
- 收集 Prometheus 指标。

后续步骤

如需详细了解 Google Cloud Observability，请参阅 Google Cloud中的可观测性。