如需在 Metrics Explorer 中查看 API 指标,请选择已使用的 API 作为资源类型,然后选择其中一个 serviceruntime 指标。然后使用过滤器和聚合选项来优化数据。找到需要的 API 用量信息后,您可以使用 Cloud Monitoring 创建自定义信息中心和提醒,以帮助您继续监控和维护稳健的应用。您可以在以下页面中找到执行上述操作的方法:
虽然 API 指标是一个非常有用的工具,但您需要考虑一些问题,以确保它们能够提供有用的信息,在根据指标值设置提醒时尤其要考虑。以下最佳做法有助于您充分利用 API 指标数据。
延迟是否导致问题?
虽然某些服务对延迟极为敏感,但对于其他服务,规模和可靠性更为重要。一些 API(例如 Cloud Storage 或 BigQuery 可能会在客户未注意的情况下有几秒钟的高延迟。利用 API 指标数据,您可以了解用户对指定服务的需求。
查找非常规更改
在您决定针对特定指标值发出警报之前,请考虑哪些行为实际上是异常行为。通过查看您的 API 指标,您可以了解到大多数服务的延迟结果都属于正态分布范围:中间是一个大驼峰,两边都是异常值。这些指标有助于您了解正态分布情况,以便您将应用设计为在分布曲线内正常工作。利用这些指标,您还可以将分布更改情况与应用未按预期工作的时间相关联,从而找到问题的根本原因。我们预计第 99 百分位看起来与中间值截然不同 - 我们不希望这些百分位随着时间推移而发生巨大变化。
您也可能会看到某些类型的请求花费的时间比其他请求更长。如果上传到 Google 相册的照片的中间值大小为 4 MB,但您通常上传 20 MB 的 RAW 文件,您上传 20 张照片的平均时间可能比大多数用户长很多,但这仍是您的正常行为。
所有这些都表示在首次检测到一秒长的 RPC 或 5xx HTTP 调用时发出警报并不是特别有用。相反,在调查将 Google 服务作为应用所遇到的问题的可能原因时,应比较返回代码和延迟率随时间推移的变化,并查看与在应用中观察到的问题相关的持续偏离常规的变化。
流量速率
API 指标在有大量流量访问 API 位置最有用。如果您只是间歇性调用服务,则您的 API 指标在统计上不会有效,并且不会为您提供有意义的分类信息。
例如,如果您要跟踪服务的第 99.5 百分位的延迟,并且每小时只执行 100 次调用,观察两小时内的测量数据只会为您提供一个数据点来代表第 99.5 百分位,而不会为您提供有关 API 或应用的正常行为的更多信息。确保流量速率、您跟踪的百分位数以及您考虑的时间窗口会生成足够数量的特征数据点,否则监控数据对您不会有多大帮助。
支持的 API
所有 Google API 和 Google Cloud API,以及在 Cloud Endpoints 和 API Gateway 的基础上构建的 API 都支持 API 指标。如果您是 API 使用者,则可以在 API 信息中心中查看 Consumed API 指标。如果您是 API 提供方,则可以在 Endpoints 信息中心中查看“已提供的 API”指标。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["Hard to understand","hardToUnderstand","thumb-down"],["Incorrect information or sample code","incorrectInformationOrSampleCode","thumb-down"],["Missing the information/samples I need","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2024-10-09。"],[],[]]