性能信息中心指标和视图

本页面介绍用于确定 Google Cloud 项目资源性能和整个 Google Cloud 性能的指标。您还可以找到有关各种视图的详细信息,其中显示有关这些性能指标的更多详细信息。

指标

性能信息中心提供两种指标:丢包率和延迟时间(往返时间,简称 RTT)。如需获取 Google Cloud 项目的丟包指标,该项目中必须有足够数量的虚拟机。如需获取延迟时间指标,您需要足够的流量。此外,无需设置性能信息中心。

以下各部分更详细地介绍了这两种指标。

丟包率

丢包率指标显示以下各项之间的主动探测结果:

  • 单个 VPC 网络中的虚拟机。

  • 对等互连 VPC 网络中的虚拟机(当其中一个或两个网络位于您的项目内时)。如果对等互连的网络位于不同的项目中,则会在目标项目中看到丟包。

  • 您的项目使用的共享 VPC 网络中的虚拟机。使用共享 VPC 网络的两个项目之间的丢包率在目标服务项目中可见。

例如,假设项目 A 包含两个 VPC 网络:网络 A(仅在可用区 A 中有虚拟机)和网络 M(仅在可用区 M 中有虚拟机)。如果这两个网络对等互连,则项目 A 的性能信息中心会显示 A/M 地区对的丢包率数据。如果网络建立对等互连,则性能信息中心不会显示该区域对的丟包指标。

如果这两个网络不在同一个项目中,请注意每个网络的性能信息中心何时显示指标。也就是说,假设网络 A 属于项目 A,网络 M 属于项目 M。如果这两个网络对等互连并且地区 M 是目标地区,则项目 M 的性能信息中心会显示丢包率数据。相反,当地区 A 是目标地区时,丢包率数据仅对项目 A 可见。如果这两个网络没有对等互连,则两个项目的性能信息中心都不会显示该可用区对的丢包率数据。

性能信息中心汇总通过所有探测收集的数据。也就是说,性能信息中心不允许您分离项目内丢包率与其他类型的数据(例如与另一个项目中的对等互连 VPC 网络相关的丢包率)。不过,您可以使用 Monitoring 查看更详细的结果。如需了解详情,请参阅性能信息中心指标参考文档

性能信息中心不会通过 Cloud VPN 连接发送探测。

方法

性能信息中心在承载虚拟机的物理主机上运行工作器。这些工作器会插入和接收与您的流量在同一网络上运行的探测数据包。由于工作器在物理主机上运行,而不是在您的虚拟机上运行,因此这些工作器不会使用虚拟机资源,并且流量在您的虚拟机上不可见。

探测覆盖了可以相互通信的整个虚拟机网格,这不一定与您的流量模式相同。因此,您可能会在性能信息中心上看到丢包迹象,但在应用中没有丢包迹象。

对于所有探测的虚拟机,Google Cloud 会尝试使用其内部 IP 地址和外部 IP 地址(如果存在)来访问该虚拟机。探测不会离开 Google Cloud,但通过使用外部 IP 地址,性能信息中心可以涵盖外部流量使用的部分路径,例如来自互联网的流量。

使用 UDP 数据包衡量内部 IP 地址的丢包率,使用 TCP 数据包衡量外部 IP 地址的丢包率。

指标可用性和置信度

性能信息中心探测网络中的一部分虚拟机对。 然后根据收集的数据来估算您可能会遇到的丢包率。Google 对数据的置信度取决于探测速率,探测速率取决于您在每个地区拥有的虚拟机数量以及您部署了虚拟机的地区数。例如,两个地区中的 10 个虚拟机比 10 个地区中的 10 个虚拟机具有更高的置信度。

所有虚拟机(包括由 Google Kubernetes Engine (GKE) 创建的虚拟机)都会计入虚拟机总数。

下表介绍了各种不同的置信度。在热图中,较低的置信度会标注星号 (*) 或 N/A

Level 每个可用区所需虚拟机数 性能信息中心在热图上显示的内容
95% 置信度 10 个虚拟机乘以项目中的可用区数。例如,如果您的项目有 12 个可用区,则每个可用区必须有 120 个虚拟机。 没有任何其他标注的测量结果
90% 置信度 2.5 个虚拟机乘以项目中的可用区数。例如,如果您的项目有 12 个可用区,则每个可用区必须有 30 个虚拟机。 没有任何其他标注的测量结果
置信度较低 带有星号的测量结果
探测不足,无法获得有意义的数据 N/A

Google Cloud 丢包率指标始终可用。如果每分钟的探测数量少于 400 个,则会显示星号 (*)。

特定于项目的延迟时间

延迟时间指标可通过以下各项之间的客户流量来测量:

  • 单个 VPC 网络中的虚拟机
  • 对等互连的 VPC 网络之间的虚拟机(如果网络均位于同一项目)
  • 虚拟机和互联网端点

此外,共享 VPC 网络中某个服务项目的性能信息中心仅显示该服务项目中可用区的数据。 也就是说,假设可用区 A 和服务项目 A 中的一个虚拟机使用宿主项目与可用区 B 和服务项目 B 中的一个虚拟机进行通信。这两个服务项目或宿主项目均无法获得关于该流量的测量结果。

Google Cloud 延迟时间

延迟时间指标可通过以下各项之间的实际客户流量来测量:

  • 单个 VPC 网络中的虚拟机
  • 对等互连的 VPC 网络之间的虚拟机
  • 虚拟机和互联网端点

项目和 Google Cloud 延迟时间的方法

延迟时间是使用 TCP 数据包来测量的。

根据实际流量的样本,延迟时间是指从发送 TCP 序列号 (SEQ) 到接收包含网络 RTT 和 TCP 栈相关延迟时间的相应 ACK 之间经过的时间。信息中心将延迟时间显示为所有相关测量值的中位数。

延迟时间指标基于与 VPC 流日志相同的数据源和采样方法。

项目特定的延迟时间取决于项目中的样本。Google Cloud 延迟时间取决于所有 Google Cloud 中的样本。

全局延迟时间指标源自 TCP 流量标头的被动采样,而不是通过从 Google Cloud 到互联网端点的主动探测。

延迟时间指标异常

请注意以下延迟时间指标异常:

  • 对于低速率环境,Network Intelligence Center 针对延迟时间指标使用 60 秒的探测时间。因此,当基于 TCP 的服务返回延迟的应用级响应时,基于数据包采样的 RTT 指标可能会错误地报告高延迟水平。通常,您可以通过检查不准确的 RTT 级别是否与应用级延迟对应来识别出该级别。

    虽然基于 TCP 的服务会快速做出 ACK 响应,但采样会错过 ACK,并将后续的数据响应记为关闭 ACK,所以会把整体 RTT 测量失真。在这些情况下,您可以忽略 RTT 指标。

  • 有时,特定于项目的延迟时间数据与全局延迟时间数据不一致。如果全局数据集也包含相对于特定项目使用的网络路径而具有明显不同的延迟时间的其他网络路径,则可能会出现此类不匹配。

指标可用性

Google Cloud 延迟时间指标始终可用。仅当 TCP 流量约为每分钟 1,000 个数据包或更高时,每个项目的延迟时间指标才可用。

指标摘要表

下表总结了用于报告丢包率和延迟时间指标的探测方法和协议。

丟包率 延迟时间
探测方法 主动探测(综合虚拟机流量) 被动探测(虚拟机实际流量)
协议 UDP(内部 IP 地址)、TCP(外部 IP 地址) TCP(内部/外部 IP 地址)

延迟时间视图

互联网到 Google Cloud 流量类型的延迟时间详细信息包括三个视图:视图、地图视图和时间轴视图。

表视图

视图会显示所选地理区域与项目中虚拟机实例所在区域之间的中位数 RTT。表包含以下详细信息:

  • 国家/地区:国家/地区的名称。
  • 城市:城市的数量。您可以在国家/地区详细信息图表中查看每个特定城市的延迟时间详细信息。
  • 目的地区域:来自指定国家/地区的用户具有流量的目标区域的数量。
  • 延迟时间中位数:国家和区域之间的 RTT 中位数(以毫秒为单位)。

地图视图

地图视图显示地理位置(都市圈或城市)和 Google Cloud 区域。

  • 查看特定位置和 Google Cloud 区域的延迟时间中位数。
  • 选择一个 Google Cloud 区域,并查看向所选区域发送流量的位置。
  • 在边栏的延迟时间图中查看特定位置的详细信息。
  • 使用地图中的搜索框搜索营业地点。

位置以深浅不同的蓝色渐变着色,以在地图上指示延迟时间中位数的范围。在下图中,全球地图上显示给定城市的圆圈颜色可以是一种蓝色。蓝色越深,该城市从给定 Google Cloud 区域的延迟时间越长。

地图上的延迟时间中位数范围。
地图上的延迟时间中位数范围(点击可放大)。

时间轴视图

时间轴视图显示所选地理区域和 Google Cloud 区域之间的中位数 RTT。它提供当前的延迟时间指标和六周的历史数据。您可以使用过滤器进一步将流量聚合到城市、地理区域和国家/地区级别。您可以查看与特定区域-地理位置对相对应的延迟时间指标,前提是该位置对有足够多的 Google Cloud 流量。