性能信息中心概览

借助性能信息中心,您可以查看 Virtual Private Cloud (VPC) 网络的性能。它提供了您拥有虚拟机 (VM) 实例的区域之间的丢包(可用性)和延迟时间(往返时间 (RTT))指标。

性能信息中心为各区域的虚拟机间丢包和延迟时间 (RTT) 提供了概览摘要图表和热图视图。您可以查看过去六周的历史值。您还可以使用 Cloud Monitoring 查询这些指标。

借助这些网络性能监控功能,您可以快速区分应用中的问题和基础 Google Cloud 网络中的问题,并轻松调试历史网络性能问题。

指标

性能信息中心提供两种指标:丢包指标和延迟时间指标。这两个指标均针对内部和外部 IP 地址进行衡量。使用 UDP 数据包衡量内部 IP 地址的丢包率,使用 TCP 数据包衡量外部 IP 地址的丢包率。延迟时间指标均基于 TCP。

系统会为您拥有虚拟机的项目中的所有区域自动收集性能信息中心指标。性能信息中心不需要手动设置或手动安装探测器。不过,若要获得丢包指标,您的项目中需要有足够的虚拟机,若要获得延迟时间指标,您需要有足够的流量。

所有虚拟机(包括由 Google Kubernetes Engine (GKE) 创建的虚拟机)都会计入项目中的虚拟机总数。

丢包指标

丢包指标显示指定 VPC 网络中的虚拟机之间的主动探测结果。性能信息中心在承载虚拟机的物理主机上运行工作器。这些工作器会插入和接收与您的流量在同一网络上运行的探测数据包,从而揭示该网络上的问题。由于这些工作器在物理主机上而不是在虚拟机上运行,因此它们不会消耗虚拟机资源,并且流量在虚拟机上不可见。系统会针对所有区域对汇总丢包率。

丢包测量有以下三种级别的置信度,具体取决于探测次数(探测次数与虚拟机数量成正比):

  • 如果每分钟的探测次数足够多,则显示的值的置信度为 90% 或更高。

  • 如果每分钟的探测数量不足以达到 90% 的置信度,但超过下限,则热图会在该值旁边显示一个星号 (*)。

  • 如果未达到探测数下限,则热图将显示 NA

丢包率是通过网络子集中的探测来测量的,以便估算您在同一网络上可能会遇到的丢包。探测速率取决于每个地区的虚拟机数量,而数据的置信度取决于探测速率。

  • 为了使性能信息中心数据具有 95% 的置信度(可能的最大误差是 5%),您在每个区域中必须具有 10 个虚拟机 * 项目中的区域数(如果您的项目中有 12 个区域,则每个区域中必须有 120 个虚拟机,才能在丢包率指标上实现 90% 的置信度)。

  • 为了达到 90% 的置信度,每个区域拥有 2.5 个虚拟机 x 项目中的地区数就足够了(如果有 12 个区域,则每个区域必须有 30 个虚拟机)。

  • 如果由于探测数量较少而导致置信度不够高,则性能信息中心会显示 *

  • 如果因探测数量太少而无法达到任何置信度,则性能信息中心会显示 NA

使用共享 VPC 的两个项目之间的丢包将计入目标服务项目。

探测覆盖了可以相互通信的整个虚拟机网格,这不一定与您的流量模式相同。因此,您可能会在性能信息中心上看到丢包迹象,但在应用中没有丢包迹象。

延迟时间指标

根据您实际 TCP 虚拟机流量的样本,此指标类似于用于 VPC 流日志的采样方法。延迟时间的计算方式为:发送 TCP 序列号 (SEQ) 与接收包含网络 RTT 和 TCP 堆栈相关延迟时间的相应 ACK 之间经过的时间。界面将延迟显示为所有相关测量值的中位数。

仅当 TCP 流量为每分钟 1000 个数据包或更多时,才可以使用延迟时间指标。

指标摘要表

下表总结了用于报告丢包和延迟时间指标的探测方法和协议。

丟包率 延迟时间
探测方法 主动探测(综合虚拟机流量) 被动探测(虚拟机实际流量)
协议 UDP(内部 IP),TCP(外部 IP) TCP(内部/外部 IP)

使用场景

当前性能诊断:它是网络还是应用?

借助性能信息中心,您可以实时了解 VPC 网络性能,从而帮助您确定应用问题是软件问题还是网络问题。如果您看到大量丢包或高延迟时间,则可能至少一部分是 Google Cloud 网络问题。如果丢包和延迟时间看起来很正常,则可能是该应用有问题。

场景:调查当前发生的问题

您打开了性能信息中心,并在过去一个小时内的丢包摘要图表中看到较大峰值。由于此图表汇总了所有区域的丢包情况,因此您还不知道发生丢包的位置。

当前丢包(点击可放大)。
当前丢包(点击可放大)

为了进一步调查以查看区域对热图,请点击峰值出现的时间。您可以通过拖动摘要图表时间轴上的选择器来精确调整正在查看的时间。

点击某个时间以查看该时间的详细信息(点击可放大)。
点击某个时间以查看该时间的详细信息(点击可放大)

热图会显示您在摘要图表上选择的时间的数据。热图方形根据热图左侧的图例进行颜色编码。每种颜色反映了各区域之间的不同丢包百分比。

特定时间的丢包热图(点击可放大)。
特定时间的丢包热图(点击可放大)

丢包率是在每个方向上测量的,因此显示丢包的方形表示从源轴指示的区域到目标轴中指示的区域的丢包。热图中的每个方形还显示丢包的百分比值。

要查看专用于区域对的图表,请点击来源区域 europe-west1-b 到目标区域 us-central1-a 的紫色方形。详情图表会保留您从前一页中选择的时间,并显示蓝色的“固定”图标。

选定时间段内的丢包率(点击可放大)。
选定时间段内的丢包率(点击可放大)

您会在图表上看到两条线,每个数据流方向一条。在此示例中,紫色线显示了从源区域 europe-west1-b 到目标区域 us-central1-a 的流量的丢包率。红线显示相反方向(从源区域 us-central1-a 到目标区域 europe-west1-b)的丢包率。

图表显示此丢包峰值是一个离群值。点击右上角的时间选择器可以更改此区域对显示的数据时间窗口。您最多可以查看 6 周的数据。在此示例中,您可以点击 7 天以查看所选区域对的丢包趋势。

7 天时间段内的丢包率(点击可放大)。
7 天时间段内的丢包率(点击可放大)

历史性能诊断

场景:调查最近发生的问题

您正在调查本周早些时候发生的延迟时间问题。您可以使用性能信息中心内的历史性能数据来检查相关地区。

要更改视图,请点击延迟时间标签页。

“延迟时间”标签页(点击可放大)。
“延迟时间”标签页(点击可放大)

如需调整延迟时间摘要图表的时间窗口,您可以使用右上角的时间选择器。在此示例中,将其设置为 1 小时。要查看热图以了解特定时间的延迟情况,请在图表的时间轴上点击该时间。

选择时间(点击可放大)。
选择时间(点击可放大)

由于图表左侧一直显示较高的值,因此,请点击时间轴以查看在该时间点的延迟情况热图。

延迟时间热图(点击可放大)。
延迟时间热图(点击可放大)

热图中的亮紫色方形显示区域 asia-east1-beurope-west2-c 之间的延迟时间为 261 毫秒。如需进行进一步调查,请点击亮紫色方形。随即打开的延迟时间详情图表会保留您从前一页中选择的时间,并显示蓝色的“固定”图标。

延迟时间峰值(点击可放大)。
延迟时间峰值(点击可放大)

蓝线显示了从 europe-west2-casia-east1-b 的流量的延迟时间峰值。

如需放大峰值,请点击并拖动鼠标。

点击并拖动以进行缩放(点击可放大)。
点击并拖动以进行缩放(点击可放大)

您现在可以看到高峰持续了 2 到 3 分钟,并在上午 8:19 达到峰值。

延迟时间峰值详情(点击可放大)。
延迟时间峰值详情(点击可放大)

查看历史数据时直观呈现数据

查看一天或更长时间段内的数据时,图表将在主要数据周围以浅色(光环)提供其他数据。由于时间段较长,因此系统会在较长时间间隔内汇总数据。例如,一小时的数据以一分钟的时间间隔进行汇总,而 24 小时的数据以五分钟的时间间隔进行汇总。线条周围的较浅颜色显示了从最低到最高的值范围,这些值会被汇总以绘制主线条。

汇总的历史数据(点击可放大)。
汇总的历史数据(点击可放大)

后续步骤