通过性能信息中心,您可以了解整个 Google Cloud 网络的性能以及项目资源的性能。
借助这些性能监控功能,您可以区分应用中的问题和底层 Google Cloud 网络中的问题。此外,您还可以调查历史网络性能问题。
性能信息中心还会将数据导出到 Cloud Monitoring。 您可以使用 Monitoring 查询数据并获取其他信息。如需了解详情,请参阅性能信息中心指标参考文档。
项目性能视图
在项目性能视图中,性能信息中心会显示以下流量类型的指标:虚拟机到虚拟机的流量以及虚拟机到互联网的流量。
虚拟机实例之间的流量
性能信息中心会显示拥有 Compute Engine 虚拟机 (VM) 实例的可用区丢包和延迟时间指标(在摘要图表和热图视图中)。它提供当前数据以及过去 6 周的指标。例如,您的项目在 Virtual Private Cloud (VPC) 网络中拥有地区 A 和 B 中的虚拟机。在这种情况下,性能信息中心为这两个可用区之间的项目提供丢包和延迟时间指标。
您还可以在表格视图中查看实际虚拟机间流量的样本的汇总延迟时间指标,具体取决于所选时间段。延迟时间详情表列出了虚拟机及其相应的延迟时间详情。
Google Cloud 和互联网位置之间的流量
性能信息中心会显示 Compute Engine 虚拟机 (VM) 实例所在的区域和与与虚拟机通信的最终设备的互联网位置之间延迟时间指标。它提供了当前的延迟时间指标和六周的历史数据。例如,您的项目有一个虚拟私有云网络,该网络在区域 A 中有一些虚拟机,该区域接收来自城市 X 和 Y 的客户端的流量。在这种情况下,性能信息中心会提供您的项目在区域 A 和城市 X 和 Y 之间的延迟时间指标。
如要查看项目指标,请点击性能信息中心页面顶部的查看项目性能。如需查看有关所测量内容的更多示例和详细信息,请参阅指标。
Google Cloud 性能视图
在 Google Cloud 性能视图中,性能信息中心会显示每个可能的 Google Cloud 可用区对的总体 Google Cloud 指标。信息中心会显示 Google Cloud 网络的状态,可让您比较所有 Google Cloud 的性能与项目中观察到的性能。
您可以查看以下流量类型的指标:虚拟机到虚拟机的流量以及 Google Cloud 到互联网的流量。
虚拟机实例之间的流量
性能信息中心会显示所有 Google Cloud 中的丢包和延迟时间指标。这些指标可帮助您了解每个项目信息中心中发现的问题是否是您的项目所独有的。
Google Cloud 性能视图显示所选时间段(默认情况下为一小时)内最多 50 个可用区对的时序数据。
您可以查看任何 Google Cloud 可用区对的网络性能,即使您未在这些可用区部署您的项目也是如此。您可以查看区域级和可用区级的性能。摘要时序图显示最多 50 个可用区对,这些可用区对在所有 Google Cloud 中,虚拟机之间的丢包率最高或延迟时间最长。
Google Cloud 和互联网位置之间的流量
性能信息中心会显示所有 Google Cloud 区域和互联网端点中的虚拟机之间的延迟时间指标。您可以将流量聚合到城市、地理区域和国家/地区级别。您可以查看与特定区域-地理位置对相对应的延迟时间指标,前提是该位置对有足够多的 Google Cloud 流量。
这些指标可帮助您评估每个项目的信息中心中明显的问题是否是您的项目所独有的。全局指标还有助于您规划未来的部署。
如需查看 Google Cloud 性能指标,请点击性能信息中心页面顶部的查看所有 Google Cloud 的性能。如需从项目性能视图查看 Google Cloud 性能指标,您可以将指针悬停在特定可用区对上。如需查看有关所测量内容的更多示例和详细信息,请参阅指标。
指标
性能信息中心提供两种指标:丢包率和延迟时间(往返时间,简称 RTT)。为了获得项目的丢包指标,项目中需要有足够的虚拟机数。如要获得延迟时间指标,您需要有足够的流量。除此之外,性能信息中心无需任何设置。
以下各部分更详细地介绍了这两种指标。
丟包率
丢包率指标显示以下各项之间的主动探测结果:
单个 VPC 网络中的虚拟机。
对等互连的 VPC 网络中的虚拟机(如果其中一个或者两个网络都位于您的项目中)。如果对等互连的网络位于不同的项目中,则丢包率在目标项目中可见。
您的项目使用的共享 VPC 网络中的虚拟机。使用共享 VPC 网络的两个项目之间的丢包率在目标服务项目中可见。
例如,假设项目 A 包含两个 VPC 网络:网络 A(仅在可用区 A 中有虚拟机)和网络 M(仅在可用区 M 中有虚拟机)。如果这两个网络对等互连,则项目 A 的性能信息中心会显示 A/M 地区对的丢包率数据。如果这两个网络没有对等互连,则性能信息中心不显示该可用区对的丢包指标。
另一方面,假设这两个网络不在同一项目中。也就是说,假设网络 A 属于项目 A,而网络 M 属于项目 M。如果这两个网络对等互连并且地区 M 是目标地区,则项目 M 的性能信息中心会显示丢包率数据。相反,当地区 A 是目标地区时,丢包率数据仅对项目 A 可见。如果这两个网络没有对等互连,则两个项目的性能信息中心都不会显示该可用区对的丢包率数据。
性能信息中心汇总通过所有探测收集的数据。也就是说,性能信息中心不允许您分离项目内丢包率与其他类型的数据(例如与另一个项目中的对等互连 VPC 网络相关的丢包率)。但是,您可以使用 Monitoring 深入分析并查看更精细的结果。如需了解详情,请参阅性能信息中心指标参考文档](/network-intelligence-center/docs/performance-dashboard/how-to/viewing-perf-dash-metrics)。
性能信息中心不会通过 Cloud VPN 连接发送探测。
方法
性能信息中心在承载虚拟机的物理主机上运行工作器。这些工作器会插入和接收与您的流量在同一网络上运行的探测数据包。由于这些工作器在物理主机上而不是虚拟机上运行,因此它们不会消耗虚拟机资源,并且流量在虚拟机上不可见。
探测覆盖了可以相互通信的整个虚拟机网格,这不一定与您的流量模式相同。因此,您可能会在性能信息中心上看到丢包迹象,但在应用中没有丢包迹象。
对于所有要探测的虚拟机,我们尝试通过其内部 IP 地址和外部 IP 地址(如果有)来访问。探测不会离开 Google Cloud,但通过使用外部 IP 地址,性能信息中心可以覆盖外部流量(例如来自互联网的流量)使用的部分路径。
使用 UDP 数据包衡量内部 IP 地址的丢包率,使用 TCP 数据包衡量外部 IP 地址的丢包率。
指标可用性和置信度
性能信息中心探测网络中的一部分虚拟机对。 然后根据收集的数据来估算您可能会遇到的丢包率。Google 对数据的置信度取决于探测速率,探测速率取决于您在每个地区拥有的虚拟机数量以及您部署了虚拟机的地区数。例如,两个地区中的 10 个虚拟机比 10 个地区中的 10 个虚拟机具有更高的置信度。
所有虚拟机(包括由 Google Kubernetes Engine (GKE) 创建的虚拟机)都会计入虚拟机总数。
下表介绍了各种不同的置信度。在热图中,较低的置信度会标注星号 (*) 或 N/A
。
Level | 每个可用区所需虚拟机数 | 性能信息中心在热图上显示的内容 |
---|---|---|
95% 置信度 | 10 个虚拟机 x 项目中的可用区数量。例如,如果您的项目有 12 个可用区,则每个可用区必须有 120 个虚拟机。 | 没有任何其他标注的测量结果 |
90% 置信度 | 2.5 个虚拟机 x 项目中的可用区数量。例如,如果您的项目有 12 个可用区,则每个可用区必须有 30 个虚拟机。 | 没有任何其他标注的测量结果 |
置信度较低 | 带有星号的测量结果 | |
探测不足,无法获得有意义的数据 | N/A |
Google Cloud 丢包率指标始终可用。如果每分钟的探测数量少于 400 个,则会显示星号 (*)。
特定于项目的延迟时间
延迟时间指标可通过以下各项之间的客户流量来测量:
- 单个 VPC 网络中的虚拟机
- 对等互连的 VPC 网络之间的虚拟机(如果网络均位于同一项目)
- 虚拟机和互联网端点
此外,共享 VPC 网络中某个服务项目的性能信息中心仅显示该服务项目中可用区的数据。 也就是说,假设可用区 A 和服务项目 A 中的一个虚拟机使用宿主项目与可用区 B 和服务项目 B 中的一个虚拟机进行通信。这两个服务项目或宿主项目均无法获得关于该流量的测量结果。
Google Cloud 延迟时间
延迟时间指标可通过以下各项之间的实际客户流量来测量:
- 单个 VPC 网络中的虚拟机
- 对等互连的 VPC 网络之间的虚拟机
- 虚拟机和互联网端点
项目和 Google Cloud 延迟时间的方法
延迟时间是使用 TCP 数据包来测量的。
根据实际流量样本,延迟时间的计算方式为:发送 TCP 序列号 (SEQ) 与接收包含网络 RTT 和 TCP 堆栈相关延迟时间的相应 ACK 之间经过的时间。信息中心将延迟时间显示为所有相关测量值的中位数。
延迟时间指标基于与 VPC 流日志相同的数据源和采样方法。
项目特定的延迟时间取决于项目中的样本。Google Cloud 延迟时间取决于所有 Google Cloud 中的样本。
全局延迟时间指标源自 TCP 流量标头的被动采样,而不是通过从 Google Cloud 到互联网端点的主动探测。
指标可用性
Google Cloud 延迟时间指标始终可用。只有 TCP 流量大约每分钟达到 1000 个数据包或更高时,每个项目才能使用延迟时间指标。
指标摘要表
下表总结了用于报告丢包率和延迟时间指标的探测方法和协议。
丟包率 | 延迟时间 | |
---|---|---|
探测方法 | 主动探测(综合虚拟机流量) | 被动探测(虚拟机实际流量) |
协议 | UDP(内部 IP 地址)、TCP(外部 IP 地址) | TCP(内部/外部 IP 地址) |
延迟时间视图
互联网到 Google Cloud 流量类型的延迟时间详细信息包括三个视图:表视图、地图视图和时间轴视图。
表视图
表视图会显示所选地理区域与项目中虚拟机实例所在区域之间的中位数 RTT。表包含以下详细信息:
- 国家/地区:国家/地区的名称。
- 城市:城市数量。您可以在国家/地区详细信息图表中查看每个特定城市的延迟时间详细信息。
- 目标区域:具有来自指定国家/地区的用户流量的目标区域数量。
- 中位数延迟时间:国家/地区和区域之间的中位数 RTT(以毫秒为单位)。
地图视图
地图视图显示地理位置和 Google Cloud 区域。
- 您可以查看特定位置和 Google Cloud 区域的平均延迟时间。
- 您可以选择一个 Google Cloud 区域,然后查看将流量发往所选区域的位置。
- 您可以在边栏的延迟时间图中查看特定于位置的详细信息。
- 您可以使用地图中的位置搜索栏来搜索位置。
- 这些位置将以深浅不同的蓝色渐变着色,以在地图上指示平均延迟时间的范围。
时间轴视图
时间轴视图显示所选地理区域和 Google Cloud 区域之间的中位数 RTT。它提供当前的延迟时间指标和六周的历史数据。您可以使用过滤器进一步将流量聚合到城市、地理区域和国家/地区级别。您可以查看与特定区域-地理位置对相对应的延迟时间指标,前提是该位置对有足够多的 Google Cloud 流量。
权限
如需通过 Google Cloud 控制台或通过 Monitoring 访问性能信息中心数据,您必须具有 monitoring.timeSeries.list
权限。下表列出的 Monitoring 角色中包含此权限。
角色名称 | 角色 ID |
---|---|
监控查看者 | roles/monitoring.viewer |
Monitoring Editor | roles/monitoring.editor |
监控管理员 | roles/monitoring.admin |
如需了解包含 monitoring.timeSeries.list
权限的其他角色,请参阅了解角色。
更改项目范围
如需使用现有指标范围并在单个视图中监控多个 Google Cloud 项目,请使用 Google Cloud Console 项目选择器或使用更改范围按钮选择范围项目。您还可以使用上述方法选择一个监控项目。如需了解详情,请参阅性能信息中心指标参考文档。
后续步骤
- 项目性能用例
- 查看特定于项目的丢包信息中心
- 查看 Google Cloud 丢包信息中心
- 查看项目特定的延迟时间信息中心
- 查看 Google Cloud 延迟时间信息中心
- 性能信息中心问题排查
- 详细了解数据包采样