管理服务错误

借助 Error Reporting,您可以自动捕获应用崩溃,并将这些崩溃的堆栈轨迹分成错误组,从而识别、了解和管理应用错误。但是,某些 Google Cloud 服务错误将记录为错误消息,并且不会采用堆栈轨迹的形式。Error Reporting 的“服务错误”功能会自动捕获此类 Google Cloud 服务错误并将这些错误分组,以便您快速识别系统中的问题,并在出现新错误时收到通知。

例如,您可能会在使用 Cloud Run 时遇到某种情况,您在发出请求时达到了容器实例数上限。当此事件被记录到 Cloud Logging 中时,Error Reporting 中的 Service Error 将自动捕获此错误,将其中的错误显示为错误,并通知您此事件已发生。此外,为了帮助解决这些错误,某些 Google Cloud 服务还提供了问题排查文档,您可以从 Error Reporting 页面访问该文档。

查看错误

如需查看服务错误,请转到 Cloud Console 中的 Error Reporting 页面:

转至 Error Reporting

当 Error Reporting 检测到包含新服务错误的日志并将其分组时,您可以在 Error Reporting 概览页面的类型列中看到该服务错误。

Error Reporting 概览页面

对于具有已记录解决方案的服务错误,Error Reporting 提供了 Google Cloud 服务提供的问题排查指南的链接。

错误示例

下表列出了 Error Reporting 服务错误捕获的一些错误,而非全部。

Google Cloud 服务名称 错误类型
Dataflow 工作器日志限制
内存不足(系统)
缺少自定义子网
步骤中的耗时操作
JRE 崩溃
工作器 JAR 文件配置错误
Cloud Run 超出内存上限
没有可用的实例
Google Kubernetes Engine Pod 运行状况不佳,探测失败
Pod 无法调度
使用退避算法重启失败的容器
未装载的卷
容器映像拉取失败
未能更新端点
未找到密钥/configmap