排查设备访问权限问题

本页概述了如何排查引导后设备无法访问的问题。您可能会遇到以下问题:

  • 尝试使用 kubectl 进行查询时,出现 Unable to connect to the server: dial tcp 198.18.0.64:443: i/o timeout 等错误消息。
  • 尝试访问界面时出现 Webpage not available 错误。
  • 设备上的已部署应用无法正常运行,或者您无法部署任何新应用。

排查界面无法访问问题

用于调试界面无法访问问题的流程图

  1. 按照界面无法访问的 Runbook 排查问题。
  2. 按照集群可访问性部分中的说明检查集群是否可访问。
  3. 如果集群响应正常,请按照管理 API 可访问部分中的说明验证管理 API 是否可访问。
  4. 如果集群无法访问,并返回 Connection timed outi/o timeout error 等错误,请参阅问题排查指南,了解进一步的问题排查步骤。

基本问题排查步骤

设备上的 LED 位置

  1. 检查两个电源中任一电源上的指示灯(绿色)是否亮起,如图中的箭头所示,以验证机箱的电源。

    LED 灯状态 说明
    纯绿色 系统开启且正常运行
    闪烁的绿色 存在待机电源(电源关闭)
    琥珀色常亮 电源故障(过压/欠压、过温、过流、短路)、风扇故障或输入过压保护
    闪烁的琥珀色 电源错误
    关闭 无电源或待机电源故障(过压/ 欠压、过温、过流、短路、风扇锁定)
  2. 如果指示灯不亮,请先确保电源线已接通电源。如果电源线正常工作,则可能是电源出现故障,需要更换。如需查看更换说明,请参阅电源更换指南

  3. 如果电源正常工作,但设备仍然无法正常运行,请检查是否存在任何松动或损坏的连接

  4. 验证交换机和服务器的 LED 是否亮起,如图片中的箭头所示。

  5. 如果交换机的 Link LED 指示灯呈稳定的绿色,请按照验证交换机是否正常运行部分中的步骤验证交换机是否正常运行。

  6. 如果交换机的运行状况和配置正确,请按照登录 iLO 的步骤中所述的步骤登录 iLO,以检查设备的运行状况。

    1. 如果任何风扇出现严重故障,请与 HPE 支持团队联系以更换严重故障的风扇,并按照风扇更换指南进行更换。
    2. 如果任何刀片处于关机状态,请将其开机:前往“刀片”部分,选择相应刀片,然后按电源按钮。
    3. 如果任何刀片服务器处于严重状态,请前往“刀片服务器”部分,选择处于严重状态的刀片服务器,然后前往“电源”部分,并启动强制系统重置。
    4. 如果机箱健康状况为严重,您还可以尝试通过前往电源和散热标签页来重置机箱。选择管理电源部分,然后点击 Reset EL8000CM Button。此过程会重置机箱管理器固件,可能需要几分钟时间,在此期间机箱将不可用。
    5. 如果问题仍然存在,请前往信息标签页,选择日志,从下拉菜单中选择健康日志,然后将其下载为 CSV 文件。向 Google 提交支持服务工单,并附上日志,以申请更换硬件。

    健康日志

  7. 如果刀片的电源 LED 指示灯亮起,请从连接到设备的计算机对以下刀片 IP 地址执行 ping 测试:

        ping 198.18.0.7  //BM01
        ping 198.18.0.8  //BM02
        ping 198.18.0.9  //BM03
    

    如果 ping 测试成功,则表示节点可正常运行。

  8. 如果所有节点都未能通过 ping 测试,请上报给 Google 支持团队。

  9. 如果您按照本部分中列出的所有步骤操作后问题仍然存在,请将问题上报给 Google 支持团队,以获取进一步帮助。

连接松动或损坏

  1. 验证所有连接是否牢固且已正确就位。如需有关检查和保护设备内线缆连接的指南,请参阅检查线缆

  2. 检查线缆是否有任何可见的损坏。如果任何线缆损坏,请更换。

验证开关是否正常运行

  1. 登录交换机的串行控制台。如果登录成功,请运行以下命令来检查交换机的运行状况。此命令显示交换机的正常运行时间和资源消耗。

    show version
    
  2. 如果串行控制台响应正常,请参阅验证 BGP 摘要,验证交换机上的 BGP 配置。

  3. 如果链路指示灯熄灭或串行控制台无响应,则交换机可能存在故障。将问题上报给 Google 支持团队,以便更换设备。

验证集群可访问性

  1. 使用 IO 凭据登录 gdcloud 会话:

    gdcloud auth login
    
  2. 如果您无法登录,请找到在设备设置期间备份的紧急凭据,以便与命令 root-admin-kubeconfig 搭配使用。

  3. 检查集群是否可访问:

    kubectl --kubeconfig root-admin-kubeconfig get servers -A
    

验证管理 API 可访问性

  1. 使用 IO 凭据登录 gdcloud 会话:

    gdcloud auth login
    

    如果登录失败,请使用管理平面凭据登录。

  2. AIS 数据库有时可能会出现故障或配置错误,导致登录失败。请参阅 IAM-R0009 - AIS 数据库

  3. 如果您无法解决登录问题,请找到在设备设置期间备份的紧急凭据,以便与命令 root-admin-kubeconfig 一起使用。

  4. 获取管理平面 kubeconfig:

    kubectl --kubeconfig root-admin-kubeconfig -n management-kube-system get secret kube-admin-remote-kubeconfig -ojsonpath='{.data.value}' | base64 -d > kube-admin-remote-kubeconfig
    
  5. 获取集群的健康状况:

    kubectl --kubeconfig kube-admin-remote-kubeconfig get --raw='/readyz?verbose'