排查 Oracle RAC 问题

本页面提供有关裸金属解决方案上的 Oracle RAC 相关问题的排查提示。

查看您的疑问或问题是否已在已知问题和限制页面中得到解决。

SSH 验证失败并显示 OpenSSH 错误

SSH 验证可能会失败,并显示以下 OpenSSH 错误:

OpenSSH_6.7: ERROR [INS-06003] Failed to setup passwordless SSH connectivity During Grid Infrastructure Install

如需解决此问题,请执行以下操作:

  1. /etc/ssh/sshd_config 文件中,添加以下行:

    KexAlgorithms curve25519-sha256@libssh.org,ecdh-sha2-nistp256,ecdh-sha2-nistp384,ecdh-sha2-nistp521,diffie-hellman-group-exchange-sha256,diffie-hellman-group14-sha1,diffie-hellman-group-exchange-sha1,diffie-hellman-group1-sha1
    
  2. 重启 sshd 服务以应用更改。

    /etc/init.d/sshd restart
    

SCP 文件复制时间过长

由于裸金属解决方案 SSH 守护程序配置问题,包含重新加密操作的 SCP 文件复制操作可能需要很长时间才能完成。

如需解决此问题,请执行以下操作:

  1. 在裸金属解决方案服务器上,在编辑模式下打开 sshd_config 文件。

    vi /etc/ssh/sshd_config
    
  2. sshd_config 文件中,添加以下行。如果该行已经存在于 文件,请按如下方式修改:

    ClientAliveInterval 420
    
  3. 重启 sshd 服务以应用更改。

    /etc/init.d/sshd restart
    

CRS root.sh 或 OCSSD 失败,并显示 No Network HB 错误

如果节点对 IP 地址 169.254.169.254 执行 ping 操作,CRS root.sh 脚本会失败并显示以下错误:

has a disk HB, but no network HB

IP 地址 169.254.169.254 是 Google Cloud 元数据服务,用于在 Google Cloud 中注册实例。如果您屏蔽此 IP 则 Google Cloud 虚拟机无法启动。而这会反过来 HAIP 通信路由导致裸金属解决方案 RAC 服务器 遇到 HAIP 通信问题。

如需解决此问题,您需要屏蔽相应 IP 地址或停用 HAIP。通过 以下示例展示了如何使用 route 命令屏蔽 IP 地址。通过 route 语句所做的更改不是永久性的。因此,您需要修改系统启动脚本。

如需解决此问题,请执行以下操作:

  1. 在所有节点上,先运行以下命令,然后再重新运行 root.sh 脚本。

    /sbin/route add -host 169.254.169.254 reject
    
  2. rc 脚本设为可执行。

    chmod +x /etc/rc.d/rc.local
    
  3. /etc/rc.d/rc.local 文件中,添加以下行:

    /sbin/route add -host 169.254.169.254 reject
    
    Enable rc-local service
    systemctl status rc-local.service
    systemctl enable rc-local.service
    systemctl start rc-local.service
    

重新启动进程无响应

如果您的服务器运行的是 Red Hat Linux、OVM 或 SUSE Linux,并且有许多 LUN 连接到该服务器,则重启过程可能会停止响应。

如需解决此问题,请增加默认的监控计时器超时值:

  1. /etc/systemd 下,创建一个名为 system.conf.d 的文件夹。

  2. 在该文件夹中,创建一个 *.conf 文件。例如 /etc/systemd/system.conf.d/kernel-reboot-workaround.conf

  3. *.conf 文件中,添加以下代码:

    [Manager]
    
    RuntimeWatchdogSec=5min
    
    ShutdownWatchdogSec=5min
    

另一种替代解决方法如下:

  1. 在编辑模式下打开 grub.cfg 文件。

    vi /etc/default/grub
    
  2. 从设置中移除了 quiet 参数。

  3. 在参数 GRUB_CMDLINE_LINUX 后面添加以下代码:

    acpi_no_watchdog DefaultTimeoutStartSec=900s DefaultTimeoutStopSec=900s
    
  4. 重新构建 grub.cfg 文件。

    grub2-mkconfig -o /boot/efi/EFI/redhat/grub.cfg
    

Oracle Grid Infrastructure 12c 失败并显示 Rejecting connection 错误

Oracle Grid Infrastructure 12c 安装可能会失败,并出现以下错误:

Rejecting connection from node 2 as MultiNode RAC is not supported or certified in this Configuration.

出现此错误的原因是 IP 地址 169.254.169.254 转发到 Compute Engine 虚拟机的本地元数据服务,因此裸金属解决方案主机看起来像是 Compute Engine 虚拟机。这种配置还可能会泄露 Compute Engine 虚拟机的专用 服务账号密钥。

如需解决此问题,请考虑 NAT 配置的安全隐患,并尽可能限制外部网络访问。请执行以下操作:

  • 禁止访问云虚拟机上的元数据服务:

    firewall-cmd --direct --add-rule ipv4 filter FORWARD 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable
    
    firewall-cmd --permanent --direct --add-rule ipv4 filter FORWARD 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable
    
  • 禁止访问裸金属解决方案主机上的元数据服务:

    firewall-cmd --direct --add-rule ipv4 filter OUTPUT 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable
    
    firewall-cmd --permanent --direct --add-rule ipv4 filter OUTPUT 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unr