排查 Oracle RAC 问题
本页面提供有关裸金属解决方案上的 Oracle RAC 相关问题的排查提示。
查看您的疑问或问题是否已在已知问题和限制页面中得到解决。
SSH 验证失败并显示 OpenSSH 错误
SSH 验证可能会失败,并显示以下 OpenSSH 错误:
OpenSSH_6.7: ERROR [INS-06003] Failed to setup passwordless SSH connectivity During Grid Infrastructure Install
如需解决此问题,请执行以下操作:
在
/etc/ssh/sshd_config
文件中,添加以下行:KexAlgorithms curve25519-sha256@libssh.org,ecdh-sha2-nistp256,ecdh-sha2-nistp384,ecdh-sha2-nistp521,diffie-hellman-group-exchange-sha256,diffie-hellman-group14-sha1,diffie-hellman-group-exchange-sha1,diffie-hellman-group1-sha1
重启
sshd
服务以应用更改。/etc/init.d/sshd restart
SCP 文件复制时间过长
由于裸金属解决方案 SSH 守护程序配置问题,包含重新加密操作的 SCP 文件复制操作可能需要很长时间才能完成。
如需解决此问题,请执行以下操作:
在裸金属解决方案服务器上,在编辑模式下打开
sshd_config
文件。vi /etc/ssh/sshd_config
在
sshd_config
文件中,添加以下行。如果该行已经存在于 文件,请按如下方式修改:ClientAliveInterval 420
重启
sshd
服务以应用更改。/etc/init.d/sshd restart
CRS root.sh
或 OCSSD 失败,并显示 No Network HB
错误
如果节点对 IP 地址 169.254.169.254 执行 ping 操作,CRS root.sh
脚本会失败并显示以下错误:
has a disk HB, but no network HB
IP 地址 169.254.169.254 是 Google Cloud 元数据服务,用于在 Google Cloud 中注册实例。如果您屏蔽此 IP 则 Google Cloud 虚拟机无法启动。而这会反过来 HAIP 通信路由导致裸金属解决方案 RAC 服务器 遇到 HAIP 通信问题。
如需解决此问题,您需要屏蔽相应 IP 地址或停用 HAIP。通过
以下示例展示了如何使用 route
命令屏蔽 IP 地址。通过
route
语句所做的更改不是永久性的。因此,您需要修改系统启动脚本。
如需解决此问题,请执行以下操作:
在所有节点上,先运行以下命令,然后再重新运行
root.sh
脚本。/sbin/route add -host 169.254.169.254 reject
将
rc
脚本设为可执行。chmod +x /etc/rc.d/rc.local
在
/etc/rc.d/rc.local
文件中,添加以下行:/sbin/route add -host 169.254.169.254 reject Enable rc-local service systemctl status rc-local.service systemctl enable rc-local.service systemctl start rc-local.service
重新启动进程无响应
如果您的服务器运行的是 Red Hat Linux、OVM 或 SUSE Linux,并且有许多 LUN 连接到该服务器,则重启过程可能会停止响应。
如需解决此问题,请增加默认的监控计时器超时值:
在
/etc/systemd
下,创建一个名为system.conf.d
的文件夹。在该文件夹中,创建一个
*.conf
文件。例如/etc/systemd/system.conf.d/kernel-reboot-workaround.conf
。在
*.conf
文件中,添加以下代码:[Manager] RuntimeWatchdogSec=5min ShutdownWatchdogSec=5min
另一种替代解决方法如下:
在编辑模式下打开
grub.cfg
文件。vi /etc/default/grub
从设置中移除了
quiet
参数。在参数
GRUB_CMDLINE_LINUX
后面添加以下代码:acpi_no_watchdog DefaultTimeoutStartSec=900s DefaultTimeoutStopSec=900s
重新构建
grub.cfg
文件。grub2-mkconfig -o /boot/efi/EFI/redhat/grub.cfg
Oracle Grid Infrastructure 12c 失败并显示 Rejecting connection
错误
Oracle Grid Infrastructure 12c 安装可能会失败,并出现以下错误:
Rejecting connection from node 2 as MultiNode RAC is not supported or certified in this Configuration.
出现此错误的原因是 IP 地址 169.254.169.254 转发到 Compute Engine 虚拟机的本地元数据服务,因此裸金属解决方案主机看起来像是 Compute Engine 虚拟机。这种配置还可能会泄露 Compute Engine 虚拟机的专用 服务账号密钥。
如需解决此问题,请考虑 NAT 配置的安全隐患,并尽可能限制外部网络访问。请执行以下操作:
禁止访问云虚拟机上的元数据服务:
firewall-cmd --direct --add-rule ipv4 filter FORWARD 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable firewall-cmd --permanent --direct --add-rule ipv4 filter FORWARD 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable
禁止访问裸金属解决方案主机上的元数据服务:
firewall-cmd --direct --add-rule ipv4 filter OUTPUT 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable firewall-cmd --permanent --direct --add-rule ipv4 filter OUTPUT 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unr