排解 Oracle RAC 問題

本頁面提供 Bare Metal 解決方案中 Oracle RAC 相關問題的疑難排解提示。

請前往已知問題和限制頁面,查看您的問題是否已解決。

SSH 驗證失敗,並顯示 OpenSSH 錯誤

SSH 驗證可能會失敗,並顯示下列 OpenSSH 錯誤:

OpenSSH_6.7: ERROR [INS-06003] Failed to setup passwordless SSH connectivity During Grid Infrastructure Install

如要解決這個問題,請按照下列步驟操作:

  1. /etc/ssh/sshd_config 檔案中,新增以下行:

    KexAlgorithms curve25519-sha256@libssh.org,ecdh-sha2-nistp256,ecdh-sha2-nistp384,ecdh-sha2-nistp521,diffie-hellman-group-exchange-sha256,diffie-hellman-group14-sha1,diffie-hellman-group-exchange-sha1,diffie-hellman-group1-sha1
    
  2. 重新啟動 sshd 服務,套用變更。

    /etc/init.d/sshd restart
    

SCP 檔案複製作業時間過長

由於 Bare Metal 解決方案 SSH 守護程式設定問題,因此執行重新設定的 SCP 檔案複製作業可能會花費太長時間。

如要解決這個問題,請按照下列步驟操作:

  1. 在 Bare Metal 解決方案伺服器上,以編輯模式開啟 sshd_config 檔案。

    vi /etc/ssh/sshd_config
    
  2. sshd_config 檔案中新增以下行。如果檔案中已存在該行,請按照下列方式修改:

    ClientAliveInterval 420
    
  3. 重新啟動 sshd 服務,套用變更。

    /etc/init.d/sshd restart
    

CRS root.sh 或 OCSSD 失敗,並顯示 No Network HB 錯誤

如果節點對 IP 位址 169.254.169.254 執行 ping 作業,CRS root.sh 指令碼就會失敗,並顯示以下錯誤:

has a disk HB, but no network HB

IP 位址 169.254.169.254 是 Google Cloud 中繼資料服務,可在 Google Cloud中註冊執行個體。如果您封鎖這個 IP 位址, Google Cloud VM 就無法啟動。這反過來可能會中斷 HAIP 通訊路徑,導致 Bare Metal 解決方案 RAC 伺服器發生 HAIP 通訊問題。

如要解決這個問題,請封鎖 IP 位址或停用 HAIP。以下範例說明如何使用 route 指令封鎖 IP 位址。route 陳述式所做的變更不會保留。因此,您需要修改系統啟動指令碼。

如要解決這個問題,請按照下列步驟操作:

  1. 請在所有節點上執行下列指令,然後再重新執行 root.sh 指令碼。

    /sbin/route add -host 169.254.169.254 reject
    
  2. rc 指令碼設為可執行。

    chmod +x /etc/rc.d/rc.local
    
  3. /etc/rc.d/rc.local 檔案中,新增以下行:

    /sbin/route add -host 169.254.169.254 reject
    
    Enable rc-local service
    systemctl status rc-local.service
    systemctl enable rc-local.service
    systemctl start rc-local.service
    

重新啟動程序沒有回應

如果伺服器執行 Red Hat Linux、OVM 或 SUSE Linux,且有許多 LUN 連接至該伺服器,重新啟動程序可能會停止回應。

如要解決這個問題,請提高預設的監視器逾時值:

  1. /etc/systemd 下,建立名為 system.conf.d 的資料夾。

  2. 在資料夾中建立 *.conf 檔案。例如:/etc/systemd/system.conf.d/kernel-reboot-workaround.conf

  3. *.conf 檔案中,新增下列程式碼:

    [Manager]
    
    RuntimeWatchdogSec=5min
    
    ShutdownWatchdogSec=5min
    

替代解決方法如下:

  1. 在編輯模式中開啟 grub.cfg 檔案。

    vi /etc/default/grub
    
  2. 從設定中移除 quiet 參數。

  3. 在參數 GRUB_CMDLINE_LINUX 後方新增以下內容:

    acpi_no_watchdog DefaultTimeoutStartSec=900s DefaultTimeoutStopSec=900s
    
  4. 重建 grub.cfg 檔案。

    grub2-mkconfig -o /boot/efi/EFI/redhat/grub.cfg
    

Oracle Grid Infrastructure 12c 發生 Rejecting connection 錯誤而失敗

Oracle Grid Infrastructure 12c 安裝作業可能會失敗,並顯示以下錯誤訊息:

Rejecting connection from node 2 as MultiNode RAC is not supported or certified in this Configuration.

發生這個錯誤的原因是 IP 位址 169.254.169.254 會轉送至 Compute Engine VM 的本機中繼資料服務,讓人誤以為裸機解決方案主機是 Compute Engine VM。這類設定也可能會洩漏 Compute Engine VM 的私人服務帳戶金鑰。

如要解決這個問題,請考量 NAT 設定的安全性影響,並盡可能限制外部網路存取權。請執行下列操作:

  • 禁止存取雲端 VM 上的中繼資料服務:

    firewall-cmd --direct --add-rule ipv4 filter FORWARD 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable
    
    firewall-cmd --permanent --direct --add-rule ipv4 filter FORWARD 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable
    
  • 在 Bare Metal 解決方案主機上封鎖存取中繼資料服務的權限:

    firewall-cmd --direct --add-rule ipv4 filter OUTPUT 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable
    
    firewall-cmd --permanent --direct --add-rule ipv4 filter OUTPUT 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unr