Práticas recomendadas para a instalação do RAC na solução Bare Metal

Nesta página, mostramos as práticas recomendadas a serem revisadas antes de instalar o Oracle RAC na solução Bare Metal.

1. Bug de tamanho do nome de cluster do Oracle GI de 18c.

O Oracle GI 18C tem um bug de comprimento de nome de cluster que afeta a Solução Bare Metal.

Ações recomendadas:

O nome do cluster precisa ter menos de 15 caracteres. Caso contrário, o script root.sh falhará na primeira etapa com o erro host name is too long. O nome padrão do cluster tem mais de 15 caracteres. Por isso, você precisa alterá-lo antes de executar o script.

2. SSH

A verificação de SSH pode falhar devido a um problema de OPEN ssh.

OpenSSH_6.7: ERROR [INS-06003] Failed to setup passwordless SSH connectivity During Grid Infrastructure Install (Doc ID 2111092.1)

Ações recomendadas:

Edit the `/etc/ssh/sshd_config` file to contain the following line:

KexAlgorithms curve25519-sha256@libssh.org,ecdh-sha2-nistp256,ecdh-sha2-nistp384,ecdh-sha2-nistp521,diffie-hellman-group-exchange-sha256,diffie-hellman-group14-sha1,diffie-hellman-group-exchange-sha1,diffie-hellman-group1-sha1

Reinicie o serviço sshd para que as alterações entrem em vigor.

/etc/init.d/sshd restart

3. Servidor VNC

Servidores arbitrários, como VNC, serão bloqueados pela configuração padrão de firewall do SO. Em vez disso, faça o túnel de Xwindows ou VNC por SSH:

ssh -L 5901:localhost:5901 bms-host
vncviewer localhost:1

4. Sistema de arquivos raiz

Verifique se o sistema de arquivos raiz / tem espaço livre suficiente.

Você precisa de pelo menos 20 GB disponíveis para que o host crie o sistema de arquivos raiz.

5. DNS

Se você não estiver usando o Cloud DNS, instale o próprio servidor de nomes na Solução Bare Metal, que resolve endereços IP dos hosts. O Oracle Grid Infrastructure usa o comando nslookup para receber o nome DNS nslookup não usa /etc/hosts.

# install these files:
yum makecache
yum install dnsmasq

## Edit /etc/dnsmasq.conf and add these lines:
port=53
domain-needed
bogus-priv
strict-order
expand-hosts
domain=localdomain
address=/.localdomain/127.0.0.1
address=//127.0.0.1
listen-address=127.0.0.1
resolv-file=/etc/dnsmasq-resolv.conf
# Save the file.

# The files /etc/dnsmasq-resolv.conf and /etc/resolv.conf should contain only
# the following one line. Edit them if this is not the case.
nameserver 127.0.0.1

# Start the dnsmasq service:
systemctl restart dnsmasq
systemctl status dnsmasq

# verify the host names are resolved:
nslookup <host name 1>
Server:         127.0.0.1
Address:        127.0.0.1#53

Name:   <host name 1>
Address: 192.168.1.10

nslookup <host name 2>
Server:         127.0.0.1
Address:        127.0.0.1#53

Name:   <host name 2>
Address: 192.168.1.11

6. Instale o NTP.

Instale o Network Time Protocol (NTP) e verifique se todos os nós RAC sincronizam o tempo com o servidor NTP jumpshot ou interno.

# install and start the NTP service
yum install ntp
systemctl start ntpd
# Add the following line to the /etc/ntp.conf file. In this case we are syncing
# with our bastion which is 10.x.x.x in this case. This can be your internal NTP
server. 192.x.x.x is your host.

restrict 192.x.x.x mask 255.255.255.0 nomodify notrap
server 10.x.x.x prefer

ntpdate -qu {your host name}

7. root.sh

Ao executar root.sh, execute um nó por vez.

8. Localhost

Verifique se localhost se refere a 127.0.0.1. O host não coloca o localhost no arquivo /etc/hosts.

9. Ulimit

Verifique se o ulimit para os usuários raiz e Oracle têm limites suficientes.

10. A cópia do arquivo SCP leva muito tempo com a operação de rechaveamento.

Isso ocorre devido a um problema de configuração do daemon ssh da Solução Bare Metal.

Ações recomendadas:

# Modify your ssh config on the host server side.
vi /etc/ssh/sshd_config

# Add this line or modify it if you already set.
ClientAliveInterval 420

# Restart SSH
service sshd restart

11. OracleASM

Se você usarASMLIB do Oracle , defina a variável de ambiente ORACLEASM_SCANORDER para que seu dispositivo ASM de caminho único não seja escolhido primeiro porGerenciamento de armazenamento automático Oracle para criar um anexo da VLAN de monitoramento.

Ação recomendada: defina a ordem de verificação como abaixo.

ORACLEASM_SCANORDER="multipath sd"

12. O CRS root.sh ou OCSSD falha com o erro No Network HB.

Com o Oracle Cluster Ready Services (CRS), o script root.sh pode falhar se o nó puder dar um ping no endereço IP 169.254.169.254. 169.254.169.254 é um serviço de metadados Google Cloud que registra a instância em Google Cloud. Google Cloud As VMs não podem ser inicializadas se você bloquear esse endereço IP. No entanto, os servidores RAC da Solução Bare Metal enfrentarão problemas de comunicação de HAIP, porque podem interromper a rota de comunicação HAIP. Nesse caso, talvez seja necessário bloquear o endereço IP ou desativar HAIP. O exemplo a seguir mostra como bloquear o IP com instruções de rota. A instrução de rota do Linux não é persistente. Portanto, você precisa adicioná-la ao script de rede ou rc.

Ação recomendada: execute isso em todos os nós antes de executar root.sh novamente:

/sbin/route add -host 169.254.169.254 reject

# To make a permanent change, add the route statement to rc script.
chmod +x /etc/rc.d/rc.local

# Edit /etc/rc.d/rc.local and add this line:
/sbin/route add -host 169.254.169.254 reject

# Enable rc-local service
systemctl status rc-local.service
systemctl enable rc-local.service
systemctl start rc-local.service

13. Bug do kernel do Linux

A reinicialização trava quando a máquina tem muitos LUNs conectados para Redhat, OVM, SUSIE LINUX.

Ação recomendada: aumentar o valor de tempo limite padrão do watchdog padrão:

# Under /etc/systemd create a folder named: system.conf.d
# In this folder, create a *.conf file, example:
/etc/systemd/system.conf.d/kernel-reboot-workaround.conf

# The file needs to contain the following information:

[Manager]

RuntimeWatchdogSec=5min

ShutdownWatchdogSec=5min

Ou

use a seguinte solução alternativa:

# Edit the /etc/default/grub file.

# remove quote from settings, then add the following after this parameter
# GRUB_CMDLINE_LINUX :
acpi_no_watchdog DefaultTimeoutStartSec=900s DefaultTimeoutStopSec=900s

2-3. Rebuild the grub
grub2-mkconfig -o /boot/efi/EFI/redhat/grub.cfg

14. Problema no max_sector_kb.

A instalação da Oracle Grid Infrastructure(GI) falha com o erro exceed Max_sector_size nos registros de instalação do CRS e /var/log/messages.

Ações recomendadas:

# Add max_sectors_kb 1024 under the multipath entry for all the devices (WWIDs)
# that need the setting modified (under multipaths). All of them should look 
# similar to the following: multipath
{ wwid xxxxxyyyyyzzzz1111222
alias asm-data1
max_sectors_kb 1024 }

# Delete the map (multipath -f ). This needs to be done for all devices that
# need the setting modified Ex: multipath -f casm-dat001

# Reload the map: multipath -r

# In order to make this setting persistent across reboots, `initramfs` needs to
# be regenerated (the following command will regenerate all kernel versions):

KERNELS=$(rpm -q kernel --qf '%{version}-%{release}.%{arch}\n')
 for kernel_version in $KERNELS
 do
 dracut -v -f -a multipath /boot/initramfs-$kernel_version.img
 done

15. Problema de infraestrutura de grade 12C.

12C Grid Infrastructure pode falhar com Rejecting connection from node 2 as MultiNode RAC isn't supported or certified in this configuration.

Causa:

O IP 169.254.169.254 está sendo encaminhado para o serviço de metadados local de uma VM na nuvem, fazendo com que pareça que o host da Solução Bare Metal é uma VM na nuvem. Essa configuração também vaza as chaves de conta de serviço particular da VM da nuvem.

Ações recomendadas:

Considere as implicações de segurança da configuração NAT e limite o acesso à rede externa o máximo possível.

Bloqueie o acesso ao serviço de metadados na VM na nuvem:

firewall-cmd --direct --add-rule ipv4 filter FORWARD 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable
firewall-cmd --permanent --direct --add-rule ipv4 filter FORWARD 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable

Bloqueie o acesso ao serviço de metadados no host de BMS:

firewall-cmd --direct --add-rule ipv4 filter OUTPUT 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable
firewall-cmd --permanent --direct --add-rule ipv4 filter OUTPUT 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable