Résoudre les problèmes liés à Oracle RAC

Cette page fournit des conseils de dépannage pour les problèmes liés à la solution Oracle RAC sur Bare Metal.

Vérifiez si votre question ou votre problème a déjà été traité sur la page Limites et problèmes connus.

La validation SSH échoue en raison d'une erreur OpenSSH

La validation SSH peut échouer et générer l'erreur OpenSSH suivante:

OpenSSH_6.7: ERROR [INS-06003] Failed to setup passwordless SSH connectivity During Grid Infrastructure Install

Pour résoudre ce problème, procédez comme suit :

  1. Dans le fichier /etc/ssh/sshd_config, ajoutez la ligne suivante:

    KexAlgorithms curve25519-sha256@libssh.org,ecdh-sha2-nistp256,ecdh-sha2-nistp384,ecdh-sha2-nistp521,diffie-hellman-group-exchange-sha256,diffie-hellman-group14-sha1,diffie-hellman-group-exchange-sha1,diffie-hellman-group1-sha1
    
  2. Redémarrez le service sshd pour appliquer les modifications.

    /etc/init.d/sshd restart
    

La copie du fichier SCP prend trop de temps

La copie du fichier SCP avec l'opération de recréation de clés peut prendre trop de temps en raison d'un problème de configuration du daemon SSH de la solution Bare Metal.

Pour résoudre ce problème, procédez comme suit :

  1. Sur votre serveur de solution Bare Metal, ouvrez le fichier sshd_config en mode Édition.

    vi /etc/ssh/sshd_config
    
  2. Dans le fichier sshd_config, ajoutez la ligne suivante. Si la ligne existe déjà dans le fichier, modifiez-la comme suit:

    ClientAliveInterval 420
    
  3. Redémarrez le service sshd pour appliquer les modifications.

    /etc/init.d/sshd restart
    

Échec du CRS root.sh ou OCSSD avec l'erreur No Network HB

Le script CRS root.sh échoue avec l'erreur suivante si le nœud pingue l'adresse IP 169.254.169.254:

has a disk HB, but no network HB

L'adresse IP 169.254.169.254 correspond au service de métadonnées Google Cloud qui enregistre l'instance dans Google Cloud. Si vous bloquez cette adresse IP, la VM Google Cloud ne pourra pas démarrer. Cela peut à son tour interrompre la route de communication HAIP, ce qui entraîne des problèmes de communication HAIP pour les serveurs RAC de la solution Bare Metal.

Pour résoudre ce problème, vous devez bloquer l'adresse IP ou désactiver HAIP. L'exemple suivant montre comment bloquer une adresse IP à l'aide des commandes route. Les modifications apportées par l'instruction route ne sont pas persistantes. Vous devez donc modifier les scripts de démarrage du système.

Pour résoudre ce problème, procédez comme suit :

  1. Sur tous les nœuds, exécutez la commande suivante avant de réexécuter le script root.sh.

    /sbin/route add -host 169.254.169.254 reject
    
  2. Rendez le script rc exécutable.

    chmod +x /etc/rc.d/rc.local
    
  3. Dans le fichier /etc/rc.d/rc.local, ajoutez les lignes suivantes:

    /sbin/route add -host 169.254.169.254 reject
    
    Enable rc-local service
    systemctl status rc-local.service
    systemctl enable rc-local.service
    systemctl start rc-local.service
    

Le processus de redémarrage ne répond pas

Si votre serveur exécute Red Hat Linux, OVM ou SUSE Linux, et que de nombreux LUN sont associés, le processus de redémarrage peut cesser de répondre.

Pour résoudre ce problème, augmentez la valeur par défaut du délai du watchdog:

  1. Sous /etc/systemd, créez un dossier nommé system.conf.d.

  2. Dans le dossier, créez un fichier *.conf. Exemple : /etc/systemd/system.conf.d/kernel-reboot-workaround.conf.

  3. Dans votre fichier *.conf, ajoutez le code suivant :

    [Manager]
    
    RuntimeWatchdogSec=5min
    
    ShutdownWatchdogSec=5min
    

Voici une autre solution:

  1. Ouvrez le fichier grub.cfg en mode Édition.

    vi /etc/default/grub
    
  2. Supprimez le paramètre quiet des paramètres.

  3. Ajoutez le code suivant après le paramètre GRUB_CMDLINE_LINUX:

    acpi_no_watchdog DefaultTimeoutStartSec=900s DefaultTimeoutStopSec=900s
    
  4. Recompilez le fichier grub.cfg.

    grub2-mkconfig -o /boot/efi/EFI/redhat/grub.cfg
    

Échec de l'infrastructure 12c Oracle Grid avec une erreur Rejecting connection

L'installation de l'infrastructure 12c d'Oracle Grid peut échouer avec l'erreur suivante:

Rejecting connection from node 2 as MultiNode RAC is not supported or certified in this Configuration.

Cette erreur se produit, car l'adresse IP 169.254.169.254 est transférée au service de métadonnées local d'une VM Compute Engine, ce qui donne l'impression que l'hôte de la solution Bare Metal est une VM Compute Engine. Une telle configuration peut également entraîner la fuite des clés de compte de service privées de la VM Compute Engine.

Pour résoudre ce problème, tenez compte des implications de sécurité de votre configuration NAT et limitez autant que possible l'accès à un réseau externe. Procédez comme suit:

  • Bloquez l'accès au service de métadonnées sur votre VM cloud:

    firewall-cmd --direct --add-rule ipv4 filter FORWARD 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable
    
    firewall-cmd --permanent --direct --add-rule ipv4 filter FORWARD 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable
    
  • Bloquez l'accès au service de métadonnées sur l'hôte de la solution Bare Metal:

    firewall-cmd --direct --add-rule ipv4 filter OUTPUT 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unreachable
    
    firewall-cmd --permanent --direct --add-rule ipv4 filter OUTPUT 0 -d 169.254.169.254 -j REJECT --reject-with icmp-host-unr