Cette page a été traduite par l'API Cloud Translation.

Mettre à niveau les clusters

Lorsque vous installez une nouvelle version de bmctl, vous pouvez mettre à niveau les clusters existants créés avec une version antérieure. La mise à niveau d'un cluster vers la dernière version de Google Distributed Cloud offre des fonctionnalités et des correctifs supplémentaires à votre cluster. Cela garantit également que votre cluster reste compatible. Vous pouvez mettre à niveau des clusters d'administrateur, hybrides, autonomes ou d'utilisateur à l'aide de la commande bmctl upgrade cluster ou de kubectl.

Pour en savoir plus sur le processus de mise à niveau et les règles de gestion des versions, consultez Cycle de vie et étapes des mises à niveau de cluster.

Cette page est destinée aux administrateurs, aux architectes et aux opérateurs qui gèrent le cycle de vie de l'infrastructure technologique sous-jacente. Pour en savoir plus sur les rôles courants et les exemples de tâches que nous citons dans le contenu Google Cloud , consultez Rôles utilisateur et tâches courantes de GKE.

Planifier votre mise à niveau

Cette section contient des informations et des liens vers des informations que vous devez prendre en compte avant de mettre à niveau un cluster. Pour en savoir plus sur les mises à niveau, y compris sur les règles de gestion des versions pour les clusters et les pools de nœuds, consultez Cycle de vie et étapes des mises à niveau de cluster.

Bonnes pratiques

Pour obtenir des informations qui vous aideront à préparer la mise à niveau d'un cluster, consultez Bonnes pratiques pour les mises à niveau de clusters Google Distributed Cloud.

Mettre à niveau les requêtes préliminaires

Les vérifications préliminaires sont exécutées lors de la mise à niveau du cluster, pour valider l'état des nœuds. La mise à niveau du cluster s'interrompt si les vérifications préliminaires échouent. Pour en savoir plus sur les requêtes préliminaires, consultez la section Comprendre les requêtes préliminaires.

Vous pouvez vérifier si les clusters sont prêts à être mis à niveau en exécutant la requête préliminaire avant de lancer la mise à niveau. Pour en savoir plus, consultez la section Requêtes préliminaires aux mises à niveau.

Problèmes connus

Pour en savoir plus sur les problèmes potentiels liés aux mises à niveau des clusters, consultez la page Problèmes connus de Google Distributed Cloud for bare metal, puis sélectionnez la catégorie de problèmes Mises à niveau et mises à jour.

Configurer les options de mise à niveau

Avant de commencer la mise à niveau d'un cluster, vous pouvez configurer les options suivantes qui contrôlent le fonctionnement du processus :

Mise à niveau sélective des pools de nœuds de calcul : mettez à niveau des pools de nœuds de calcul spécifiques séparément du reste du cluster.
Mises à niveau parallèles : configurez le processus de mise à niveau pour mettre à niveau simultanément des groupes de nœuds ou des pools de nœuds.

Ces options peuvent réduire le risque d'interruption des applications et services critiques, et réduire considérablement le temps de mise à niveau global. Ces options sont particulièrement utiles pour les grands clusters comportant de nombreux nœuds et pools de nœuds exécutant des charges de travail importantes. Pour en savoir plus sur ces options et sur la façon de les utiliser, consultez les sections suivantes.

Ignorer les mises à niveau

À partir de la version 1.33, Google Distributed Cloud est compatible avec les mises à niveau par saut pour tous les types de clusters. Vous pouvez ainsi mettre à niveau un cluster vers une version cible qui est deux versions mineures plus récente que sa version actuelle en une seule opération. Par exemple, vous pouvez passer directement de la version 1.N.X à la version 1.N+2.Z en une seule opération.

Les mises à niveau sans étapes intermédiaires vous permettent d'accéder aux dernières fonctionnalités et aux derniers correctifs plus rapidement qu'avec les mises à niveau incrémentielles. Les mises à niveau ignorées peuvent également prolonger le délai entre les opérations de mise à niveau requises, ce qui réduit les risques d'interruption. Vous pouvez utiliser l'option "Ignorer les mises à niveau" avec d'autres options de mise à niveau, telles que les mises à niveau sélectives des pools de nœuds de calcul et les mises à niveau parallèles.

Lors d'une mise à niveau par saut, le système met à niveau le cluster vers une version mineure intermédiaire, puis le met immédiatement à niveau vers la version cible. Cette version intermédiaire a des conséquences si vous utilisez un miroir de registre. Pour en savoir plus, consultez Exigence supplémentaire pour les miroirs de registre.

Tant que cette fonctionnalité est en version preview, nous vous déconseillons d'effectuer des mises à niveau par étapes avec des clusters de production.

Ignorer les conditions requises pour la mise à niveau

La procédure de mise à niveau par saut n'est pas différente de celle d'une mise à niveau séquentielle, mais elle comporte quelques prérequis supplémentaires :

Vérifiez que le cluster est dans un état où une mise à niveau ignorée ne viole pas les règles concernant les versions des clusters et des pools de nœuds :
- Avant de commencer une mise à niveau sans passer par les versions intermédiaires pour un cluster d'administrateur ou hybride, assurez-vous que tous ses clusters d'utilisateur gérés correspondent à la même version mineure que le cluster de gestion.
- Avant de commencer une mise à niveau sans passer par les versions intermédiaires pour un cluster d'utilisateur, assurez-vous que vos clusters répondent aux critères suivants :
  - Le cluster d'administrateur ou hybride associé est deux versions mineures plus récentes que le cluster d'utilisateur.
  - Tous les pools de nœuds de calcul du cluster d'utilisateur ont la même version mineure que le cluster d'utilisateur.

Ajoutez l'annotation preview.baremetal.cluster.gke.io/skip-minor-version-cluster-upgrade au fichier de configuration du cluster :

apiVersion: baremetal.cluster.gke.io/v1
kind: Cluster
metadata:
  name: baremetal-demo
  namespace: cluster-baremetal-demo
  annotations:
    preview.baremetal.cluster.gke.io/skip-minor-version-cluster-upgrade: "enable"
spec:
  type: user
  profile: default
  anthosBareMetalVersion:   1.33.0-gke.799
  ...

Dans le fichier de configuration du cluster, définissez anthosBareMetalVersion sur la version cible de la mise à niveau à ignorer.

Comme pour les mises à niveau séquentielles, vous pouvez lancer la mise à niveau avec saut avec bmctl upgrade cluster ou kubectl apply.

Exigence supplémentaire pour les miroirs de registre

Si vous extrayez des images de conteneurs à partir d'un miroir de registre pour mettre à niveau votre cluster, votre miroir de registre doit contenir les images pour la version cible et la version intermédiaire de la mise à niveau à ignorer.

Pour préparer votre mirror de registre à une mise à niveau sans interruption, procédez comme suit :

En utilisant la version de bmctl qui correspond à la version cible de la mise à niveau sans mise à niveau intermédiaire, déterminez la version intermédiaire pour la mise à niveau sans mise à niveau intermédiaire :
```
bmctl upgrade intermediate-version
```
La réponse à la commande se compose de la version spécifique du correctif Google Distributed Cloud que le système utilise comme version intermédiaire lors de la mise à niveau avec saut de version. Par exemple, pour la version 1.33.0-gke.799 de bmctl, la réponse se présente comme suit :
```
1.32.200-gke.104
```
Téléchargez les packages d'images pour la version cible et la version intermédiaire.

Pour en savoir plus, consultez Télécharger le package d'images.
Transférez les packages d'images pour la version cible et la version intermédiaire vers le miroir de registre avant de commencer la mise à niveau sans mise à jour.

L'hébergement d'images de conteneurs pour les versions cibles et intermédiaires nécessite un espace disque supplémentaire pour votre miroir de registre.

Comme pour les mises à niveau séquentielles, vous pouvez lancer la mise à niveau avec saut avec bmctl upgrade cluster ou kubectl apply.

Mise à niveau sélective des pools de nœuds de calcul

Par défaut, l'opération de mise à niveau du cluster met à niveau chaque nœud et pool de nœuds du cluster. La mise à niveau d'un cluster peut être perturbatrice et prendre du temps, car elle entraîne la vidange de chaque nœud, ainsi que le redémarrage et la reprogrammation de tous les pods associés. Cette section explique comment inclure ou exclure certains pools de nœuds de calcul pour la mise à niveau d'un cluster afin de minimiser les perturbations de la charge de travail. Cette fonctionnalité ne s'applique qu'aux clusters d'utilisateur, hybrides et autonomes, car les clusters d'administrateur n'autorisent pas les pools de nœuds de calcul.

Vous pouvez utiliser des mises à niveau sélectives de pools de nœuds dans les situations suivantes :

Pour récupérer les correctifs de sécurité sans perturber les charges de travail : vous ne pouvez mettre à niveau que les nœuds de votre plan de contrôle (et les nœuds de l'équilibreur de charge) pour appliquer les correctifs de failles Kubernetes sans perturber vos pools de nœuds de calcul.
Pour confirmer le bon fonctionnement d'un sous-ensemble mis à niveau de nœuds de calcul avant de mettre à niveau tous les nœuds de calcul : Vous pouvez mettre à niveau vos pools de nœuds de calcul de manière sélective afin de vous assurer que les charges de travail s'exécutent correctement sur un pool de nœuds mis à niveau avant de mettre à niveau un autre pool de nœuds.
Pour réduire l'intervalle de maintenance : la mise à niveau d'un grand cluster peut prendre du temps et il est difficile de prédire avec précision quand elle sera terminée. La durée de la mise à niveau du cluster est proportionnelle au nombre de nœuds mis à niveau. Réduire le nombre de nœuds mis à niveau en excluant des pools de nœuds permet de réduire la durée de la mise à niveau. Vous effectuez plusieurs mises à niveau, mais les intervalles de maintenance plus petits et plus prévisibles peuvent vous aider à planifier.

Décalage de deux versions mineures pour le pool de nœuds

Pour les clusters en version 1.28 ou ultérieure, la version d'un pool de nœuds de calcul peut être jusqu'à deux versions mineures antérieure à la version du cluster (plan de contrôle). Avec la compatibilité avec le décalage de version n-2, vous pouvez également sauter une version mineure lorsque vous mettez à niveau un pool de nœuds de calcul à partir de deux versions mineures derrière celle du cluster vers la même version mineure que le cluster.

Cette compatibilité avec le décalage de version n-2 pour les pools de nœuds de calcul vous offre plus de flexibilité pour planifier les mises à niveau de votre parc.

Par exemple, si vous disposez d'un cluster en version 1.33, vous pouvez avoir des pools de nœuds de calcul pour les versions 1.33, 1.32 et 1.31.

Avant de pouvoir mettre à niveau un cluster, tous les pools de nœuds de calcul doivent être dans une version compatible avec la version actuelle et la version cible du cluster.

Par exemple, si vous disposez d'un cluster en version 1.29 et de pools de nœuds de calcul en versions 1.29, 1.28 et 1.16, vous devez mettre à niveau les pools de nœuds version 1.16 vers la version 1.28 ou 1.29 avant de pouvoir mettre à jour le cluster vers la version 1.30.

Pour en savoir plus, y compris sur les listes des versions de pool de nœuds de calcul compatibles avec une version de cluster donnée (applicable à la version 1.29 et versions antérieures), consultez la section Règles de gestion des versions des pools de nœuds.

1.30 et versions ultérieures

Dans la version 1.30, la compatibilité avec le décalage de version n-2 pour les pools de nœuds de calcul est disponible en disponibilité générale pour tous les types de clusters. Cette fonctionnalité est activée par défaut pour les clusters en version 1.30.

Les pools de nœuds de n'importe quelle version de correctif des versions mineures 1.28 et 1.29 peuvent être mis à niveau vers n'importe quelle version de correctif en version 1.30, si la version du pool de nœuds est identique ou inférieure à celle du cluster.

1,29

Dans la version 1.29, la compatibilité avec le décalage de version n-2 pour les pools de nœuds de calcul est disponible en disponibilité générale pour tous les types de clusters. Cette fonctionnalité est activée par défaut pour les clusters en version 1.29.

Lorsque nous passons cette fonctionnalité de la version bêta publique à la version en disponibilité générale, les clusters hybrides nécessitent toujours l'annotation bêta dans la situation suivante. Si vous disposez d'un cluster hybride version 1.28.x avec un pool de nœuds de calcul version 1.16.y, vous devez ajouter l'annotation preview.baremetal.cluster.gke.io/two-minor-version-node-pool: enable au cluster avant de le mettre à niveau vers la version 1.29.z :

apiVersion: baremetal.cluster.gke.io/v1
kind: Cluster
metadata:
  name: baremetal-demo
  namespace: cluster-baremetal-demo
  annotations:
    preview.baremetal.cluster.gke.io/two-minor-version-node-pool: enable
spec:
  type: hybrid
  profile: default
  anthosBareMetalVersion: 1.28.400-gke.77
  ...

1.28

La compatibilité avec le décalage de version n-2 pour les pools de nœuds de calcul est disponible en version preview dans la version 1.28. Pour activer cette fonctionnalité d'aperçu, ajoutez l'annotation preview.baremetal.cluster.gke.io/two-minor-version-node-pool: enable au fichier de configuration de votre cluster :

apiVersion: baremetal.cluster.gke.io/v1
kind: Cluster
metadata:
  name: baremetal-demo
  namespace: cluster-baremetal-demo
  annotations:
    preview.baremetal.cluster.gke.io/two-minor-version-node-pool: enable
spec:
...

Si vous n'activez pas cette fonctionnalité d'aperçu, le décalage maximal de version entre un pool de nœuds de calcul et le cluster est d'une version mineure.

Pour en savoir plus sur les règles de gestion des versions pour la mise à niveau sélective des pools de nœuds de calcul, consultez la section Règles de gestion des versions des pools de nœuds dans le "Cycle de vie" et les étapes des mises à niveau du cluster.

Mettre à niveau le plan de contrôle de votre cluster et les pools de nœuds sélectionnés

Pour mettre à niveau de manière sélective les pools de nœuds de calcul lors de la mise à niveau initiale du cluster :

Pour les pools de nœuds de calcul que vous souhaitez inclure dans la mise à niveau du cluster, apportez l'une des modifications suivantes à la spécification du pool de nœuds :
- Définissez anthosBareMetalVersion dans la spécification NodePool sur la version cible de la mise à niveau du cluster.
- Omettez le champ anthosBareMetalVersion de la spécification NodePool ou définissez-la sur une chaîne vide. Par défaut, les pools de nœuds de calcul sont inclus dans les mises à niveau du cluster.
Pour les pools de nœuds de calcul que vous souhaitez exclure de la mise à niveau, définissez anthosBareMetalVersion sur la version actuelle (avant la mise à niveau) du cluster :
Poursuivez la mise à niveau comme décrit dans Démarrer la mise à niveau du cluster.

L'opération de mise à niveau du cluster met à niveau les nœuds suivants :
- Nœuds du plan de contrôle du cluster.
- Pool de nœuds de l'équilibreur de charge, si votre cluster en utilise un (spec.loadBalancer.nodePoolSpec). Par défaut, les nœuds de l'équilibreur de charge peuvent exécuter des charges de travail standards. Vous ne pouvez pas mettre à niveau de manière sélective un pool de nœuds d'équilibreur de charge. Il est toujours inclus dans la mise à niveau initiale du cluster.
- Pools de nœuds de calcul que vous n'avez pas exclus de la mise à niveau.

Par exemple, supposons que votre cluster soit à la version 1.32.0 et dispose de deux pools de nœuds de calcul : wpool01 et wpool02. Supposons également que vous souhaitiez mettre à niveau le plan de contrôle et wpool01 vers la version 1.33.100-gke.89, mais que vous souhaitiez que wpool02 reste à la version 1.32.0.

L'extrait de fichier de configuration de cluster suivant montre comment modifier la configuration du cluster pour accepter cette mise à niveau partielle :

...
---
apiVersion: baremetal.cluster.gke.io/v1
kind: Cluster
metadata:
  name: user001
  namespace: cluster-user001
spec:
  type: user
  profile: default
  anthosBareMetalVersion: 1.33.100-gke.89
---
apiVersion: baremetal.cluster.gke.io/v1
kind: NodePool
metadata:
  name: wpool01
  namespace: cluster-user001
spec:
  clusterName: user001
  anthosBareMetalVersion: 1.33.100-gke.89
  nodes:
  - address:  10.200.0.1
  - address:  10.200.0.2
  - address:  10.200.0.3
  ...
  - address:  10.200.0.8

apiVersion: baremetal.cluster.gke.io/v1
kind: NodePool
metadata:
  name: wpool02
  namespace: cluster-user001
spec:
  clusterName: user001
  anthosBareMetalVersion: 1.32.0
  nodes:
  - address:  10.200.1.1
  - address:  10.200.1.2
  - address:  10.200.1.3
  ...
  - address:  10.200.1.12

Mettre à niveau les pools de nœuds vers la version actuelle du cluster

Si vous avez exclu des pools de nœuds de la mise à niveau d'un cluster, vous pouvez exécuter une mise à niveau du cluster pour les mettre à niveau vers la version cible du cluster. Les pools de nœuds de calcul qui ont été exclus d'une mise à niveau de cluster ont le champ anthosBareMetalVersion de leur spécification NodePool défini sur la version précédente (avant la mise à niveau) du cluster.

Pour mettre à jour les pools de nœuds de calcul avec la version de cluster actuelle, qui a été mise à jour :

Modifiez les spécifications NodePool dans le fichier de configuration du cluster pour les pools de nœuds de calcul que vous souhaitez mettre à niveau vers la version actuelle du cluster. Définissez anthosBareMetalVersion sur la version actuelle du cluster (après la mise à niveau).

Si plusieurs pools de nœuds de calcul sont sélectionnés pour la mise à niveau, la valeur de spec.nodePoolUpgradeStrategy.concurrentNodePools dans la spécification du cluster détermine le nombre de pools de nœuds mis à niveau en parallèle, le cas échéant. Si vous ne souhaitez pas mettre à niveau les pools de nœuds de calcul simultanément, sélectionnez un pool de nœuds à la fois pour la mise à niveau.
Poursuivez la mise à niveau comme décrit dans Démarrer la mise à niveau du cluster.

L'opération de mise à niveau du cluster ne met à niveau que les pools de nœuds de calcul précédemment exclus pour lesquels vous avez défini anthosBareMetalVersion sur la version actuelle du cluster, qui a été mise à niveau.

Par exemple, supposons que vous ayez mis à niveau votre cluster vers la version 1.33.100-gke.89, mais que le pool de nœuds wpool02 soit toujours à l'ancienne version du cluster, à savoir la version 1.32.0. Les charges de travail s'exécutent correctement sur le pool de nœuds mis à niveau, wpool01. Vous souhaitez maintenant mettre à niveau wpool02 vers la version actuelle du cluster. Pour mettre à niveau wpool02, vous pouvez supprimer le champ anthosBareMetalVersion ou définir sa valeur sur la chaîne vide.

L'extrait de fichier de configuration de cluster suivant montre comment modifier la configuration du cluster pour accepter cette mise à niveau partielle :

...
---
apiVersion: baremetal.cluster.gke.io/v1
kind: Cluster
metadata:
  name: user001
  namespace: cluster-user001
spec:
  type: user
  profile: default
  anthosBareMetalVersion: 1.33.100-gke.89
---
apiVersion: baremetal.cluster.gke.io/v1
kind: NodePool
metadata:
  name: wpool01
  namespace: cluster-user001
spec:
  clusterName: user001
  anthosBareMetalVersion: 1.33.100-gke.89
  nodes:
  - address:  10.200.0.1
  - address:  10.200.0.2
  - address:  10.200.0.3
  ...
  - address:  10.200.0.8

apiVersion: baremetal.cluster.gke.io/v1
kind: NodePool
metadata:
  name: wpool02
  namespace: cluster-user001
spec:
  clusterName: user001
  anthosBareMetalVersion: ""
  nodes:
  - address:  10.200.1.1
  - address:  10.200.1.2
  - address:  10.200.1.3
  ...
  - address:  10.200.1.12

Effectuer un rollback pour mettre à niveau un pool de nœuds

De nombreuses dépendances, telles que la compatibilité avec kubelet ou les plug-ins, peuvent affecter les performances de vos charges de travail. Si vous rencontrez un problème après la mise à niveau d'un pool de nœuds de calcul, vous pouvez effectuer un rollback du pool de nœuds pour revenir à sa version précédente.

Cette fonctionnalité n'est pas à la même phase de lancement pour toutes les versions de cluster compatibles :

1.30 et versions ultérieures

Pour les clusters de version 1.30 (clusters dont les nœuds du plan de contrôle sont en version 1.30), la fonctionnalité de restauration des pools de nœuds est disponible en disponibilité générale et activée par défaut.

1,29

La fonctionnalité de restauration des pools de nœuds est disponible en version preview pour les clusters de version 1.29 (clusters dont les nœuds de plan de contrôle sont en version 1.29). Tant que cette fonctionnalité est en version preview, vous devez ajouter l'annotation suivante à la ressource Cluster pour l'activer :

preview.baremetal.cluster.gke.io/worker-node-pool-upgrade-rollback: enable

1.28

La fonctionnalité de rollback de pool de nœuds n'est pas disponible pour les clusters de version mineure 1.28 ou antérieure.

Pour effectuer le rollback de la mise à niveau d'un pool de nœuds, procédez comme suit :

`bmctl`

Lorsque vous utilisez bmctl pour effectuer un rollback de la mise à niveau d'un pool de nœuds, vous modifiez le fichier de configuration du cluster et appliquez vos modifications à l'aide de la commande bmctl update :

Modifiez les spécifications NodePool dans le fichier de configuration du cluster pour les pools de nœuds de calcul que vous souhaitez rétablir à la version précédente. Définissez anthosBareMetalVersion sur la version précédente (avant la mise à niveau) du cluster.
```
...
---
apiVersion: baremetal.cluster.gke.io/v1
kind: NodePool
metadata:
  name: wpool01
  namespace: cluster-user001
spec:
  clusterName: user001
  anthosBareMetalVersion: 1.32.500-gke.48
  nodes:
  - address:  10.200.0.1
  - address:  10.200.0.2
  - address:  10.200.0.3
  ...
```
Si plusieurs pools de nœuds de calcul sont sélectionnés pour la restauration, la valeur de spec.nodePoolUpgradeStrategy.concurrentNodePools dans la spécification du cluster détermine le nombre de pools de nœuds restaurés en parallèle. Si vous ne souhaitez pas effectuer le rollback des pools de nœuds de calcul simultanément, sélectionnez un pool de nœuds à la fois pour le rollback ou modifiez les paramètres nodePoolUpgradeStrategy. De même, la valeur de spec.upgradeStrategy.parallelUpgrade.concurrentNodes dans la spécification NodePool détermine le nombre de nœuds restaurés en parallèle.
Utilisez bmctl update pour appliquer les modifications apportées à la spécification NodePool :
```
bmctl update cluster -c CLUSTER_NAME --kubeconfig=ADMIN_KUBECONFIG
```
Remplacez les éléments suivants :
- CLUSTER_NAME : nom du cluster que vous souhaitez mettre à jour.
- ADMIN_KUBECONFIG : chemin d'accès au fichier kubeconfig du cluster de gestion (administrateur, hybride ou autonome).
Le rétablissement démarre automatiquement. La commande bmctl update cluster quitte immédiatement, mais le rollback continue de progresser. N'effectuez aucune autre opération sur le cluster pendant la restauration.
Lors de l'exécution du rollback, Google Distributed Cloud effectue les activités suivantes pour chaque nœud :
- Passez le nœud en mode maintenance.
- Exécutez une tâche de réinitialisation sur le nœud pour le remettre dans un état propre.
- Exécutez les requêtes préliminaires de la machine sur le nœud.
- Exécutez un job d'initialisation de la machine sur le nœud pour le réinstaller dans la version cible du rollback (avant la mise à niveau).
- Supprimez le nœud du mode maintenance.
À la fin d'une restauration réussie, la valeur de nodePool.status.anthosBareMetalVersion dans la ressource NodePool est définie sur la version cible de restauration.

N'utilisez pas bmctl update et kubectl apply -f de manière interchangeable lorsque vous modifiez le fichier de configuration du cluster. Lorsque ces commandes sont utilisées de manière interchangeable, le contenu renseigné par l'en-tête de la spécification du cluster peut être supprimé involontairement. Par exemple, vous pouvez utiliser bmctl update pour mettre à jour le fichier de configuration du cluster afin de configurer un miroir de registre. Le cluster est ensuite rempli avec spec.nodeConfig.registryMirrors après la réconciliation.

Si vous tentez ensuite d'apporter des modifications au cluster à l'aide de la configuration du cluster avec la commande kubectl apply -f, le spec.nodeConfig.registryMirrors renseigné par le réconciliateur sur le cluster est supprimé. Ce comportement se produit, car la configuration n'existe pas dans la spécification de configuration du cluster, mais elle existe dans le cluster.

`kubectl`

Vous pouvez effectuer un rollback de la mise à niveau d'un pool de nœuds en utilisant kubectl pour modifier directement la ressource NodePool :

Pour effectuer le rollback d'un pool de nœuds de calcul, ouvrez la ressource NodePool pour la modifier :
```
kubectl edit nodepool NODE_POOL_NAME \
    --namespace CLUSTER_NAMESPACE \
    --kubeconfig ADMIN_KUBECONFIG
```
Remplacez les éléments suivants :
- NODE_POOL_NAME : nom du pool de nœuds faisant l'objet d'un rollback.
- CLUSTER_NAMESPACE : nom de l'espace de noms dans lequel le pool de nœuds est déployé. Il s'agit de l'espace de noms du cluster.
- ADMIN_KUBECONFIG : chemin d'accès au fichier kubeconfig du cluster de gestion (administrateur, hybride ou autonome).

Remplacez la valeur de spec.anthosBareMetalVersion par la version précédente (avant la mise à niveau).

...
---
apiVersion: baremetal.cluster.gke.io/v1
kind: NodePool
metadata:
  name: wpool01
  namespace: cluster-user001
spec:
  clusterName: user001
  anthosBareMetalVersion: 1.32.500-gke.48
  nodes:
  - address:  10.200.0.1
  - address:  10.200.0.2
  - address:  10.200.0.3
  ...

Enregistrez et fermez la ressource personnalisée NodePool dans votre éditeur.

Le rétablissement démarre automatiquement. N'effectuez aucune autre opération sur le cluster pendant la restauration.
Lors de l'exécution du rollback, Google Distributed Cloud effectue les activités suivantes pour chaque nœud :
- Passez le nœud en mode maintenance.
- Exécutez une tâche de réinitialisation sur le nœud pour le remettre dans un état propre.
- Exécutez les requêtes préliminaires de la machine sur le nœud.
- Exécutez un job d'initialisation de la machine sur le nœud pour le réinstaller dans la version cible du rollback (avant la mise à niveau).
- Supprimez le nœud du mode maintenance.
À la fin d'une restauration réussie, la valeur de nodePool.status.anthosBareMetalVersion dans la ressource NodePool est définie sur la version cible de restauration.

Mises à niveau parallèles

Lors d'une mise à niveau de cluster standard par défaut, chaque nœud de cluster est mis à niveau séquentiellement, l'un après l'autre. Cette section explique comment configurer votre cluster et vos pools de nœuds de calcul afin que plusieurs nœuds soient mis à niveau simultanément lorsque vous mettez à niveau votre cluster. La mise à niveau des nœuds en parallèle accélère considérablement la mise à niveau des clusters, en particulier pour ceux qui comptent des centaines de nœuds.

Vous pouvez utiliser deux stratégies de mise à niveau parallèles pour accélérer la mise à niveau de cluster :

Mise à niveau simultanée des nœuds : vous pouvez configurer vos pools de nœuds de calcul afin que plusieurs nœuds soient mis à niveau simultanément. Les mises à niveau simultanées des nœuds sont configurées dans la spécification NodePool (spec.upgradeStrategy.parallelUpgrade), et seuls les nœuds d'un pool de nœuds de calcul peuvent être mis à niveau en parallèle. Les nœuds des pools de nœuds du plan de contrôle ou de l'équilibreur de charge ne peuvent être mis à niveau qu'un par un. Pour en savoir plus, consultez Stratégie de mise à niveau des nœuds.
Mise à niveau simultanée du pool de nœuds : vous pouvez configurer votre cluster afin que plusieurs pools de nœuds soient mis à niveau simultanément. Seuls les pools de nœuds de calcul peuvent être mis à niveau simultanément. Les pools de nœuds du plan de contrôle et de l'équilibreur de charge ne peuvent être mis à niveau qu'un par un.

Stratégie de mise à niveau des nœuds

Vous pouvez configurer des pools de nœuds de calcul afin que plusieurs nœuds soient mis à niveau simultanément (concurrentNodes). Vous pouvez également définir un seuil minimal pour le nombre de nœuds pouvant exécuter des charges de travail tout au long du processus de mise à niveau (minimumAvailableNodes). Cette configuration est effectuée dans la spécification NodePool. Pour en savoir plus sur ces champs, consultez la documentation de référence des champs de configuration du cluster.

La stratégie de mise à niveau des nœuds ne s'applique qu'aux pools de nœuds de calcul. Vous ne pouvez pas spécifier de stratégie de mise à niveau des nœuds pour les pools de nœuds de plan de contrôle ou d'équilibreur de charge. Lors de la mise à niveau d'un cluster, les nœuds des pools de nœuds du plan de contrôle et de l'équilibreur de charge sont mis à niveau séquentiellement, un par un. Les pools de nœuds du plan de contrôle et de l'équilibreur de charge sont spécifiés dans la spécification du cluster (controlPlane.nodePoolSpec.nodes et loadBalancer.nodePoolSpec.nodes).

Lorsque vous configurez des mises à niveau parallèles pour les nœuds, tenez compte des restrictions suivantes :

La valeur de concurrentNodes ne peut pas dépasser 50 % du nombre de nœuds du pool de nœuds ni le nombre fixe 15, selon la valeur la plus petite. Par exemple, si votre pool de nœuds comporte 20 nœuds, vous ne pouvez pas spécifier une valeur supérieure à 10. Si votre pool de nœuds comporte 100 nœuds, 15 est la valeur maximale que vous pouvez spécifier.
Lorsque vous utilisez concurrentNodes avec minimumAvailableNodes, les valeurs combinées ne peuvent pas dépasser le nombre total de nœuds dans le pool de nœuds. Par exemple, si votre pool de nœuds comporte 20 nœuds et que minimumAvailableNodes est défini sur 18, concurrentNodes ne peut pas dépasser 2. De même, si concurrentNodes est défini sur 10, minimumAvailableNodes ne peut pas dépasser 10.

L'exemple suivant montre un pool de nœuds de calcul np1 avec 10 nœuds. Dans une mise à niveau, les nœuds sont mis à niveau par cinq et au moins quatre nœuds doivent rester disponibles pour que la mise à niveau puisse se poursuivre :

apiVersion: baremetal.cluster.gke.io/v1
kind: NodePool
metadata:
  name: np1
  namespace: cluster-cluster1
spec:
  clusterName: cluster1
  nodes:
  - address:  10.200.0.1
  - address:  10.200.0.2
  - address:  10.200.0.3
  - address:  10.200.0.4
  - address:  10.200.0.5
  - address:  10.200.0.6
  - address:  10.200.0.7
  - address:  10.200.0.8
  - address:  10.200.0.9
  - address:  10.200.0.10 
  upgradeStrategy:
    parallelUpgrade:
      concurrentNodes: 5
      minimumAvailableNodes: 4

Stratégie de mise à niveau des pools de nœuds

Vous pouvez configurer un cluster afin que plusieurs pools de nœuds de calcul soient mis à niveau en parallèle. Le champ booléen nodePoolUpgradeStrategy.concurrentNodePools de la spécification du cluster indique s'il faut mettre à niveau tous les pools de nœuds de calcul d'un cluster simultanément. Par défaut (1), les pools de nœuds sont mis à niveau de manière séquentielle, l'un après l'autre. Lorsque vous définissez concurrentNodePools sur 0, chaque pool de nœuds de calcul du cluster est mis à niveau en parallèle.

Les pools de nœuds du plan de contrôle et de l'équilibrage de charge ne sont pas concernés par ce paramètre. Ces pools de nœuds sont toujours mis à niveau de manière séquentielle, un à la fois. Les pools de nœuds du plan de contrôle et de l'équilibreur de charge sont spécifiés dans la spécification du cluster (controlPlane.nodePoolSpec.nodes et loadBalancer.nodePoolSpec.nodes).

apiVersion: baremetal.cluster.gke.io/v1
kind: Cluster
metadata:
  name: cluster1
  namespace: cluster-cluster1
spec:
  ...
  nodePoolUpgradeStrategy:
    concurrentNodePools: 0
  ...

Effectuer une mise à niveau parallèle

Cette section explique comment configurer un cluster et un pool de nœuds de calcul pour les mises à niveau parallèles.

Pour effectuer une mise à niveau parallèle des pools de nœuds de calcul et des nœuds d'un pool de nœuds de calcul, procédez comme suit :

Ajoutez une section upgradeStrategy à la spécification NodePool.

Vous pouvez appliquer ce fichier manifeste séparément ou dans le fichier de configuration du cluster lorsque vous mettez à jour le cluster.

Exemple :
```
---
apiVersion: baremetal.cluster.gke.io/v1
kind: NodePool
metadata:
  name: np1
  namespace: cluster-ci-bf8b9aa43c16c47
spec:
  clusterName: ci-bf8b9aa43c16c47
  nodes:
  - address:  10.200.0.1
  - address:  10.200.0.2
  - address:  10.200.0.3
  ...
  - address:  10.200.0.30
  upgradeStrategy:
    parallelUpgrade:
      concurrentNodes: 5
      minimumAvailableNodes: 10
```
Dans cet exemple, la valeur du champ concurrentNodes est 5, ce qui signifie que cinq nœuds sont mis à niveau en parallèle. Le champ minimumAvailableNodes est défini sur 10, ce qui signifie qu'au moins 10 nœuds doivent rester disponibles pour les charges de travail tout au long de la mise à niveau.

Remarque : Vous ne pouvez pas spécifier de stratégie de mise à niveau des nœuds pour les pools de nœuds du plan de contrôle ou de l'équilibreur de charge.
Ajoutez une section nodePoolUpgradeStrategy à la spécification de cluster dans le fichier de configuration du cluster.
```
---
apiVersion: v1
kind: Namespace
metadata:
  name: cluster-user001
---
apiVersion: baremetal.cluster.gke.io/v1
kind: Cluster
metadata:
  name: user001
  namespace: cluster-user001
spec:
  type: user
  profile: default
  anthosBareMetalVersion: 1.33.100-gke.89
  ...
  nodePoolUpgradeStrategy:
    concurrentNodePools: 0
  ...
```
Dans cet exemple, le champ concurrentNodePools est défini sur 0, ce qui signifie que tous les pools de nœuds de calcul sont mis à niveau simultanément lors de la mise à niveau du cluster. La stratégie de mise à niveau des nœuds des pools de nœuds est définie dans les spécifications de pool de nœuds.
Mettez à niveau le cluster comme décrit dans la section précédente Mettre à niveau des clusters d'administrateur, autonomes, hybrides ou d'utilisateur.

Valeurs par défaut de la mise à niveau parallèle

Les mises à niveau parallèles sont désactivées par défaut et les champs associés sont modifiables. À tout moment, vous pouvez supprimer les champs ou définir leurs valeurs par défaut pour désactiver la fonctionnalité avant une mise à niveau ultérieure.

Le tableau suivant liste les champs de mise à niveau parallèle et leurs valeurs par défaut :

Champ	Valeur par défaut	Signification
`nodePoolUpgradeStrategy.concurrentNodePools` (Spécification du cluster)	`1`	Mettez à niveau les pools de nœuds de calcul de manière séquentielle, un par un.
`upgradeStrategy.parallelUpgrade.concurrentNodes` (Spécification du pool de nœuds)	`1`	Mettez à niveau les nœuds de manière séquentielle, l'un après l'autre.
`upgradeStrategy.parallelUpgrade.minimumAvailableNodes` (Spécification du pool de nœuds)	La valeur par défaut de `minimumAvailableNodes` dépend de la valeur de `concurrentNodes`. Si vous ne spécifiez pas `concurrentNodes`, `minimumAvailableNodes` correspond par défaut aux deux tiers de la taille du pool de nœuds. Si vous spécifiez `concurrentNodes`, `minimumAvailableNodes` correspond par défaut à la taille du pool de nœuds moins `concurrentNodes`.	La mise à niveau s'arrête une fois que `minimumAvailableNodes` est atteint et ne reprend que lorsque le nombre de nœuds disponibles est supérieur à `minimumAvailableNodes`.

Démarrer la mise à niveau du cluster

Cette section contient des instructions pour mettre à niveau les clusters.

`bmctl`

Lorsque vous téléchargez et installez une nouvelle version de bmctl, vous pouvez mettre à niveau vos clusters d'administrateur, hybrides, autonomes et d'utilisateur créés avec une version antérieure. Pour une version donnée de bmctl, un cluster ne peut être mis à jour que vers la même version.

Définissez vos identifiants utilisateur en tant qu'Identifiants par défaut de l'application (ADC) :
```
gcloud auth application-default login
```
Suivez les instructions pour sélectionner votre compte Google pour ADC. Pour en savoir plus, consultez la page Configurer les identifiants par défaut de l'application.
Téléchargez la dernière version de bmctl comme décrit dans Téléchargements de Google Distributed Cloud.
Mettez à jour anthosBareMetalVersion dans le fichier de configuration du cluster pour définir la version cible de la mise à niveau.

La version cible de la mise à niveau doit correspondre à la version du fichier bmctl téléchargé. L'extrait de fichier de configuration de cluster suivant montre le champ anthosBareMetalVersion mis à jour vers la dernière version :
```
---
apiVersion: baremetal.cluster.gke.io/v1
kind: Cluster
metadata:
  name: cluster1
  namespace: cluster-cluster1
spec:
  type: admin
  # Anthos cluster version.
  anthosBareMetalVersion: 1.33.100-gke.89
```
Exécutez la commande bmctl upgrade cluster pour effectuer la mise à niveau :
```
bmctl upgrade cluster -c CLUSTER_NAME --kubeconfig ADMIN_KUBECONFIG
```
Remplacez les éléments suivants :
- CLUSTER_NAME : nom du cluster à mettre à niveau.
- ADMIN_KUBECONFIG : chemin d'accès au fichier kubeconfig du cluster d'administrateur.
Remarque : La commande bmctl upgrade ne met à jour que la valeur anthosBareMetalVersion et les annotations d'aperçu dans la ressource personnalisée Cluster. Si vous souhaitez modifier d'autres champs de la spécification du cluster, utilisez la commande bmctl update. Pour en savoir plus, consultez Mettre à jour les clusters.

L'opération de mise à niveau du cluster exécute des requêtes préliminaires pour valider l'état du cluster et des nœuds. La mise à niveau du cluster s'interrompt si les requêtes préliminaires échouent. Pour en savoir plus sur le dépannage, consultez Résoudre les problèmes d'installation ou de mise à niveau de cluster.

Une fois tous les composants du cluster mis à niveau, l'opération de mise à niveau du cluster effectue des vérifications de l'état du cluster. Cette dernière étape permet de vérifier que le cluster est en bon état de fonctionnement. Si le cluster ne réussit pas toutes les vérifications d'état, elles continuent de s'exécuter jusqu'à ce qu'elles réussissent. Lorsque toutes les vérifications d'état sont réussies, la mise à niveau est terminée.

Pour en savoir plus sur la séquence d'événements pour les mises à niveau de cluster, consultez Cycle de vie et étapes des mises à niveau de cluster.

`kubectl`

Pour mettre à niveau un cluster avec kubectl, procédez comme suit :

Modifiez le fichier de configuration du cluster pour définir anthosBareMetalVersion sur la version cible de la mise à niveau.
Pour lancer la mise à niveau, exécutez la commande suivante :
```
kubectl apply -f CLUSTER_CONFIG_PATH
```
Remplacez CLUSTER_CONFIG_PATH par le chemin d'accès au fichier de configuration du cluster modifié.

Comme pour le processus de mise à niveau avec bmctl, les requêtes préliminaires sont exécutées dans le cadre de la mise à niveau du cluster pour valider l'état du cluster et des nœuds. Si les vérifications préliminaires échouent, la mise à niveau du cluster est interrompue. Pour résoudre les échecs, examinez le cluster et les journaux associés, car aucun cluster d'amorçage n'est créé. Pour en savoir plus, consultez Résoudre les problèmes d'installation ou de mise à niveau des clusters.

Bien que vous n'ayez pas besoin de la dernière version de bmctl pour effectuer la mise à niveau des clusters avec kubectl, nous vous recommandons de télécharger la dernière version de bmctl. Vous avez besoin de bmctl pour effectuer d'autres tâches, telles que les vérifications d'état et les sauvegardes, afin de garantir le bon fonctionnement de votre cluster.

Mettre en pause et reprendre les mises à niveau

La fonctionnalité de suspension et de reprise de la mise à niveau vous permet de suspendre la mise à niveau d'un cluster avant qu'elle ne soit terminée. Lorsqu'une mise à niveau de cluster est suspendue, aucune nouvelle mise à niveau de nœud de calcul n'est déclenchée tant que la mise à niveau n'a pas repris.

Cette fonctionnalité est disponible en version preview pour les clusters dont tous les nœuds de plan de contrôle sont en version mineure 1.28 ou ultérieure. Cette fonctionnalité est en disponibilité générale pour les clusters dont tous les nœuds de plan de contrôle sont en version mineure 1.29 ou ultérieure.

Vous pouvez suspendre une mise à niveau pour les raisons suivantes :

Vous avez détecté un problème avec les charges de travail du cluster lors de la mise à niveau et vous souhaitez la suspendre pour examiner le problème.
Vous disposez d'intervalles de maintenance courts et vous souhaitez suspendre la mise à niveau entre les intervalles.

Lorsqu'une mise à niveau de cluster est suspendue, les opérations suivantes sont acceptées :

Lorsqu'un nouveau nœud est ajouté pendant qu'une mise à niveau est suspendue, les jobs de vérification de la machine ne s'exécutent pas sur ce nœud tant que la mise à niveau n'a pas repris et n'est pas terminée.

Lorsqu'une mise à niveau de cluster est suspendue, les opérations de cluster suivantes ne sont pas acceptées :

Vous ne pouvez pas lancer une nouvelle mise à niveau de cluster tant qu'une mise à niveau de cluster active est suspendue.

Activer la mise en pause et la reprise de la mise à niveau

Google Distributed Cloud 1.33

La fonctionnalité de suspension et de reprise de la mise à niveau est activée par défaut pour les clusters dont tous les nœuds de plan de contrôle sont en version mineure 1.29 ou ultérieure.

Google Distributed Cloud 1.32

Tant que la fonctionnalité de suspension et de reprise de la mise à niveau est en version preview, vous pouvez l'activer à l'aide d'une annotation dans la ressource Cluster.

Pour activer la mise en pause et la reprise de la mise à niveau, procédez comme suit :

Ajoutez l'annotation preview.baremetal.cluster.gke.io/upgrade-pause-and-resume au fichier de configuration de votre cluster :

apiVersion: baremetal.cluster.gke.io/v1
kind: Cluster
metadata:
  name: baremetal-demo
  namespace: cluster-baremetal-demo
  annotations:
    preview.baremetal.cluster.gke.io/upgrade-pause-and-resume: enable
spec:
...

Pour appliquer la modification, mettez à jour votre cluster :
```
bmctl update cluster -c CLUSTER_NAME --kubeconfig=ADMIN_KUBECONFIG
```
Remplacez les éléments suivants :
- CLUSTER_NAME : nom du cluster que vous souhaitez mettre à jour.
- ADMIN_KUBECONFIG : pour les clusters d'administrateur, hybrides ou autonomes, saisissez le chemin d'accès au fichier kubeconfig du cluster. Pour un cluster d'utilisateur, saisissez le chemin d'accès au fichier kubeconfig du cluster d'administrateur.
Le champ nodePoolUpgradeStrategy.pause est modifiable. Vous pouvez l'ajouter et le modifier à tout moment.

Suspendre une mise à niveau

Pour suspendre la mise à niveau d'un cluster, définissez nodePoolUpgradeStrategy.pause sur true dans la spécification du cluster.

Pour suspendre une mise à niveau active d'un cluster, procédez comme suit :

Ajoutez nodePoolUpgradeStrategy.pause au fichier de configuration du cluster et définissez-le sur true :
```
apiVersion: baremetal.cluster.gke.io/v1
kind: Cluster
metadata:
  name: baremetal-demo
  namespace: cluster-baremetal-demo
  ...
spec:
  ...
  nodePoolUpgradeStrategy:
    pause: true
  ...
```
Si vous avez utilisé bmctl pour lancer la mise à niveau, vous avez besoin d'une nouvelle fenêtre de terminal pour effectuer l'étape suivante.
Pour appliquer la modification, mettez à jour votre cluster :
```
bmctl update CLUSTER_NAME
```
L'opération de mise à niveau est suspendue. Aucune nouvelle mise à niveau de nœud n'est déclenchée.
Si vous avez utilisé bmctl pour lancer la mise à niveau et que vous prévoyez une pause de longue durée, appuyez sur Ctrl+C pour quitter bmctl. Sinon, laissez bmctl s'exécuter.

L'interface de ligne de commande bmctl ne détecte pas les modifications de l'état de la suspension de la mise à niveau. Elle ne se ferme donc pas automatiquement. Toutefois, lorsque vous quittez bmctl, la progression de la mise à niveau n'est plus enregistrée dans le fichier journal cluster-upgrade-TIMESTAMP du dossier du cluster sur votre poste de travail administrateur ni dans Cloud Logging. Par conséquent, pour les pauses courtes, vous pouvez laisser bmctl en cours d'exécution. Si vous laissez bmctl s'exécuter pendant une longue période alors que la mise à niveau est suspendue, il finit par expirer.

Reprendre une mise à niveau suspendue

Pour reprendre une mise à niveau de cluster suspendue, définissez nodePoolUpgradeStrategy.pause sur false dans la spécification du cluster ou supprimez nodePoolUpgradeStrategy.pause de la spécification.

Pour reprendre une mise à niveau de cluster suspendue, procédez comme suit :

Définissez nodePoolUpgradeStrategy.pause sur le fichier de configuration du cluster et définissez-le sur false :

apiVersion: baremetal.cluster.gke.io/v1
kind: Cluster
metadata:
  name: baremetal-demo
  namespace: cluster-baremetal-demo
  ...
spec:
  ...
  nodePoolUpgradeStrategy:
    pause: false
  ...

Vous pouvez également supprimer le champ pause, car sa valeur par défaut est false.

Pour appliquer la modification, mettez à jour votre cluster :
```
bmctl update CLUSTER_NAME
```
L'opération de mise à niveau reprend là où elle s'était arrêtée.
Pour vérifier l'état de la mise à niveau, commencez par obtenir la liste des ressources dont le status contient anthosBareMetalVersion :
```
kubectl get RESOURCE --kubeconfig ADMIN_KUBECONFIG --all_namespaces
```
Remplacez les éléments suivants :
- RESOURCE : nom de la ressource que vous souhaitez obtenir. Les ressources Cluster, NodePool et BareMetalMachine contiennent toutes des informations sur l'état anthosBareMetalVersion.
- ADMIN_KUBECONFIG : chemin d'accès au fichier kubeconfig du cluster d'administrateur
L'exemple suivant montre le format de la réponse pour les ressources personnalisées BareMetalMachine. Chaque BareMetalMachine correspond à un nœud de cluster.
```
NAMESPACE              NAME         CLUSTER        READY   INSTANCEID               MACHINE      ABM VERSION   DESIRED ABM VERSION
cluster-nuc-admin001   192.0.2.52   nuc-admin001   true    baremetal://192.0.2.52   192.0.2.52   1.28.0        1.28.0
cluster-nuc-user001    192.0.2.53   nuc-user001    true    baremetal://192.0.2.53   192.0.2.53   1.16.2        1.16.2
cluster-nuc-user001    192.0.2.54   nuc-user001    true    baremetal://192.0.2.54   192.0.2.54   1.16.2        1.16.2
```

Pour vérifier la status.anthosBareMetalVersion (version actuelle de la ressource), récupérez les détails des ressources individuelles :

kubectl describe RESOURCE RESOURCE_NAME \
    --kubeconfig ADMIN_KUBECONFIG \
    --namespace CLUSTER_NAMESPACE

L'exemple suivant montre les détails BareMetalMachine du nœud de cluster avec l'adresse IP 192.0.2.53 :

Name:         192.0.2.53
Namespace:    cluster-nuc-user001
...
API Version:  infrastructure.baremetal.cluster.gke.io/v1
Kind:         BareMetalMachine
Metadata:
  Creation Timestamp:  2023-09-22T17:52:09Z
  ...
Spec:
  Address:                    192.0.2.53
  Anthos Bare Metal Version:  1.16.2
  ...
Status:
  Anthos Bare Metal Version:  1.16.2

Dans cet exemple, le nœud est à la version 1.16.2 de Google Distributed Cloud.