Gestion des versions Dataproc

Dataproc utilise des images pour relier les connecteurs Google Cloud Platform utiles et les composants Apache Spark et Apache Hadoop en un seul package pouvant être déployé sur un cluster Dataproc. Ces images contiennent le système d'exploitation de base (Debian ou Ubuntu) du cluster, ainsi que les composants principaux et facultatifs nécessaires à l'exécution de tâches, tels que Spark, Hadoop et Hive. Ces images sont régulièrement mises à jour pour inclure les dernières améliorations et fonctionnalités. La gestion des versions de Dataproc vous permet de sélectionner des ensembles de versions logicielles lorsque vous créez des clusters.

Fonctionnement de la gestion des versions

Lorsqu'une image est créée, un numéro de version d'image lui est attribué, qui respecte le format suivant :

version_major.version_minor.version_sub_minor-os_distribution

Les distributions de système d'exploitation suivantes sont actuellement gérées :

Code de distribution du système d'exploitation Distribution de l'OS
debian12 Debian 12
debian10 Debian 10
debian11 Debian 11
rocky8 Rocky Linux 8
rocky9 Rocky Linux 9
ubuntu18 Ubuntu 18.04 LTS
ubuntu20 Ubuntu 20.04 LTS
ubuntu22 Ubuntu 22.04 LTS

Consultez la section Anciennes versions d'image pour obtenir la liste des distributions de système d'exploitation précédemment compatibles.

La méthode recommandée consiste à spécifier la version d'image major.minor pour les environnements de production ou lorsqu'il est important d'assurer la compatibilité avec des versions de composants spécifiques. Les distributions de correction et de système d'exploitation sont automatiquement définies sur la dernière version hebdomadaire.

Sélectionner des versions

Lorsque vous créez un cluster Dataproc, la dernière version d'image Debian disponible est utilisée par défaut. Vous pouvez sélectionner une version d'image Debian, Rocky Linux ou Ubuntu lorsque vous créez un cluster (consultez la liste des versions d'images Dataproc). Lorsque vous spécifiez des images basées sur Debian, vous pouvez omettre le suffixe du code de distribution du système d'exploitation, par exemple en spécifiant 2.0 pour sélectionner l'image 2.0-debian10. Le suffixe du système d'exploitation doit être utilisé pour sélectionner une image basée sur Rocky Linux ou Ubuntu, par exemple en spécifiant 2.0-ubuntu18.

Commande gcloud

Lorsque vous utilisez la commande gcloud dataproc clusters create, vous pouvez utiliser l'argument --image-version pour spécifier une version d'image pour le nouveau cluster.

Exemple d'image Debian :

gcloud dataproc clusters create cluster-name \
    --image-version=2.0 \
    --region=region

Exemple d'image Ubuntu :

gcloud dataproc clusters create cluster-name \
    --image-version=2.0-ubuntu18 \
    --region=region

Il est recommandé d'omettre la version de correction afin que la dernière soit utilisée. Toutefois, si nécessaire, la version de correction peut être spécifiée, par exemple "2.0.20".

Vous pouvez vérifier votre version actuelle à l'aide de la Google Cloud CLI.

gcloud dataproc clusters describe cluster-name \
    --region=region

API REST

Vous pouvez spécifier le champ SoftwareConfig imageVersion dans le cadre d'une requête d'API cluster.create.

Exemple

POST /v1/projects/project-id/regions/us-central1/clusters/
{
  "projectId": "project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      ...
      }
    },
    "workerConfig": {
      ...
      }
    },
    "softwareConfig": {
      "imageVersion": "2.0"
    }
  }
}
  

Console

Ouvrez la page Dataproc Créer un cluster. Le panneau "Configurer un cluster" est sélectionné. Le champ "Type et version d'image" de la section "Gestion des versions" affiche l'image qui sera utilisée lors de la création du cluster. La date de disponibilité'image est également indiquée. Au départ, l'image par défaut (la dernière version disponible de Debian) s'affiche comme étant sélectionnée. Cliquez sur MODIFIER pour afficher la liste des images disponibles. Vous pouvez sélectionner une image standard ou personnalisée pour votre cluster.

Nouvelles versions

De nouvelles versions majeures sont créées régulièrement pour intégrer un ou plusieurs de ces éléments:

  • Versions majeures des versions suivantes :
    • Spark, Hadoop et autres composants big data
    • Connecteurs Google Cloud
  • Modifications ou mises à jour majeures des fonctionnalités Dataproc

De nouvelles versions preview (avec un suffixe -RC) sont publiées avant la publication d'une nouvelle version majeure:

  • Les images d'aperçu ne sont pas destinées à être utilisées dans des charges de travail de production.
  • Les versions du composant Image d'aperçu peuvent être mises à niveau vers la dernière version disponible du composant dans la version d'image en disponibilité générale post-aperçu.

De nouvelles versions mineures sont créées régulièrement pour intégrer un ou plusieurs de ces éléments:

  • Versions mineures et mises à jour pour :
    • Spark, Hadoop et autres composants big data
    • Connecteurs Google Cloud
  • Modifications ou mises à jour mineures des fonctionnalités Dataproc

Lorsqu'une version mineure est créée, son image Debian devient la valeur par défaut de la version majeure et représente la dernière version de la version majeure.

De nouvelles versions de correction sont créées régulièrement pour intégrer un ou plusieurs de ces éléments:

  • Correctifs ou solutions pour un composant de l'image
  • Mises à niveau de la version de correction des composants

Compatibilité des images de version avec Dataproc

Les versions d'image mineures sont compatibles pendant 24 mois après leur disponibilité générale. Pendant cette période, les clusters utilisant ces versions d'image sont éligibles à l'assistance (pour recevoir les correctifs, recréez votre cluster à l'aide de la dernière version d'image de correction compatible). Une fois ce délai passé, l'assistance n'est plus disponible.

Anciennes versions d'image

Distributions de système d'exploitation précédemment compatibles

Les distributions de système d'exploitation suivantes étaient précédemment compatibles :

Code de distribution du système d'exploitation Distribution du système d'exploitation Dernier correctif (fin de compatibilité)
debian9 Debian 9 10 juillet 2020
deb8 Debian 8 26 octobre 2018

Versions d'image sans distribution de système d'exploitation explicite

Avant le 16 août 2018, les versions d'image étaient conçues avec Debian 8 et n'incluaient pas le code de distribution du système d'exploitation. Elles sont spécifiées au format suivant :

version_major.version_minor.version_sub_minor

0.1 et 0.2

Les versions d'image alpha ou bêta publiées avant la disponibilité générale de Dataproc version 1.0 ne sont pas soumises aux règles de compatibilité de Dataproc.

Remarques importantes sur la gestion des versions

  • Les versions d'image contiennent les composants suivants :
  • Vos clusters Dataproc ne sont pas automatiquement mis à jour lorsque de nouvelles versions d'image sont publiées.
    • Recommandations:
    • Exécutez des clusters avec la dernière version de correction. Les métadonnées d'image incluent un libellé previous-subminor, défini sur true si le cluster n'utilise pas la dernière version de correction de l'image.
      • Pour afficher les métadonnées d'image :
        1. Exécutez la commande gcloud compute images list --filter suivante pour répertorier le nom de ressource d'une image Dataproc.
          gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as 2.2.16-debian12)"
          
        2. Exécutez la commande gcloud compute images describe suivante pour afficher les métadonnées de l'image.
          gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
          
    • Testez et vérifiez que vos applications s'exécutent correctement sur des clusters créés avec de nouvelles versions d'image, en particulier lorsque vous utilisez de nouvelles versions d'images majeures.