Gestion des versions Dataproc

Dataproc utilise des images pour relier les connecteurs Google Cloud Platform utiles et les composants Apache Spark et Apache Hadoop en un seul package pouvant être déployé sur un cluster Dataproc. Ces images contiennent le système d'exploitation de base (Debian ou Ubuntu) du cluster, ainsi que les composants principaux et facultatifs nécessaires à l'exécution de tâches, tels que Spark, Hadoop et Hive. Ces images seront mises à jour périodiquement de manière à inclure les dernières améliorations et fonctionnalités. La gestion des versions de Dataproc vous permet de sélectionner des ensembles de versions logicielles lorsque vous créez des clusters.

Fonctionnement de la gestion des versions

Lorsqu'une image est créée, un numéro de version d'image lui est attribué, qui respecte le format suivant :

version_major.version_minor.version_sub_minor-os_distribution

Les distributions de système d'exploitation suivantes sont actuellement gérées :

Code de distribution du système d'exploitation Distribution du système d'exploitation
debian9 Debian 9
ubuntu18 Ubuntu 18

Consultez la section Anciennes versions d'image pour obtenir la liste des distributions de système d'exploitation précédemment compatibles.

Il est recommandé de spécifier la version de l'image major.minor pour les environnements de production ou lorsque la compatibilité avec des versions de composants spécifiques est importante. Les distributions de correction et de système d'exploitation seront automatiquement définies sur la dernière version hebdomadaire.

Sélectionner des versions

Lorsque vous créez un cluster Dataproc, la dernière version d'image Debian disponible est utilisée par défaut. Vous pouvez sélectionner une version d'image Debian ou Ubuntu lors de la création d'un cluster (consultez la liste des versions d'image Dataproc). Lorsque vous spécifiez des images basées sur Debian, vous pouvez omettre le suffixe du code de distribution du système d'exploitation, par exemple en spécifiant "1.3" pour sélectionner l'image 1.3-debian9. Le suffixe du système d'exploitation doit être utilisé pour sélectionner une image basée sur Ubuntu, par exemple en spécifiant "1.4-ubuntu18".

Commande gcloud

Lorsque vous utilisez la commande gcloud dataproc clusters create, vous pouvez utiliser l'argument --image-version pour spécifier une version d'image pour le nouveau cluster.

Exemple d'image Debian :

    gcloud dataproc clusters create new-cluster-name --image-version 1.4
    

Exemple d'image Ubuntu :

    gcloud dataproc clusters create new-cluster-name --image-version 1.3-ubuntu18
    

Il est recommandé d'omettre la version de correction afin que la plus récente soit utilisée. Toutefois, si nécessaire, la version de correction peut être spécifiée, par exemple "1.2.67".

Vous pouvez vérifier votre version actuelle à l'aide de l'outil de ligne de commande gcloud.

    gcloud dataproc clusters describe cluster-name
    

API REST

Vous pouvez spécifier le champ SoftwareConfig imageVersion dans le cadre d'une requête d'API cluster.create.

Exemple

    POST /v1/projects/project-id/regions/us-central1/clusters/
    {
      "projectId": "project-id",
      "clusterName": "example-cluster",
      "config": {
        "configBucket": "",
        "gceClusterConfig": {
          "subnetworkUri": "default",
          "zoneUri": "us-central1-b"
        },
        "masterConfig": {
          ...
          }
        },
        "workerConfig": {
          ...
          }
        },
        "softwareConfig": {
          "imageVersion": "1.3"
        }
      }
    }
      

Console

Lors de la création d'un cluster, cliquez sur Options avancées en bas du formulaire Dataproc Créer un cluster.

Le champ Image affiche l'image qui sera utilisée lors de la création du cluster, et affiche initialement la valeur par défaut (dernière version Debian disponible).

Cliquez sur Change (Modifier) pour afficher une liste d'images disponibles à utiliser dans votre cluster. Sélectionnez une image standard ou personnalisée.

Nouvelles versions

De nouvelles versions majeures seront créées périodiquement pour intégrer un ou plusieurs de ces éléments :

  • Nouvelles versions majeures :
    • Spark, Hadoop et autres composants big data
    • Connecteurs Google Cloud
  • Modifications ou mises à jour majeures apportées à la fonctionnalité Dataproc

De nouvelles versions mineures seront créées périodiquement pour intégrer un ou plusieurs de ces éléments :

  • Nouvelles versions et mises à jour mineures :
    • Spark, Hadoop et autres composants big data
    • Connecteurs Google Cloud
  • Modifications mineures ou mises à jour de la fonctionnalité Dataproc

Lorsqu'une version mineure est créée, son image Debian devient la valeur par défaut de la version majeure et représente la dernière version de la version majeure.

De nouvelles versions de correction seront créées périodiquement pour intégrer un ou plusieurs de ces éléments :

  • Correctifs ou solutions pour un composant de l'image

Compatibilité avec les versions d'image et Dataproc

Les versions d'image majeures et mineures restent compatibles pendant une durée spécifique après leur publication. Pendant ce délai, les clusters utilisant les versions d'image peuvent bénéficier d'une assistance. Une fois ce délai passé, l'assistance n'est plus disponible.

Mois après la première version de la version d'image Version d'image permettant la création de clusters Clusters utilisant cette version d'image éligibles à l'assistance
0-12 Oui Oui
12-24 Oui Non
24+ Non Non

Les versions de correction ne proposent pas de service d'assistance ou de durée de vie garantis.

Anciennes versions d'image

Distributions de système d'exploitation précédemment compatibles

Les distributions de système d'exploitation suivantes étaient précédemment compatibles :

Code de distribution du système d'exploitation Distribution du système d'exploitation Dernier correctif (fin de l'assistance)
deb8 Debian 8 26 octobre 2018

Versions d'image sans distribution de système d'exploitation explicite

Avant le 16 août 2018, les versions d'image étaient conçues avec Debian 8 et n'incluaient pas le code de distribution du système d'exploitation. Elles sont spécifiées au format suivant :

version_major.version_minor.version_sub_minor

0.1 et 0.2

Les versions d'image publiées en version alpha ou bêta avant la disponibilité générale de Dataproc version 1.0 ne sont pas soumises aux règles d'assistance Dataproc.

Remarques importantes sur la gestion des versions