Gérer les mises à niveau de version pour les instances et les pipelines

Cette page décrit la mise à niveau de la version de vos instances ou de vos instances les pipelines de ML.

Mettez à niveau vos instances et pipelines de traitement par lot Cloud Data Fusion vers les dernières de la plate-forme et du plug-in pour bénéficier des dernières fonctionnalités, corrections de bugs et performances et d'améliorations.

Avant de commencer

  • Planifiez un temps d'arrêt pour la mise à niveau. Cette opération peut prendre jusqu'à une heure.
  • Dans la console Google Cloud, activez Cloud Shell.

    Activer Cloud Shell

Limites

  • Une fois que vous avez créé une instance Cloud Data Fusion, vous ne pouvez pas modifier son par le biais d'une opération de mise à niveau.

  • Il n'est pas possible de mettre à niveau des pipelines en temps réel, sauf dans les pipelines créés dans la version 6.8.0 avec une source en temps réel Kafka. Pour contourner ce problème, consultez Mettre à niveau les pipelines en temps réel

  • Cloud Data Fusion ne redémarre pas les pipelines qui s'arrêtent à la suite d'une l'opération de mise à niveau.

Mettre à niveau des instances Cloud Data Fusion

Pour mettre à niveau une instance Cloud Data Fusion vers une nouvelle instance Cloud Data Fusion accédez à la page Détails de l'instance:

  1. Dans la console Google Cloud, accédez à la page Cloud Data Fusion.

  2. Cliquez sur Instances, puis sur le nom de l'instance pour accéder à la page Détails de l'instance.

    Accéder à la page "Instances"

Effectuez ensuite la mise à niveau à l'aide de la console Google Cloud ou gcloud CLI:

Console

  1. Cliquez sur Mettre à jour pour obtenir la liste des versions disponibles.

  2. Sélectionnez une version.

  3. Cliquez sur Mettre à jour.

  4. Vérifiez que la mise à niveau a bien été effectuée:

    1. Actualisez la page Détails de l'instance.

    2. Cliquez sur Afficher l'instance pour accéder à l'instance mise à niveau dans le Interface Web Cloud Data Fusion

    3. Cliquez sur System admin (Administrateur système) dans la barre de menu.

      Le nouveau numéro de version apparaît en haut de la page.

  5. Pour éviter que vos pipelines ne se bloquent lorsque vous les exécutez dans nouvelle version, accordez les rôles requis dans votre compte Compute Engine.

gcloud

  1. Pour passer à une nouvelle version de Cloud Data Fusion, exécutez la commande suivante : Commande gcloud CLI depuis un terminal local Session Cloud Shell:

      gcloud beta data-fusion instances update INSTANCE_ID \
        --project=PROJECT_ID \
        --location=LOCATION_NAME \
        --version=AVAILABLE_INSTANCE_VERSION
    
  2. Pour vérifier que la mise à niveau a bien été effectuée, procédez comme suit:

    1. Dans la console Google Cloud, accédez à Cloud Data Fusion Instances.

    2. Cliquez sur Afficher l'instance pour accéder à l'instance mise à niveau dans le Interface Web Cloud Data Fusion

    3. Cliquez sur System Admin (Administrateur système) dans la barre de menu.

      Le nouveau numéro de version apparaît en haut de la page.

  3. Pour éviter que vos pipelines ne se bloquent lorsque vous les exécutez dans nouvelle version, accordez les rôles requis dans votre compte Compute Engine.

Mettre à niveau des pipelines par lots

Pour mettre à jour vos pipelines par lots Cloud Data Fusion afin d'utiliser les dernières versions de plug-ins, procédez comme suit :

  1. Définissez des variables d'environnement.

  2. Recommandation:Sauvegardez tous les pipelines. Vous pouvez sauvegarder les pipelines de deux manières:

    • Téléchargez le fichier ZIP en procédant comme suit:

      1. Pour déclencher le téléchargement d'un fichier ZIP, sauvegardez tous les pipelines à l'aide de la commande la commande suivante:
      echo $CDAP_ENDPOINT/v3/export/apps
      
      1. Copiez l'URL générée dans votre navigateur.
      2. Extrayez le fichier téléchargé, puis vérifiez que tous les pipelines ont été exportées. Les pipelines sont organisés par espace de noms.
    • Sauvegarder les pipelines à l'aide de la gestion du contrôle des sources (SCM), disponible à partir de la version 6.9. SCM fournit GitHub que vous pouvez utiliser pour sauvegarder les pipelines.

  3. Mettez à niveau les pipelines en procédant comme suit:

    1. Créez une variable qui pointe vers le fichier pipeline_upgrade.json qui que vous créerez à l'étape suivante pour enregistrer une liste de pipelines.

      export PIPELINE_LIST=PATH/pipeline_upgrade.json
      

      Remplacez PATH par le chemin d'accès au fichier.

    2. Créer une liste de tous les pipelines pour une instance et un espace de noms à l'aide de la commande suivante. Le résultat est stocké dans le fichier $PIPELINE_LIST au format JSON. Vous pouvez modifier la liste pour supprimer les pipelines qui n'ont des mises à niveau nécessaires.

      curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps -o $PIPELINE_LIST
      

      Remplacez NAMESPACE_ID par l'espace de noms dans lequel vous souhaitez que le la mise à niveau.

    3. Mettez à jour les pipelines répertoriés dans pipeline_upgrade.json. Insérez les NAMESPACE_ID des pipelines à mettre à jour. La commande affiche une liste des pipelines mis à jour avec leur état de mise à jour.

      curl -N -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/upgrade --data @$PIPELINE_LIST
      

      Remplacez NAMESPACE_ID par l'ID de l'espace de noms des pipelines. qui sont mises à niveau.

  4. Pour éviter que vos pipelines ne restent bloqués lorsque vous les exécutez dans la nouvelle accordez les rôles requis dans votre instance mise à niveau.

Mettre à niveau les pipelines en temps réel

La mise à niveau des pipelines en temps réel n'est pas acceptée, sauf dans les pipelines créés dans version 6.8.0 avec une source en temps réel Kafka.

Pour tout le reste, procédez comme suit:

  1. Arrêtez et exportez les pipelines.
  2. Mettre à niveau l'instance
  3. Importez les pipelines en temps réel dans votre instance mise à niveau.

Mettre à niveau pour activer la réplication

La réplication peut être activée dans Cloud Data Fusion à partir de la version 6.3.0. Si vous disposez de la version 6.2.3, effectuez une mise à niveau vers 6.3.0, puis installez la dernière version. Vous pouvez ensuite activer la réplication.

Attribuer des rôles pour les instances mises à niveau

Une fois la mise à niveau terminée, accordez Rôle d'exécuteur Cloud Data Fusion (roles/datafusion.runner) et Rôle d'administrateur Cloud Storage (roles/storage.admin) au compte de service Dataproc dans votre projet.

Étape suivante