Mettre à jour des instances et des pipelines

Vous pouvez mettre à niveau vos instances Cloud Data Fusion et vos pipelines de traitement par lot vers les dernières versions des plates-formes et des plug-ins pour bénéficier des dernières fonctionnalités, corrections de bugs et améliorations des performances. Le processus de mise à jour implique des temps d'arrêt des instances et des pipelines (consultez la section Avant de commencer).

Avant de commencer

  • Prévoyez un temps d'arrêt planifié pour la mise à jour. Le processus prend jusqu'à une heure.

  • Recommandé:Avant de procéder à la mise à niveau, arrêtez tous les pipelines en cours d'exécution et désactivez tous les déclencheurs en amont, tels que les déclencheurs Cloud Composer. Lorsque la mise à niveau commence, tous les pipelines en cours d'exécution s'arrêtent. Si vous effectuez une mise à niveau vers les versions 6.3 et ultérieures, Cloud Data Fusion ne redémarre pas les pipelines en cours d'exécution au préalable. Dans les versions précédentes, Cloud Data Fusion tente de les redémarrer.

  • Installez le SDK Cloud.

  • Installez curl.

Mettre à jour des instances Cloud Data Fusion

Pour mettre à jour une instance Cloud Data Fusion vers une nouvelle version de Cloud Data Fusion, procédez comme suit :

  1. Dans Cloud Console, ouvrez la page Instances.

    Ouvrir la page "Instances"

  2. Cliquez sur Instance Name pour ouvrir la page Détails de l'instance. Cette page répertorie les informations sur les instances, y compris les informations instance id et region, la valeur actuelle de Cloud Data Fusion version, les paramètres de journalisation et de surveillance, et les éventuels libellés d'instances.

Effectuez ensuite la mise à jour à l'aide de Cloud Console ou de l'outil de ligne de commande gcloud :

Console

  1. Cliquez sur Mettre à jour pour obtenir la liste des versions disponibles.

  2. Sélectionnez celle que vous préférez.

  3. Cliquez sur Mettre à jour.

  4. Cliquez sur Afficher l'instance pour accéder à l'instance mise à jour.

  5. Vérifiez que la mise à niveau a réussi en actualisant la page Détails de l'instance, puis en cliquant sur Administrateur système dans la barre de menu. Le nouveau numéro de version s'affiche en haut de la page.

  6. Pour éviter que vos pipelines ne restent bloqués lorsque vous les exécutez dans la nouvelle version:

    1. Accordez les rôles requis dans votre instance mise à niveau.

    2. Si vous êtes passé à la version 6.2.0 ou ultérieure et que votre cluster Dataproc est bloqué à l'état de provisionnement, consultez la section Ajouter des tags réseau.

gcloud

  1. Exécutez la commande gcloud suivante à partir d'une session Cloud Shell de terminal local pour passer à une nouvelle version de Cloud Data Fusion. Ajoutez les options --enable_stackdriver_logging, --enable_stackdriver_monitoring et --labels si elles s'appliquent à votre instance.

    gcloud beta data-fusion instances update \
        --project=PROJECT_ID \
        --location=REGION \
        --version=NEW_VERSION_NUMBER INSTANCE_ID
    

  2. Une fois la commande terminée, vérifiez que la mise à niveau a abouti. Dans Cloud Console, actualisez la page Détails de l'instance, puis cliquez sur Administrateur système dans la barre de menu. Le nouveau numéro de version s'affiche en haut de la page.

  3. Pour éviter que vos pipelines ne restent bloqués lorsque vous les exécutez dans la nouvelle version:

    1. Accordez les rôles requis dans votre instance mise à niveau.

    2. Si vous êtes passé à la version 6.2.0 ou ultérieure et que votre cluster Dataproc est bloqué à l'état de provisionnement, consultez la section Ajouter des tags réseau.

Mettre à jour des pipelines par lots

Pour mettre à jour vos pipelines par lots Cloud Data Fusion afin d'utiliser les dernières versions de plug-ins, procédez comme suit :

  1. Définissez des variables d'environnement.

  2. Recommandé : Sauvegardez tous les pipelines.

    1. Exécutez la commande suivante, puis copiez l'URL générée dans votre navigateur pour déclencher le téléchargement d'un fichier ZIP.

      echo $CDAP_ENDPOINT/v3/export/apps
      

    2. Décompressez le fichier téléchargé, puis vérifiez que tous les pipelines ont bien été exportés. Les pipelines sont organisés par espace de noms.

  3. Mettre à jour des pipelines

    1. Créez une variable qui pointe vers le fichier pipeline_upgrade.json que vous allez créer à l'étape suivante pour enregistrer la liste des pipelines (insérez le fichier PATH dans le fichier).

      export PIPELINE_LIST=PATH/pipeline_upgrade.json
      

    2. Créez une liste de tous les pipelines d'une instance et d'un espace de noms à l'aide de la commande suivante. Le résultat est stocké dans le fichier $PIPELINE_LIST au format JSON. Vous pouvez modifier la liste pour supprimer les pipelines qui n'ont pas besoin d'être mis à niveau. Définissez le champ NAMESPACE_ID sur l'espace de noms dans lequel vous souhaitez effectuer la mise à niveau.

      curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps -o $PIPELINE_LIST
      

    3. Mettez à jour les pipelines répertoriés dans pipeline_upgrade.json. Insérez les NAMESPACE_ID des pipelines à mettre à jour. La commande affiche une liste des pipelines mis à jour avec leur état de mise à jour.

      curl -N -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/upgrade --data @$PIPELINE_LIST
      

  4. Pour éviter que vos pipelines ne restent bloqués lorsque vous les exécutez dans la nouvelle version:

    1. Accordez les rôles requis dans votre instance mise à niveau.

    2. Si vous êtes passé à la version 6.2.0 ou ultérieure et que votre cluster Dataproc est bloqué à l'état de provisionnement, consultez la section Ajouter des tags réseau.

Mettre à niveau pour activer la réplication

La réplication peut être activée dans les environnements Cloud Data Fusion dans la version 6.3.0 ou ultérieure. Si vous disposez de la version 6.2.3, passez à la version 6.3.0, puis activez la réplication.

Attribuer des rôles pour les instances mises à niveau

Si vous mettez à niveau une instance depuis Cloud Data Fusion version 6.1.x vers la version 6.2.0 ou ultérieure, attribuez le rôle d'exécution Cloud Data Fusion et Rôle d'administrateur Cloud Storage au compte de service Dataproc dans votre projet

Ajouter des tags réseau

Les tags réseau sont conservés dans vos profils Compute lorsque vous passez de Cloud Data Fusion 6.2.x (ou version ultérieure) à une version supérieure.

Si vous passez de la version 6.1.x à la version 6.2.0 ou ultérieure, les tags réseau ne sont pas conservés. Votre cluster Dataproc peut ainsi être bloqué à l'état de provisionnement, en particulier si votre environnement dispose de règles de sécurité et de mise en réseau restrictives.

Au lieu de cela, dans chaque instance mise à jour, ajoutez manuellement vos tags réseau à chacun des profils de calcul qu'il utilise.

Pour ajouter des tags réseau à un profil de calcul, procédez comme suit:

  1. Dans Google Cloud Console, ouvrez la page Instances de Cloud Data Fusion.

  2. Cliquez sur View Instance (Afficher l'instance).

  3. Cliquez sur Administrateur système.

  4. Cliquez sur l'onglet Configuration.

  5. Développez la zone Profils de calcul système.

  6. Cliquez sur Créer un profil. Une page d'approvisionneurs s'ouvre.

  7. Cliquez sur Dataproc.

  8. Saisissez les informations de profil de votre choix, y compris vos tags réseau.

  9. Cliquez sur Create (Créer).

Après avoir ajouté les tags, utilisez le profil mis à jour dans votre pipeline. Les nouvelles balises seront conservées dans les prochaines versions.

Versions disponibles pour votre mise à niveau

En règle générale, lorsque vous effectuez une mise à niveau, nous vous recommandons d'utiliser la dernière version de l'environnement Cloud Data Fusion afin que vos instances s'exécutent dans un environnement compatible le plus longtemps possible. Pour en savoir plus, consultez la Politique de compatibilité avec les versions. Selon votre version d'origine, la mise à niveau vers certaines versions peut ne pas être disponible. Dans ce cas, vous pouvez procéder à une mise à niveau vers une version compatible avec la version souhaitée.

Cloud Data Fusion est compatible avec les mises à niveau de version suivantes:

Votre version de Cloud Data Fusion Mises à niveau disponibles
6.4.1 6.5.0
6.4.0 6.4.1
6.3.1 6.4.1, 6.5.0
6.3.0 6.3.1, 6.4.1
6.2.3 6.3.1, 6.4.1, 6.5.0
6.2.2 6.2.3
6.2.1 6.2.2, 6.2.3
6.2.0 6.2.1, 6.2.2, 6.2.3
6.1.4 6.3.1, 6.4.1, 6.5.0
6.1.3 6.1.4 et 6.3.1
6.1.2 6.1.3, 6.1.4

Dépannage

Lorsque vous passez à la version 6.4, vous rencontrez un problème connu avec le plug-in Joiner qui ne permet pas d'afficher les conditions de jointure. Pour en savoir plus, consultez la page Dépannage.