Mettre à niveau votre environnement Cloud Data Fusion

Vous pouvez mettre à jour vos instances et pipelines par lot Cloud Data Fusion vers les dernières versions de plate-forme et de plug-in afin d'obtenir les dernières fonctionnalités, corrections de bugs et améliorations de performances. Le processus de mise à jour implique des temps d'arrêt des instances et des pipelines (consultez la section Avant de commencer).

Avant de commencer

  • Prévoyez un temps d'arrêt planifié pour la mise à jour. Le processus prend jusqu'à une heure.

  • Recommandé : Avant la mise à niveau, arrêtez tous les pipelines en cours d'exécution et désactivez tous les déclencheurs en amont, tels que les déclencheurs Cloud Composer. Une fois la mise à jour commencée, tous les pipelines en cours d'exécution s'arrêtent. Si vous effectuez une mise à niveau vers les versions 6.3 et ultérieures, si des pipelines sont en cours d'exécution au préalable, Cloud Data Fusion ne les redémarre pas. Dans les versions précédentes, Cloud Data Fusion tente de les redémarrer.

  • Installez Google Cloud CLI.

  • Installez curl.

Mettre à niveau des instances Cloud Data Fusion

Pour mettre à jour une instance Cloud Data Fusion vers une nouvelle version de Cloud Data Fusion, procédez comme suit :

  1. Dans Cloud Console, ouvrez la page Instances.

    Ouvrir la page "Instances"

  2. Cliquez sur Instance Name pour ouvrir la page Détails de l'instance. Vous trouverez sur cette page des informations sur l'instance, y compris instance id, region, le paramètre version Cloud Data Fusion actuel, les paramètres de journalisation et de surveillance et les libellés d'instance.

Effectuez ensuite la mise à niveau à l'aide de Cloud Console ou de la CLI Google Cloud:

Console

  1. Cliquez sur Mettre à jour pour obtenir la liste des versions disponibles.

  2. Sélectionnez la version de votre choix.

  3. Cliquez sur Mettre à jour.

  4. Cliquez sur Afficher l'instance pour accéder à l'instance mise à jour.

  5. Vérifiez que la mise à niveau a réussi en actualisant la page Détails de l'instance, puis en cliquant sur Administrateur système dans la barre de menu. Le nouveau numéro de version apparaît en haut de la page.

  6. Pour éviter que vos pipelines ne soient bloqués lorsque vous les exécutez dans la nouvelle version, procédez comme suit :

    1. Attribuez les rôles requis pour votre instance mise à niveau.

    2. Si vous avez effectué une mise à niveau vers la version 6.2.0 ou une version ultérieure et que votre cluster Dataproc est bloqué dans l'état provisionnement, consultez la section Ajouter des tags réseau.

gcloud

  1. Exécutez la commande gcloud suivante à partir d'une session Cloud Shell de terminal local pour passer à une nouvelle version de Cloud Data Fusion. Ajoutez les options --enable_stackdriver_logging, --enable_stackdriver_monitoring et --labels si elles s'appliquent à votre instance.

    gcloud beta data-fusion instances update \
        --project=PROJECT_ID \
        --location=REGION \
        --version=NEW_VERSION_NUMBER INSTANCE_ID
    

  2. Une fois la commande terminée, vérifiez que la mise à niveau a réussi. Dans Cloud Console, actualisez la page Détails de l'instance, puis cliquez sur Administrateur système dans la barre de menu. Le nouveau numéro de version apparaît en haut de la page.

  3. Pour éviter que vos pipelines ne soient bloqués lorsque vous les exécutez dans la nouvelle version, procédez comme suit :

    1. Attribuez les rôles requis pour votre instance mise à niveau.

    2. Si vous avez effectué la mise à niveau vers la version 6.2.0 ou une version ultérieure et que votre cluster Dataproc est bloqué à l'état de provisionnement, consultez la section Ajouter des tags réseau.

Mettre à niveau des pipelines par lots

Pour mettre à jour vos pipelines par lots Cloud Data Fusion afin d'utiliser les dernières versions de plug-ins, procédez comme suit :

  1. Définissez des variables d'environnement.

  2. Recommandé : Sauvegardez tous les pipelines.

    1. Exécutez la commande suivante, puis copiez la sortie de l'URL dans votre navigateur pour déclencher un téléchargement de fichier ZIP.

      echo $CDAP_ENDPOINT/v3/export/apps
      

    2. Décompressez le fichier téléchargé, puis vérifiez que tous les pipelines ont été exportés. Les pipelines sont organisés par espace de noms.

  3. Mettre à jour des pipelines

    1. Créez une variable qui pointe vers le fichier pipeline_upgrade.json que vous allez créer à l'étape suivante pour enregistrer la liste des pipelines (insérez le fichier PATH dans le fichier).

      export PIPELINE_LIST=PATH/pipeline_upgrade.json
      

    2. Créez la liste de tous les pipelines d'une instance et d'un espace de noms à l'aide de la commande suivante. Le résultat est stocké dans le fichier $PIPELINE_LIST au format JSON. Vous pouvez modifier la liste pour supprimer des pipelines qui n'ont pas besoin d'être mis à niveau. Définissez le champ NAMESPACE_ID sur l'espace de noms dans lequel vous souhaitez effectuer la mise à niveau.

      curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps -o $PIPELINE_LIST
      

    3. Mettez à jour les pipelines répertoriés dans pipeline_upgrade.json. Insérez les NAMESPACE_ID des pipelines à mettre à jour. La commande affiche une liste des pipelines mis à jour avec leur état de mise à jour.

      curl -N -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/upgrade --data @$PIPELINE_LIST
      

  4. Pour éviter que vos pipelines ne soient bloqués lorsque vous les exécutez dans la nouvelle version, procédez comme suit :

    1. Attribuez les rôles requis pour votre instance mise à niveau.

    2. Si vous avez effectué une mise à niveau vers la version 6.2.0 ou une version ultérieure et que votre cluster Dataproc est bloqué dans l'état provisionnement, consultez la section Ajouter des tags réseau.

Mettre à niveau pour activer la réplication

La réplication peut être activée dans les environnements Cloud Data Fusion version 6.3.0 ou ultérieure. Si vous disposez de la version 6.2.3, passez à la version 6.3.0, puis activez la réplication.

Attribuer des rôles pour les instances mises à niveau

Si vous mettez à jour une instance de Cloud Data Fusion version 6.1.x vers la version 6.2.0 ou ultérieure, attribuez le rôle Exécuteur Cloud Data Fusion et le rôle Administrateur Cloud Storage vers le compte de service Dataproc dans votre projet une fois la mise à niveau terminée.

Ajouter des tags réseau

Les tags réseau sont conservés dans vos profils de calcul lorsque vous effectuez une mise à niveau depuis Cloud Data Fusion versions 6.2.x et ultérieures vers une version supérieure.

Si vous effectuez une mise à niveau de la version 6.1.x vers la version 6.2.0 et ultérieure, les tags réseau ne sont pas conservés. Cela peut entraîner le blocage de votre cluster Dataproc à l'état de provisionnement, en particulier si votre environnement dispose de règles de réseau et de sécurité restrictives.

À la place, dans chaque instance mise à jour, ajoutez manuellement vos tags réseau à chacun des profils de calcul qu'il utilise.

Pour ajouter des tags réseau à un profil de calcul, procédez comme suit :

  1. Dans Google Cloud Console, ouvrez la page Instances de Cloud Data Fusion.

  2. Cliquez sur Afficher l'instance.

  3. Cliquez sur Administrateur système.

  4. Cliquez sur l'onglet Configuration.

  5. Développez la zone Profils de calcul système.

  6. Cliquez sur Créer un profil. Une page d'approvisionneurs s'ouvre.

  7. Cliquez sur Dataproc.

  8. Saisissez les informations de profil souhaitées, y compris vos tags réseau.

  9. Cliquez sur Create (Créer).

Après avoir ajouté les tags, utilisez le profil mis à jour dans votre pipeline. Les nouveaux tags sont conservés dans les prochaines versions.

Versions disponibles pour votre mise à niveau

En général, lorsque vous effectuez une mise à niveau, nous vous recommandons d'utiliser la dernière version de l'environnement Cloud Data Fusion afin que vos instances s'exécutent dans un environnement compatible pendant la période la plus longue possible. Pour plus d'informations, consultez la politique de compatibilité avec les versions. Selon votre version d'origine, les mises à niveau vers certaines versions peuvent ne pas être disponibles. Dans ce cas, vous pouvez passer à une version compatible avec la version souhaitée.

Cloud Data Fusion est compatible avec les mises à niveau de version suivantes :

Votre version de Cloud Data Fusion Mises à niveau disponibles
6.5.1 6,6,0
6.5.0 6.5.1
6.4.1 6.5.1, 6.6.0
6.4.0 6.4.1
6.3.1 6.4.1, 6.5.1, 6.6.0.
6.3.0 6.3.1, 6.4.1
6.2.3 6.3.1, 6.4.1, 6.5.1, 6.6.0.
6.2.2 6.2.3
6.2.1 6.2.2, 6.2.3
6.2.0 6.2.1, 6.2.2, 6.2.3
6.1.4 6.3.1, 6.4.1, 6.5.1, 6.6.0.
6.1.3 6.1.4, 6.3.1
6.1.2 6.1.3, 6.1.4

Dépannage

Lorsque vous passez à la version 6.4, il existe un problème connu avec le plug-in Joiner dans lequel vous ne pouvez pas voir les conditions de jointure. Pour en savoir plus, consultez la page Dépannage.