Modifier la version de l'image Dataproc dans Cloud Data Fusion

Cette page explique comment modifier la version de l'image Dataproc utilisée par votre instance Cloud Data Fusion.

Avant de commencer

Arrêtez tous les pipelines et les tâches de réplication en temps réel de l'instance Cloud Data Fusion. Si un pipeline ou une réplication en temps réel est en cours d'exécution lorsque vous modifiez la version de l'image Dataproc, ces modifications ne seront pas appliquées à l'exécution du pipeline.

Pour les pipelines en temps réel, si le point de contrôle est activé, l'arrêt de ces pipelines n'entraîne aucune perte de données. Tant que les journaux de base de données sont disponibles, la tâche de réplication n'entraîne pas de perte de données.

Console

  1. Accédez à la page Instances de Cloud Data Fusion (dans CDAP, cliquez sur Afficher les instances) et ouvrez l'instance où vous devez arrêter un pipeline.

    Accéder à la page "Instances"

  2. Ouvrez chaque pipeline en temps réel dans Pipeline Studio et cliquez sur Stop (Arrêter).

  3. Ouvrez chaque tâche de réplication sur la page Répliquer et cliquez sur Arrêter.

API REST

  • Pour récupérer tous les pipelines, utilisez l'appel d'API REST suivant:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
    

    Remplacez NAMESPACE_ID par le nom de votre espace de noms.

  • Pour arrêter un pipeline en temps réel, utilisez l'appel d'API REST suivant:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
    

    Remplacez NAMESPACE_ID par le nom de votre espace de noms et PIPELINE_NAME par le nom du pipeline en temps réel.

  • Pour arrêter une tâche de réplication, utilisez l'appel d'API REST suivant:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
    

    Remplacez NAMESPACE_ID par le nom de votre espace de noms et REPLICATION_JOB_NAME par le nom de la tâche de réplication.

    Pour en savoir plus, consultez Arrêter les pipelines en temps réel et Arrêter les tâches de réplication.

Vérifier et remplacer la version par défaut de Dataproc dans Cloud Data Fusion

  1. Dans Google Cloud Console, accédez à la page Instances (dans CDAP, cliquez sur Afficher les instances) et ouvrez l'instance.

    Accéder à la page "Instances"

  2. Cliquez sur Administrateur système > Configuration > Préférences système.

    Modifier les préférences système

  3. Si une image Dataproc n'est pas spécifiée dans les préférences système, ou pour modifier vos préférences, cliquez sur Modifier les préférences système.

    1. Saisissez le texte suivant dans le champ Key (Clé) :

      system.profile.properties.imageVersion

    2. Saisissez l'image Dataproc souhaitée dans le champ de valeur (par exemple, 1.5-debian10).

    3. Cliquez sur Enregistrer et fermer.

Définir les préférences du système

Cette modification affecte l'instance Cloud Data Fusion complète, y compris tous les espaces de noms et les exécutions de pipeline, sauf si la propriété de la version d'image est remplacée dans un espace de noms, un pipeline ou un argument d'exécution dans votre instance.

Modifier la version de l'image Dataproc dans un espace de noms ou un argument d'exécution de pipeline

Si vous n'avez pas remplacé la version de l'image Dataproc dans les préférences d'espace de noms ou dans les arguments d'exécution du pipeline, vous pouvez ignorer ces étapes.

Préférences de l'espace de noms

Si vous avez remplacé la version d'image dans les propriétés d'espace de noms, procédez comme suit:

  1. Ouvrez votre instance dans l'UI de Cloud Data Fusion.

  2. Cliquez sur Administrateur système > Configuration > Espaces de noms.

  3. Ouvrez chaque espace de noms, puis cliquez sur Préférences.

    1. Assurez-vous qu'il n'y a pas de remplacement avec la clé system.profile.properties.imageVersion si la valeur de la version d'image est incorrecte.

    2. Cliquez sur Finish (Terminer).

Arguments d'exécution du pipeline

Si vous avez remplacé la version d'image par une propriété dans vos arguments d'exécution, procédez comme suit:

  1. Ouvrez votre instance dans l'UI de Cloud Data Fusion.

  2. Cliquez sur Pipeline > List (Liste) et sélectionnez le pipeline souhaité.

    Le pipeline s'ouvre sur la page Pipeline Studio.

  3. Cliquez sur le menu déroulant à côté de Run (Exécuter).

    La fenêtre Arguments d'exécution s'ouvre.

  4. Assurez-vous qu'il n'y a pas de remplacement avec la clé system.profile.properties.imageVersion et une valeur de version d'image incorrecte.

  5. Cliquez sur Enregistrer.

    Définir l'argument d'exécution du pipeline

Recréez les clusters Dataproc statiques utilisés par Cloud Data Fusion avec la version de l'image souhaitée

Si vous utilisez des clusters Dataproc existants avec Cloud Data Fusion, suivez le guide Dataproc pour recréer les clusters avec la version d'image Dataproc souhaitée pour votre version Cloud Data Fusion.

Si des pipelines s'exécutent lors de la recréation du cluster, ils échouent. Les exécutions suivantes doivent être exécutées sur le cluster recréé.

Vous pouvez également créer un cluster Dataproc avec la version d'image Dataproc souhaitée, puis supprimer et recréer le profil de calcul dans Cloud Data Fusion avec le même nom de profil de calcul et le nom du cluster Dataproc mis à jour. De cette manière, les pipelines de traitement par lot peuvent terminer l'exécution sur le cluster existant, et les nouvelles exécutions de pipeline sont exécutées sur le nouveau cluster Dataproc. Vous pouvez supprimer l'ancien cluster Dataproc après avoir vérifié que toutes les exécutions de pipeline sont terminées.

Vérifier que la version de l'image Dataproc est à jour

Console

  1. Dans Google Cloud Console, accédez à la page Dataproc Clusters.

    accéder aux clusters

  2. Ouvrez la page Cluster details (Détails du cluster) du nouveau cluster que Cloud Data Fusion a créé lorsque vous avez spécifié la nouvelle version.

    Le champ Image version (Version de l'image) comporte la nouvelle valeur que vous avez spécifiée dans Cloud Data Fusion.

API REST

  1. Obtenez la liste des clusters avec leurs métadonnées:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
    

    Remplacez les éléments suivants :

    • NAMESPACE_ID par le nom de votre espace de noms ;
    • REGION_ID par le nom de la région où se trouvent vos clusters ;
  2. Recherchez le nom de votre pipeline (nom du cluster).

  3. Sous cet objet JSON, consultez l'image dans config > softwareConfig > imageVersion.