Cette page explique comment modifier la version de l'image Dataproc utilisée par votre instance Cloud Data Fusion.
Avant de commencer
Arrêtez tous les pipelines et les tâches de réplication en temps réel de l'instance Cloud Data Fusion. Si un pipeline ou une réplication en temps réel est en cours d'exécution lorsque vous modifiez la version de l'image Dataproc, ces modifications ne seront pas appliquées à l'exécution du pipeline.
Pour les pipelines en temps réel, si le point de contrôle est activé, l'arrêt de ces pipelines n'entraîne aucune perte de données. Tant que les journaux de base de données sont disponibles, la tâche de réplication n'entraîne pas de perte de données.
Console
Accédez à la page Instances de Cloud Data Fusion (dans CDAP, cliquez sur Afficher les instances) et ouvrez l'instance où vous devez arrêter un pipeline.
Ouvrez chaque pipeline en temps réel dans Pipeline Studio et cliquez sur Stop (Arrêter).
Ouvrez chaque tâche de réplication sur la page Répliquer et cliquez sur Arrêter.
API REST
Pour récupérer tous les pipelines, utilisez l'appel d'API REST suivant:
GET -H "Authorization: Bearer ${AUTH_TOKEN}" \ "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
Remplacez
NAMESPACE_ID
par le nom de votre espace de noms.Pour arrêter un pipeline en temps réel, utilisez l'appel d'API REST suivant:
POST -H "Authorization: Bearer ${AUTH_TOKEN}" \ "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
Remplacez NAMESPACE_ID par le nom de votre espace de noms et PIPELINE_NAME par le nom du pipeline en temps réel.
Pour arrêter une tâche de réplication, utilisez l'appel d'API REST suivant:
POST -H "Authorization: Bearer ${AUTH_TOKEN}" \ "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
Remplacez NAMESPACE_ID par le nom de votre espace de noms et REPLICATION_JOB_NAME par le nom de la tâche de réplication.
Pour en savoir plus, consultez Arrêter les pipelines en temps réel et Arrêter les tâches de réplication.
Vérifier et remplacer la version par défaut de Dataproc dans Cloud Data Fusion
Dans Google Cloud Console, accédez à la page Instances (dans CDAP, cliquez sur Afficher les instances) et ouvrez l'instance.
Cliquez sur Administrateur système > Configuration > Préférences système.
Si une image Dataproc n'est pas spécifiée dans les préférences système, ou pour modifier vos préférences, cliquez sur Modifier les préférences système.
Saisissez le texte suivant dans le champ Key (Clé) :
system.profile.properties.imageVersion
Saisissez l'image Dataproc souhaitée dans le champ de valeur (par exemple,
1.5-debian10
).Cliquez sur Enregistrer et fermer.
Cette modification affecte l'instance Cloud Data Fusion complète, y compris tous les espaces de noms et les exécutions de pipeline, sauf si la propriété de la version d'image est remplacée dans un espace de noms, un pipeline ou un argument d'exécution dans votre instance.
Modifier la version de l'image Dataproc dans un espace de noms ou un argument d'exécution de pipeline
Si vous n'avez pas remplacé la version de l'image Dataproc dans les préférences d'espace de noms ou dans les arguments d'exécution du pipeline, vous pouvez ignorer ces étapes.
Préférences de l'espace de noms
Si vous avez remplacé la version d'image dans les propriétés d'espace de noms, procédez comme suit:
Ouvrez votre instance dans l'UI de Cloud Data Fusion.
Cliquez sur Administrateur système > Configuration > Espaces de noms.
Ouvrez chaque espace de noms, puis cliquez sur Préférences.
Assurez-vous qu'il n'y a pas de remplacement avec la clé
system.profile.properties.imageVersion
si la valeur de la version d'image est incorrecte.Cliquez sur Finish (Terminer).
Arguments d'exécution du pipeline
Si vous avez remplacé la version d'image par une propriété dans vos arguments d'exécution, procédez comme suit:
Ouvrez votre instance dans l'UI de Cloud Data Fusion.
Cliquez sur > List (Liste) et sélectionnez le pipeline souhaité.
PipelineLe pipeline s'ouvre sur la page Pipeline Studio.
Cliquez sur le menu déroulant
à côté de Run (Exécuter).La fenêtre Arguments d'exécution s'ouvre.
Assurez-vous qu'il n'y a pas de remplacement avec la clé
system.profile.properties.imageVersion
et une valeur de version d'image incorrecte.Cliquez sur Enregistrer.
Recréez les clusters Dataproc statiques utilisés par Cloud Data Fusion avec la version de l'image souhaitée
Si vous utilisez des clusters Dataproc existants avec Cloud Data Fusion, suivez le guide Dataproc pour recréer les clusters avec la version d'image Dataproc souhaitée pour votre version Cloud Data Fusion.
Si des pipelines s'exécutent lors de la recréation du cluster, ils échouent. Les exécutions suivantes doivent être exécutées sur le cluster recréé.
Vous pouvez également créer un cluster Dataproc avec la version d'image Dataproc souhaitée, puis supprimer et recréer le profil de calcul dans Cloud Data Fusion avec le même nom de profil de calcul et le nom du cluster Dataproc mis à jour. De cette manière, les pipelines de traitement par lot peuvent terminer l'exécution sur le cluster existant, et les nouvelles exécutions de pipeline sont exécutées sur le nouveau cluster Dataproc. Vous pouvez supprimer l'ancien cluster Dataproc après avoir vérifié que toutes les exécutions de pipeline sont terminées.
Vérifier que la version de l'image Dataproc est à jour
Console
Dans Google Cloud Console, accédez à la page Dataproc Clusters.
Ouvrez la page Cluster details (Détails du cluster) du nouveau cluster que Cloud Data Fusion a créé lorsque vous avez spécifié la nouvelle version.
Le champ Image version (Version de l'image) comporte la nouvelle valeur que vous avez spécifiée dans Cloud Data Fusion.
API REST
Obtenez la liste des clusters avec leurs métadonnées:
GET -H "Authorization: Bearer ${AUTH_TOKEN}" \ https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
Remplacez les éléments suivants :
NAMESPACE_ID
par le nom de votre espace de noms ;REGION_ID
par le nom de la région où se trouvent vos clusters ;
Recherchez le nom de votre pipeline (nom du cluster).
Sous cet objet JSON, consultez l'image dans
config > softwareConfig > imageVersion
.