Un profil de calcul spécifie comment et où un pipeline est exécuté. Il encapsule toutes les informations requises pour configurer et supprimer l'environnement d'exécution physique d'un pipeline. Un profil de calcul spécifie un nom d'approvisionneur et les paramètres de configuration de cet approvisionneur.
Chaque profil de calcul est associé à un champ d'application: système ou utilisateur. Vous pouvez utiliser les ressources de calcul système pour tous les espaces de noms sous-jacents. Les profils de calcul utilisateur existent dans d'espace de noms. Seuls les pipelines de cet espace de noms peuvent utiliser des profils de calcul utilisateur. Les profils de calcul peuvent être attribués à des pipelines de traitement par lot. Lorsqu'un profil de calcul attribué à un pipeline, l'approvisionneur spécifié dans le profil sera utilisé pour créer un cluster dans lequel le pipeline s'exécutera.
Par exemple, un administrateur peut décider de créer des profils de calcul de petite, moyenne et grande taille. Il configure chaque profil avec les identifiants Google Cloud requis pour créer et supprimer des clusters Dataproc dans le compte Google Cloud de l'entreprise.
- Le petit profil est configuré pour créer un cluster à cinq nœuds.
- Le profil de taille moyenne est configuré pour créer un cluster de 20 nœuds.
- Le profil de grande envergure est configuré pour créer un cluster de 50 nœuds.
L'administrateur attribue le petit profil aux pipelines prévus pour toutes les heures sur de petites quantités de données. Il attribue le profil volumineux de pipelines planifiés pour s'exécuter chaque jour sur une grande quantité de données.
Profil de calcul par défaut
Par défaut, Cloud Data Fusion utilise l'autoscaling comme profil de calcul. Il est difficile d'estimer le nombre approprié de nœuds de calcul du cluster pour une charge de travail ; la plupart du temps, une taille de cluster unique pour un pipeline entier n'est pas la solution idéale. L'autoscaling Dataproc fournit un mécanisme d'automatisation des clusters la gestion des ressources et active l'autoscaling des VM de nœud de calcul de cluster. Pour plus plus d'informations, consultez la section Autoscaling.
Sur la page Compute config (Configuration de calcul), qui affiche une liste de profils, se trouve une colonne Total cores (Nombre total de cœurs), qui indique le nombre maximal de processeurs virtuels que le profil peut mettre à l'échelle, par exemple Up to 84
.
Profils de calcul système et utilisateur
Un profil de calcul indique quel approvisionneur utiliser lors de la création d'un cluster et spécifie la configuration du cluster. Ils spécifient également l'approvisionneur à utiliser lors de la création d'un cluster.
- Pour créer un profil de calcul système, accédez à la page Administration système dans Cloud Data Fusion Studio. Cette page liste tous les profils de calcul système et vous permet de créer des profils de calcul système.
- Pour créer un profil de calcul utilisateur, accédez à l'espace de noms administration de Cloud Data Fusion Studio, puis sélectionnez le dans lequel créer le profil. Vous pouvez ensuite créer un profil qui n'existe que dans cet espace de noms.
Attribution du profil de calcul
Vous pouvez attribuer des profils de calcul aux pipelines de traitement par lot de différentes manières:
- Attribuez un profil par défaut à l'instance Cloud Data Fusion.
- Attribuez un profil par défaut à un espace de noms spécifique.
- Attribuer à un pipeline de traitement par lot un profil à utiliser pour les exécutions démarrées manuellement.
- Attribuer un profil à une planification de pipeline
Si un profil est défini dans la planification qui déclenche une exécution, ou si vous exécutez manuellement un pipeline et qu'un profil lui est attribué, Cloud Data Fusion utilise ce profil de calcul.
Si aucun profil n'est défini, Cloud Data Fusion utilise le profil par défaut de l'espace de noms. Si aucun profil par défaut n'est défini pour l'espace de noms,
Cloud Data Fusion utilise le profil par défaut du système. Si aucune valeur par défaut du système n'est le profil intégré est utilisé.
Attribuer un profil de calcul par défaut
Pour attribuer des profils par défaut à un espace de noms ou une instance Cloud Data Fusion, accédez à Cloud Data Fusion Studio, puis cliquez sur Administrateur système > Configuration > Profils de calcul système. Pour sélectionner par défaut, cliquez sur l'étoile à côté du profil son nom.
Facultatif : Utiliser les microservices de préférences pour définir des profils par défaut
- Pour définir le profil par défaut, définissez une préférence sur Cloud Data Fusion
instance avec la clé system.profile.name et la valeur
system:<profile-name>
. - Pour définir le profil par défaut d'un espace de noms, définissez une préférence sur le
espace de noms choisi avec la clé
system.profile.name
et la valeur<scope>:<profile-name>
Attribuer un profil de calcul pour les exécutions manuelles
Pour attribuer un profil à utiliser pour les exécutions manuelles de pipeline, procédez comme suit :
- Accédez à la page des détails du pipeline.
- Cliquez sur Configurer > Configuration de calcul.
- Sélectionnez un profil, puis cliquez sur Enregistrer. Le profil sélectionné est utilisé chaque fois que le pipeline s'exécute manuellement.
Vous pouvez également utiliser les microservices de préférences pour définir le profil pour les exécutions manuelles en définissant une préférence sur l'entité DataPipelineWorkflow
avec la clé system.profile.name
et la valeur <scope>:<profile-name>
.
Attribuer un profil de calcul à une planification
Chaque fois que vous créez une planification pour un pipeline, vous pouvez lui attribuer un profil. Chaque fois que la planification déclenche une exécution de pipeline, elle utilise ce profil pour l'exécution. Cela est vrai pour les calendriers et les calendriers déclenchés par d'autres pipelines.
Remplacer la configuration d'un profil de calcul
Lors de la création d'un profil, chaque paramètre de configuration peut être rendu immuable le verrouiller. Toutefois, si les paramètres de configuration ne sont pas verrouillés, ils peuvent être ignorés au moment de l'exécution. Pour ignorer la configuration du profil, procédez comme suit:
- Sur la page "Liste des pipelines", sélectionnez le pipeline déployé que vous souhaitez exécuter.
- Sur la page "Détails du pipeline", cliquez sur Configurer.
- Choisissez un profil de calcul, puis cliquez sur Personnaliser.
- Modifiez les paramètres souhaités, puis cliquez sur Enregistrer.
Vous pouvez utiliser des arguments d'exécution et des propriétés de planification pour modifier le cluster et d'autres paramètres.
- Pour remplacer le profil utilisé, définissez un argument d'exécution avec la clé
system.profile.name
et la valeur<scope>:<profile-name>
. - Pour remplacer une propriété de profil, définissez un argument d'exécution avec la clé
system.profile.properties.<property-name>
et une valeur égale à celle de cette propriété.
Par exemple, pour remplacer numWorkerssetting
par une valeur de 10
, définissez une préférence ou un argument d'exécution avec la clé system.profile.properties.numWorkers
et la valeur 10
.
Étape suivante
- En savoir plus sur les provisionneurs dans Cloud Data Fusion
- En savoir plus sur la configuration des clusters Dataproc