Cette page a été traduite par l'API Cloud Translation.

Gérer les profils de calcul

Un profil de calcul spécifie comment et où un pipeline est exécuté. Il encapsule toutes les informations requises pour configurer et supprimer l'environnement d'exécution physique d'un pipeline. Un profil de calcul spécifie un nom d'approvisionneur et les paramètres de configuration de cet approvisionneur.

Chaque profil de calcul a une portée: système ou utilisateur. Vous pouvez utiliser des profils de calcul système pour tous les espaces de noms sous-jacents. Les profils de calcul utilisateur existent dans un espace de noms, et seuls les pipelines de cet espace de noms peuvent utiliser des profils de calcul utilisateur. Les profils de calcul peuvent être attribués à des pipelines de traitement par lot. Lorsqu'un profil de calcul est attribué à un pipeline, le provisionneur spécifié dans le profil est utilisé pour créer un cluster dans lequel le pipeline s'exécutera.

Par exemple, un administrateur peut décider de créer des profils de calcul de petite, moyenne et grande taille. Il configure chaque profil avec les identifiants Google Cloudrequis pour créer et supprimer des clusters Dataproc dans le compte Google Cloud de l'entreprise.

Le petit profil est configuré pour créer un cluster à cinq nœuds.
Le profil de taille moyenne est configuré pour créer un cluster de 20 nœuds.
Le profil de grande envergure est configuré pour créer un cluster de 50 nœuds.

L'administrateur attribue le profil de petite taille aux pipelines programmés pour s'exécuter toutes les heures sur de petites quantités de données. Ils attribuent le profil volumineux aux pipelines programmés pour s'exécuter chaque jour sur une grande quantité de données.

Profil de calcul par défaut

Par défaut, Cloud Data Fusion utilise Autoscale comme profil de calcul. Il est difficile d'estimer le nombre approprié de nœuds de calcul du cluster pour une charge de travail ; la plupart du temps, une taille de cluster unique pour un pipeline entier n'est pas la solution idéale. L'autoscaling Dataproc fournit un mécanisme permettant d'automatiser la gestion des ressources de cluster, et permet d'activer l'autoscaling des VM de nœud de calcul du cluster. Pour en savoir plus, consultez la section Autoscaling.

Sur la page Compute config (Configuration de calcul), qui affiche une liste de profils, se trouve une colonne Total cores (Nombre total de cœurs), qui indique le nombre maximal de processeurs virtuels que le profil peut mettre à l'échelle, par exemple Up to 84.

Profils de calcul système et utilisateur

Un profil de calcul indique le provisionneur à utiliser lors de la création d'un cluster et spécifie la configuration du cluster. Ils spécifient également la configuration du provisionneur à utiliser lors de la création d'un cluster.

Pour créer un profil de calcul système, accédez à la page Administration système dans Cloud Data Fusion Studio. Cette page liste tous les profils de calcul système et vous permet d'en créer.
Pour créer un profil de calcul utilisateur, accédez à la page Administration du nom d'espace dans Cloud Data Fusion Studio, puis sélectionnez le nom d'espace dans lequel créer le profil. Vous pouvez ensuite créer un profil qui n'existe que dans cet espace de noms.

Attribution du profil de calcul

Vous pouvez attribuer des profils de calcul aux pipelines de traitement par lot de différentes manières:

Attribuez un profil par défaut à l'instance Cloud Data Fusion.
Attribuez un profil par défaut à un espace de noms spécifique.
Attribuez un profil à un pipeline par lot à utiliser pour les exécutions démarrées manuellement.
Attribuez un profil à une planification de pipeline.

Si un profil est défini dans la planification qui déclenche une exécution, ou si vous exécutez manuellement un pipeline et qu'un profil lui est attribué, Cloud Data Fusion utilise ce profil de calcul.

Si aucun profil n'est défini, Cloud Data Fusion utilise le profil par défaut de l'espace de noms. Si aucun profil par défaut n'est défini pour l'espace de noms,

Cloud Data Fusion utilise le profil par défaut du système. Si aucune valeur par défaut système n'est définie, le profil intégré est utilisé.

Attribuer un profil de calcul par défaut

Pour attribuer des profils par défaut à un espace de noms ou une instance Cloud Data Fusion, accédez à Cloud Data Fusion Studio, puis cliquez sur Administration système > Configuration > Profils de calcul système. Pour sélectionner le profil par défaut, cliquez sur l'étoile à côté de son nom.

Facultatif: Utiliser les microservices de préférences pour définir des profils par défaut

Pour définir le profil par défaut, définissez une préférence sur l'instance Cloud Data Fusion avec la clé system.profile.name et la valeur system:<profile-name>.
Pour définir le profil par défaut d'un espace de noms, définissez une préférence sur l'espace de noms choisi avec la clé system.profile.name et la valeur <scope>:<profile-name>.

Attribuer un profil de calcul pour les exécutions manuelles

Pour attribuer un profil à utiliser pour les exécutions manuelles de pipeline, procédez comme suit:

Accédez à la page d'informations du pipeline.
Cliquez sur Configurer > Configuration de calcul.
Sélectionnez un profil, puis cliquez sur Enregistrer. Le profil sélectionné est utilisé chaque fois que le pipeline s'exécute manuellement.

Vous pouvez également utiliser les microservices de préférences pour définir le profil pour les exécutions manuelles en définissant une préférence sur l'entité DataPipelineWorkflow avec la clé system.profile.name et la valeur <scope>:<profile-name>.

Attribuer un profil de calcul à une planification

Chaque fois que vous créez une planification pour un pipeline, vous pouvez lui attribuer un profil. Chaque fois que la planification déclenche une exécution de pipeline, elle utilise ce profil pour l'exécution. Cela est vrai pour les calendriers et les calendriers déclenchés par d'autres pipelines.

Remplacer la configuration d'un profil de calcul

Lorsqu'un profil est créé, chaque paramètre de configuration peut être rendu immuable en le verrouillant. Toutefois, si les paramètres de configuration ne sont pas verrouillés, ils peuvent être ignorés au moment de l'exécution. Pour remplacer la configuration du profil, procédez comme suit:

Sur la page "Liste des pipelines", sélectionnez le pipeline déployé que vous souhaitez exécuter.
Sur la page "Détails du pipeline", cliquez sur Configurer.
Choisissez un profil de calcul, puis cliquez sur Personnaliser.
Modifiez les paramètres souhaités, puis cliquez sur Enregistrer.

Vous pouvez utiliser des arguments d'exécution et des propriétés de planification pour modifier la taille du cluster et d'autres paramètres.

Pour remplacer le profil utilisé, définissez un argument d'exécution avec la clé system.profile.name et la valeur <scope>:<profile-name>.
Pour remplacer une propriété de profil, définissez un argument d'exécution avec la clé system.profile.properties.<property-name> et une valeur égale à celle de cette propriété.

Par exemple, pour remplacer numWorkerssetting par une valeur de 10, définissez une préférence ou un argument d'exécution avec la clé system.profile.properties.numWorkers et la valeur 10.

Étape suivante

En savoir plus sur les provisionneurs dans Cloud Data Fusion
En savoir plus sur la configuration des clusters Dataproc