Configuration d'un cluster Dataproc

Dans Cloud Data Fusion, la configuration d'un cluster consiste à définir la manière Les pipelines de traitement des données utilisent des ressources de calcul lors de l'exécution de Spark sur Dataproc. Cette page décrit les principales approches configuration du cluster.

Clusters éphémères par défaut (recommandé)

L'utilisation des clusters par défaut est l'approche recommandée pour Pipelines Cloud Data Fusion

  • Cloud Data Fusion provisionne et gère automatiquement les espaces de travail éphémères Clusters Dataproc pour chaque exécution de pipeline. Il crée un au début de l'exécution du pipeline, puis le supprime l'exécution du pipeline.
  • Avantages des clusters éphémères:
    • Simplicité: vous n'avez pas besoin de configurer ni de gérer manuellement cluster.
    • Rentabilité: vous ne payez que pour les ressources utilisées pendant l'exécution du pipeline.

Pour ajuster les clusters et ajuster les performances, consultez la page Dimensionnement des clusters.

Clusters statiques (pour des scénarios spécifiques)

Dans les scénarios suivants, vous pouvez utiliser des clusters statiques:

  • Pipelines de longue durée: pour les pipelines qui s'exécutent en continu ou pour sur des périodes prolongées, un cluster statique peut être à créer et à supprimer de manière répétée des clusters éphémères.
  • Gestion centralisée des clusters: si votre organisation a besoin un contrôle centralisé sur les règles de création et de gestion des clusters, les clusters peuvent être utilisés avec des outils tels que Terraform.
  • Date et heure de création du cluster: temps nécessaire à la création d'un cluster. pour chaque pipeline est interdisant pour votre cas d'utilisation.

Cependant, les clusters statiques nécessitent une configuration plus manuelle et impliquent une gestion vous-même le cycle de vie du cluster.

Pour utiliser un cluster statique, vous devez définir les éléments suivants : Propriété sur le cluster Dataproc:

dataproc:dataproc.conscrypt.provider.enable=false

Options de configuration des clusters statiques

Si vous choisissez d'utiliser des clusters statiques, Cloud Data Fusion propose de configuration pour les aspects suivants:

  • Worker machine type (Type de machine de nœud de calcul) : spécifiez le type de machine virtuelle du nœud de calcul. les nœuds du cluster. Cela détermine les vCPU et la mémoire disponibles pour chaque nœud de calcul.
  • Nombre de nœuds de calcul: définissez le nombre initial de nœuds de calcul dans votre cluster. Dataproc peut toujours procéder à un autoscaling de ce nombre, en fonction charge de travail spécifique.
  • Zone: sélectionnez la zone Google Cloud de votre cluster. La zone géographique peut affecter la localité des données et les performances du réseau.
  • Configurations supplémentaires: vous pouvez configurer des options avancées pour votre cluster statique, comme les paramètres de préemption, les paramètres réseau les actions d'initialisation.

Bonnes pratiques

Lorsque vous créez un cluster statique pour vos pipelines, utilisez le code suivant : de configuration.

Paramètres Description
yarn.nodemanager.delete.debug-delay-sec Conserve les journaux YARN.
Valeur recommandée: 86400 (équivalent à un jour)
yarn.nodemanager.pmem-check-enabled Permet à YARN de vérifier les limites de mémoire physique et de supprimer les conteneurs si elles vont au-delà de la mémoire physique.
Valeur recommandée: false
yarn.nodemanager.vmem-check-enabled Permet à YARN de vérifier les limites de mémoire virtuelle et de supprimer les conteneurs si elles vont au-delà de la mémoire physique.
Valeur recommandée: false.

Pour en savoir plus, consultez Exécuter un pipeline sur un cluster Dataproc existant.

Réutiliser des clusters

Vous pouvez réutiliser des clusters Dataproc entre les exécutions pour améliorer le temps de traitement. La réutilisation du cluster est implémentée dans un modèle semblable à la connexion le pooling ou le pooling de threads. Tout cluster est maintenu et opérationnel pendant une fois l'exécution terminée. Lorsqu'une nouvelle exécution est lancée, elle essaie de trouver un cluster inactif qui correspond à la configuration du profil de calcul est disponible. Si un cluster est présent, il sera utilisé, sinon un nouveau cluster sera démarré.

Remarques concernant la réutilisation de clusters

  • Les clusters ne sont pas partagés. Semblable au cluster éphémère standard modèle de provisionnement, un cluster exécute une seule exécution de pipeline à la fois. A n'est réutilisé que s'il est inactif.
  • Si vous activez la réutilisation du cluster pour toutes vos exécutions, le nombre nécessaire de clusters pour traiter toutes vos exécutions seront créés en fonction des besoins. Semblable à la section approvisionneur Dataproc éphémère, il n'existe pas de contrôle direct le nombre de clusters créés ; Vous pouvez toujours utiliser des devis Google Cloud pour gérer les ressources. Par exemple, si vous exécutez 100 exécutions avec 7 exécutions au maximum vous avez jusqu'à sept clusters à un moment donné.
  • Les clusters sont réutilisés entre différents pipelines dès que ces pipelines utilisent le même profil et partagent les mêmes paramètres de profil. Profil si personnalisée est utilisée, les clusters seront tout de même réutilisés, mais uniquement si sont parfaitement identiques, y compris tous les paramètres de cluster tels que l'étiquetage de cluster.

  • Lorsque la réutilisation de cluster est activée, deux facteurs importants sont à prendre en compte en termes de coût:

    • Moins de ressources sont utilisées pour le démarrage et l'initialisation du cluster.
    • Davantage de ressources sont utilisées pour que les clusters restent inactifs entre le pipeline et après la dernière exécution du pipeline.

Bien qu'il soit difficile de prévoir l'impact sur les coûts de la réutilisation d'un cluster, vous pouvez utiliser un pour économiser le plus possible. La stratégie consiste à identifier un chemin critique pour des pipelines enchaînés et de permettre la réutilisation des clusters pour ce chemin critique. Cela permettrait de s'assurer que le cluster est immédiatement réutilisé, de ne pas perdre de temps d'inactivité et de maximiser et améliorer leurs performances.

Activer la réutilisation du cluster

Dans la section "Configuration de Compute" de la configuration de pipeline déployée ou lorsque Création d'un profil de calcul:

  • Activez l'option Skip Cluster Delete (Ignorer la suppression du cluster).
  • Le temps d'inactivité maximal est la durée pendant laquelle un cluster attend le prochain pipeline pour le réutiliser. Par défaut, le temps d'inactivité maximal est de 30 minutes. Concernant le temps d'inactivité maximal, le coût par rapport à la disponibilité du cluster en vue de sa réutilisation. Plus la valeur définie sur "Temps d'inactivité maximal", plus il y a de clusters inactifs et prêts à être exécutés.

Résoudre les problèmes de compatibilité des versions

Problème : la version de votre environnement Cloud Data Fusion peut ne pas être compatible avec la version de votre cluster Dataproc.

Recommandé: Effectuez une mise à niveau vers la dernière version de Cloud Data Fusion et utilisez l'une des versions compatibles de Dataproc.

Les versions antérieures de Cloud Data Fusion ne sont compatibles qu'avec versions non compatibles de Dataproc. Dataproc ne fournit pas de mises à jour ni de compatibilité pour les clusters créés avec ces versions. Même si vous pouvez continuer à exécuter un cluster a été créée avec une version non compatible, nous vous recommandons de la remplacer par une autre créé avec version compatible.

Version de Cloud Data Fusion Version de Dataproc
6.10 et versions ultérieures 2.1, 2.0 *
6,9 2.1, 2.0, 1.5 *
6,7-6,8 2, 1,5*
6,4-6,6 2,0*, 1,3**
6,1-6,3 1,3**

* Les versions 6.4 et ultérieures de Cloud Data Fusion sont compatible avec vers les versions compatibles de Dataproc. Sauf en cas de fonctionnalités spécifiques du système d'exploitation sont nécessaires, il est recommandé de spécifier Version d'image major.minor.
Pour spécifier la version d'OS utilisée dans votre cluster Dataproc, doit être compatible avec l'une des versions de Dataproc compatibles de Cloud Data Fusion dans le tableau précédent.

** Les versions 6.1 à 6.6 de Cloud Data Fusion sont les suivantes : compatible avec version 1.3 de Dataproc non compatible.

Étape suivante