Présentation des performances du pipeline

Cette page explique la terminologie et les concepts de base du traitement des pipelines dans Cloud Data Fusion.

Les performances du pipeline dépendent des aspects suivants:

  • La taille et les caractéristiques de vos données
  • La structure de votre pipeline
  • Dimensionnement des clusters
  • Plug-ins utilisés par votre pipeline Cloud Data Fusion

Terminologie du traitement des pipelines dans Cloud Data Fusion

La terminologie suivante s'applique au traitement des pipelines Cloud Data Fusion.

Type de machine
Type de machines virtuelles (VM) utilisées (processeur, mémoire).
Cluster
Groupe de VM qui fonctionnent ensemble pour gérer des tâches de traitement de données à grande échelle.
Nœuds maîtres et nœuds de calcul
Machines physiques ou virtuelles capables d'effectuer des traitements. Les nœuds maîtres sont généralement coordonner le travail. Les nœuds de calcul exécutent des exécuteurs qui traitent les données. Ils ont les caractéristiques de la machine (quantité de mémoire et nombre de vCore disponibles pour processus).
vCores, cœurs ou processeurs
Ressource qui effectue des calculs. Habituellement, vos nœuds fournissent une certaine quantité Les cœurs et vos exécuteurs demandent un ou plusieurs processeurs. Équilibrez cela avec mémoire, sinon vous risquez de sous-utiliser votre cluster.
Pilote
VM unique qui agit en tant que coordinateur central pour l'ensemble du cluster. Il gère les tâches, planifie le travail sur les nœuds de calcul et surveille leur progression.
Exécuteurs
Plusieurs VM exécutant les tâches réelles de traitement des données, comme indiqué par la pilote. Vos données sont partitionnées et distribuées entre ces exécuteurs le traitement en parallèle. Pour utiliser tous les exécuteurs, vous devez avoir suffisamment les écrans fractionnés.
Fractionnements ou partitions
Un ensemble de données est divisé en partitions (autres partitions de nom) dans lesquelles traiter les données en parallèle. Si vous n'avez pas assez de divisions, vous ne pouvez pas utiliser l'intégralité cluster.

Présentation du réglage des performances

Les pipelines sont exécutés sur des clusters de machines. Lorsque vous choisissez d'exécuter Pipelines Cloud Data Fusion sur des clusters Dataproc (qui sont les approvisionneur recommandé), il utilise YARN (autre encore, un autre négociateur de ressources) derrière en coulisses. Dataproc utilise YARN pour gérer les ressources le cluster. Lorsque vous soumettez un pipeline Cloud Data Fusion à un Cluster Dataproc, le job Apache Spark sous-jacent utilise YARN pour l'allocation des ressources et la planification des tâches.

Un cluster se compose de nœuds maîtres et de nœuds de calcul. Les nœuds maîtres sont généralement coordonnent le travail, tandis que les nœuds de calcul exécutent le travail réel. Les clusters comportent normalement un petit nombre de nœuds maîtres (un ou trois) un grand nombre de nœuds de calcul. YARN est utilisé comme système de coordination des tâches. Exécutions YARN un service Resource Manager sur le nœud maître et un service Node Manager sur chaque nœud nœud de calcul. Les gestionnaires de ressources coordonnent tous les gestionnaires de nœuds pour pour déterminer où créer et exécuter des conteneurs sur le cluster.

Gestionnaires de ressources YARN et gestionnaires de nœuds

Sur chaque nœud de calcul, Node Manager réserve une partie des ressources disponibles de mémoire système et de processeurs pour l'exécution des conteneurs YARN. Par exemple, sur un Cluster Dataproc, si vos nœuds de calcul sont des VM n1-standard-4 (4 processeurs, 15 Go de mémoire), chaque gestionnaire de nœuds réserve 4 processeurs et 12 Go de mémoire pour l'exécution des conteneurs YARN Les 3 Go de mémoire restants est conservé pour les autres services Hadoop exécutés sur le nœud.

Lorsqu'un pipeline est exécuté sur YARN, il lance un pilote de workflow de pipeline, le pilote Spark et de nombreux exécuteurs Spark dans Dataproc.

Conducteurs et exécuteurs

Le pilote de workflow est chargé de lancer un ou plusieurs programmes Spark qui constituent un pipeline. Le pilote du workflow n'effectue généralement pas beaucoup de travail. Chaque Le programme Spark exécute un seul pilote Spark et plusieurs exécuteurs Spark. La les coordonnées du pilote fonctionnent entre les exécuteurs, mais n’effectuent généralement aucune le travail réel. La majeure partie du travail est effectuée par les exécuteurs Spark.

Étape suivante