Questa pagina spiega la terminologia e i concetti di base dell'elaborazione della pipeline in in Cloud Data Fusion.
Le prestazioni della pipeline dipendono dai seguenti aspetti:
- Le dimensioni e le caratteristiche dei tuoi dati
- La struttura della pipeline
- Dimensionamento del cluster
- Plug-in utilizzati dalla pipeline di Cloud Data Fusion
Terminologia dell'elaborazione della pipeline in Cloud Data Fusion
La seguente terminologia si applica all'elaborazione della pipeline in in Cloud Data Fusion.
- Tipo di macchina
- Tipo di macchine virtuali (VM) utilizzate (CPU, memoria).
- Cluster
- Un gruppo di VM che lavorano insieme per gestire attività di elaborazione dati su larga scala.
- Nodi master e worker
- Macchine fisiche o virtuali che possono eseguire l'elaborazione. I nodi master di solito coordinare il lavoro. I nodi worker eseguono esecutori che elaborano i dati. Hanno delle caratteristiche delle macchine (quantità di memoria e numero di vCore disponibili processi).
- vCore, core o CPU
- Una risorsa che si occupa di computing. Di solito i nodi forniscono una certa quantità I core e i tuoi esecutori richiedono una o più CPU. Bilancialo insieme a o potresti sottoutilizzare il cluster.
- Driver
- Una singola VM che funge da coordinatore centrale per l'intero cluster. it gestisce le attività, pianifica il lavoro su più nodi worker e monitora l'avanzamento del job.
- Esecutori
- Più VM che eseguono le effettive attività di elaborazione dei dati, come indicato dalle conducente. I tuoi dati sono partizionati e distribuiti tra questi esecutori nell'elaborazione parallela. Per utilizzare tutti gli esecutori, devi disporre di un numero sufficiente .
- Suddivisioni o partizioni
- Un set di dati viene suddiviso in suddivisioni (altre partizioni di nomi) per elaborare i dati in parallelo. Se non hai abbastanza suddivisioni, non puoi utilizzare l'intero in un cluster Kubernetes.
Panoramica dell'ottimizzazione delle prestazioni
Le pipeline vengono eseguite su cluster di macchine. Quando scegli di eseguire Pipeline di Cloud Data Fusion sui cluster Dataproc (ovvero provisioner consigliato), utilizza YARN (Yet Other Resource Negotiator) dietro su questi cluster. Dataproc utilizza YARN per la gestione delle risorse nel cluster. Quando invii una pipeline di Cloud Data Fusion a un Dataproc, il job Apache Spark sottostante sfrutta YARN per l'allocazione delle risorse e la pianificazione delle attività.
Un cluster è costituito da nodi master e nodi worker. I nodi master sono generalmente responsabile del coordinamento del lavoro, mentre i nodi worker eseguono il lavoro effettivo. I cluster normalmente hanno un numero ridotto di nodi master (uno o tre) e un di un grande numero di worker. YARN viene utilizzato come sistema di coordinamento del lavoro. Corse YARN un servizio Resource Manager sul nodo master e un servizio Node Manager su del nodo worker. I gestori delle risorse si coordinano tra tutti i gestori dei nodi per determinare dove creare ed eseguire container sul cluster.
Su ciascun nodo worker, il gestore dei nodi prenota una parte e CPU per l'esecuzione di container YARN. Ad esempio, in una Cluster Dataproc, se i nodi worker sono VM n1-standard-4 (4 CPU, 15 GB di memoria), ogni Node Manager riserva 4 CPU e 12 GB di memoria per l'esecuzione di container YARN. I 3 GB di memoria rimanenti viene lasciato agli altri servizi Hadoop in esecuzione sul nodo.
Quando una pipeline viene eseguita su YARN, avvia un driver del flusso di lavoro della pipeline, driver Spark e molti esecutori Spark in Dataproc.
Il driver del flusso di lavoro è responsabile dell'avvio di uno o più programmi Spark che compongono una pipeline. Il driver del flusso di lavoro di solito non lavora molto. Ciascuna Il programma Spark esegue un singolo driver Spark e più esecutori Spark. La le coordinate del driver funzionano tra gli esecutori, ma di solito non eseguono lavoro vero e proprio. La maggior parte del lavoro effettivo viene svolta dagli esecutori di Spark.
Passaggi successivi
- Scopri di più sull'elaborazione parallela in Cloud Data Fusion.