Pipelineleistung

Die Pipelineleistung hängt von der Größe und den Eigenschaften Ihrer Daten, der Struktur Ihrer Pipeline, der Clustergröße und den von Ihrer Cloud Data Fusion-Pipeline verwendeten Plug-ins ab. Auf dieser Seite werden die Pipeline-Einstellungen beschrieben, die Sie anpassen können, und die Auswirkungen auf die Leistung.

Größenanpassung bei Clustern

Master-Knoten verwenden Ressourcen proportional zur Anzahl der Pipelines oder zusätzlichen Anwendungen, die auf dem Cluster ausgeführt werden. Wenn Sie Pipelines in sitzungsspezifischen Clustern ausführen, verwenden Sie 2 CPUs und 8 GB Arbeitsspeicher für die Masterknoten. Wenn Sie nichtflüchtige Cluster verwenden, benötigen Sie möglicherweise größere Masterknoten, um mit dem Workflow Schritt zu halten. Sie können die Speicher- und CPU-Auslastung auf dem Knoten überwachen, um festzustellen, ob Sie größere Master-Knoten benötigen. Wir empfehlen, die Größe Ihrer Worker-Knoten mit mindestens 2 CPUs und 8 GB Arbeitsspeicher anzupassen. Sie müssen größere Worker verwenden, wenn Sie die Pipelines für mehr Arbeitsspeicher konfiguriert haben.

Achten Sie darauf, dass Ihr Cluster über genügend Knoten verfügt, um eine möglichst parallele Verarbeitung zu ermöglichen, um die Ausführungszeit zu minimieren.

Weitere Informationen zur Clustergröße

Ressourcen

Pipelines ermöglichen Ihnen, die Anzahl der CPUs und die Speicherkapazität anzugeben, die der Spark-Treiber und jedem Spark-Executor gewährt werden soll. Da der Treiber nicht so gut funktioniert, reicht seine Standardkapazität von 1 CPU und 2 GB Arbeitsspeicher aus, um die meisten Pipelines auszuführen. Möglicherweise müssen Sie den Speicher für Pipelines erhöhen, die viele Phasen oder große Schemas enthalten. Die Anzahl der CPUs, die einem Executor zugewiesen sind, bestimmt die Anzahl der Aufgaben, die der Executor parallel ausführen kann.

Weitere Informationen zu Ressourcen

Ausführungsengine-Abstimmung

In Cloud Data Fusion-Versionen ab Version 6.4 konfiguriert Cloud Data Fusion die Ausführungs-Engine automatisch für die beste Leistung für sitzungsspezifische Dataproc-Cluster. Für statische Dataproc-Cluster konfigurieren Sie Ihre Ausführungs-Engine.

Weitere Informationen

Weitere Informationen zu den hier vorgestellten Konzepten finden Sie im Leitfaden zur Leistungsoptimierung der CDAP-Datenpipeline.